< ResNet은 기울기 소실 문제 해결하기 위해 나온 거 아니에요? > 아닙니다!! skip-connection이 기울기 소실 문제"도" 완화시켜주는 녀석인 것은 맞는데 기울기 소실 문제"를" 해결하기 위해 제안된 것은 아닌거죠. 관련 내용이 쓰여진 논문의 일부를 가져왔습니다. We argue that this optimization difficulty is unlikely to be caused by vanishing gradients. 우리는 이러한 최적화 어려움이 기울기 소실(vanishing gradients) 문제로 인한 것 같지 주장합니다. These plain networks are trained with BN [16], which ensures forward propagated signals to have non-zero variances. 이러한 일반 네트워크들은 배치 정규화(BN)[16]를 사용하여 훈련되었으며, 이는 순전파된 신호들이 0이 아닌 분산을 가지도록 보장합니다. We also verify that the backward propagated gradients exhibit healthy norms with BN. 우리는 또한 배치 정규화를 사용할 때 역전파된 기울기들이 정상적인 크기를 보인다는 것을 확인했습니다. So neither forward nor backward signals vanish. 따라서 순전파 신호나 역전파 신호 모두 In fact, the 34-layer plain net is still able to achieve competitive accuracy (Table 3), suggesting that the solver works to some extent. 실제로, 34층의 일반 네트워크가 여전히 경쟁력 있는 정확도를 달성할 수 있다는 점(표 3)은 솔버가 어느 정도 작동한다는 것을 시사합니다. We conjecture that the deep plain nets may have exponentially low convergence rates, which impact the reducing of the training error3. 우리는 깊은 일반 네트워크가 지수적으로 낮은 수렴 속도를 가질 수 있으며, 이것이 훈련 오차의 감소에 영향을 미칠 것이라고 추측합니다. The reason for such optimization difficulties will be studied in the future. 이러한 최적화 어려움의 이유는 향후 연구될 것입니다. => Loss Landscape 가 꼬불꼬불해진다는 향후 연구가 있었습니다. (하지만 이것도 현상에 대한 연구이지 매커니즘을 얘기해주는 것은 아니죠) LEVEL 2: Legend 13 & TTT 도강하기 🙄 (저장해두고 보기) 👉 ua-cam.com/play/PL_iJu012NOxd_lWvBM8RfXeB7nPYDwafn.html Legend 13 전체 강의 (9시간) 정보! 👉 hyukppen.modoo.at/?link=5db82s6p 🔥 혁펜하임과 딥러닝 마스터하기! LEVEL 1 - Easy! 딥러닝 hyukppen.modoo.at/?link=2n1a6p7t LEVEL 1 - 인스톨! 파이토치 hyukppen.modoo.at/?link=131k3k7g LEVEL 2 - Legend 13 hyukppen.modoo.at/?link=5db82s6p LEVEL 2 - TTT: To The Transformer hyukppen.modoo.at/?link=21c4dj8y LEVEL 3 - ATT: After The Transformer hyukppen.modoo.at/?link=2mcbufeg ‼ 강의 모집 공지 가장 빠르게 받아볼 수 있는 곳! 혁펜하임 딥러닝 톡방 👉 open.kakao.com/o/g8SgoOSd (참여코드: 3300)
영상을 보고 나서 layer의 response가 천천히 변하는게 이상적이라면, batch norm을 쓰면 다 해결되는게 아닌가? 라는 생각을 가졌는데, 곰곰히 생각해보니 혁펜하임님이 인용하신 실험 결과에 반례가 있었네요. resnet paper의 implementation을 찾아보니까 plain과 resnet모두 batch norm을 통과시킨 것 같은데, skip connection구조의 layer response가 plain보다 std이 더 작네요. 영상을 보기 전까지는 resnet은 gradient vanishing을 막아주니까, 긴 레이어에서 학습이 잘 되는 것이라고 생각하고 있었는데, 그것 말고도 "layer response가 천천히 변하는게 prediction에 긍정적인 영향을 준다"라는 아이디어도 얻어갑니다. 좋은 영상 감사합니다 :)
레이어의 출력이 기존은 F(x), skip 있으면 x+F(x) 인데, F는 학습 초기에는 0 행렬에 가깝습니다. 따라서 레이어의 출력이 기존은 0 근처에서, skip 있으면 x 근처에서부터 출발해서 학습해 나가는 것인데, 사실상 출발한 곳에서 가까운, 적당한 local min으로 수렴하게 되기 때문에 skip 이 있으면 x 근처로 수렴하게 될 것이고 x가 들어와서 x 근처의 값이 나오기 때문에 "차근차근" 이라는 말을 할 수 있는 것이죠 ㅎㅎ
< ResNet은 기울기 소실 문제 해결하기 위해 나온 거 아니에요? >
아닙니다!!
skip-connection이
기울기 소실 문제"도" 완화시켜주는 녀석인 것은 맞는데
기울기 소실 문제"를" 해결하기 위해 제안된 것은 아닌거죠.
관련 내용이 쓰여진 논문의 일부를 가져왔습니다.
We argue that this optimization difficulty is unlikely to be caused by vanishing gradients.
우리는 이러한 최적화 어려움이 기울기 소실(vanishing gradients) 문제로 인한 것 같지 주장합니다.
These plain networks are trained with BN [16], which ensures forward propagated signals to have non-zero variances.
이러한 일반 네트워크들은 배치 정규화(BN)[16]를 사용하여 훈련되었으며, 이는 순전파된 신호들이 0이 아닌 분산을 가지도록 보장합니다.
We also verify that the backward propagated gradients exhibit healthy norms with BN.
우리는 또한 배치 정규화를 사용할 때 역전파된 기울기들이 정상적인 크기를 보인다는 것을 확인했습니다.
So neither forward nor backward signals vanish.
따라서 순전파 신호나 역전파 신호 모두
In fact, the 34-layer plain net is still able to achieve competitive accuracy (Table 3), suggesting that the solver works to some extent.
실제로, 34층의 일반 네트워크가 여전히 경쟁력 있는 정확도를 달성할 수 있다는 점(표 3)은 솔버가 어느 정도 작동한다는 것을 시사합니다.
We conjecture that the deep plain nets may have exponentially low convergence rates, which impact the reducing of the training error3.
우리는 깊은 일반 네트워크가 지수적으로 낮은 수렴 속도를 가질 수 있으며, 이것이 훈련 오차의 감소에 영향을 미칠 것이라고 추측합니다.
The reason for such optimization difficulties will be studied in the future.
이러한 최적화 어려움의 이유는 향후 연구될 것입니다.
=> Loss Landscape 가 꼬불꼬불해진다는 향후 연구가 있었습니다.
(하지만 이것도 현상에 대한 연구이지 매커니즘을 얘기해주는 것은 아니죠)
LEVEL 2: Legend 13 & TTT 도강하기 🙄
(저장해두고 보기)
👉 ua-cam.com/play/PL_iJu012NOxd_lWvBM8RfXeB7nPYDwafn.html
Legend 13 전체 강의 (9시간) 정보!
👉 hyukppen.modoo.at/?link=5db82s6p
🔥 혁펜하임과 딥러닝 마스터하기!
LEVEL 1 - Easy! 딥러닝
hyukppen.modoo.at/?link=2n1a6p7t
LEVEL 1 - 인스톨! 파이토치
hyukppen.modoo.at/?link=131k3k7g
LEVEL 2 - Legend 13
hyukppen.modoo.at/?link=5db82s6p
LEVEL 2 - TTT: To The Transformer
hyukppen.modoo.at/?link=21c4dj8y
LEVEL 3 - ATT: After The Transformer
hyukppen.modoo.at/?link=2mcbufeg
‼ 강의 모집 공지 가장 빠르게 받아볼 수 있는 곳!
혁펜하임 딥러닝 톡방
👉 open.kakao.com/o/g8SgoOSd
(참여코드: 3300)
다음 강의는 언제인가요?
@@dlrudqhr7180 7월에 한기수 할 것 같습니다!
@@hyukppen 알겠습니다!
생각날 때마다 다시 와서 보고 있습니다. 혼자 논문 읽었을 때는 절대 생각할 수 없었던 부분까지 잘 짚어주시네요 감사합니다!
설명 지렸습니다 감사합니다.
요즘 바빠서 정신 없는데 늘 잘챙겨보고있습니당...!
ㅎㅎㅎㅎ 오랜만입니다!! 댓글 감사합니다.
영상을 보고 나서 layer의 response가 천천히 변하는게 이상적이라면, batch norm을 쓰면 다 해결되는게 아닌가? 라는 생각을 가졌는데,
곰곰히 생각해보니 혁펜하임님이 인용하신 실험 결과에 반례가 있었네요.
resnet paper의 implementation을 찾아보니까 plain과 resnet모두 batch norm을 통과시킨 것 같은데,
skip connection구조의 layer response가 plain보다 std이 더 작네요.
영상을 보기 전까지는 resnet은 gradient vanishing을 막아주니까, 긴 레이어에서 학습이 잘 되는 것이라고 생각하고 있었는데,
그것 말고도 "layer response가 천천히 변하는게 prediction에 긍정적인 영향을 준다"라는 아이디어도 얻어갑니다.
좋은 영상 감사합니다 :)
그러네요 BN이 분산을 잡아주니 어느정도 std를 알아서 필요하다면 줄일 수 있을 텐데 skip을 하니까 더 꾹꾹 눌러주게 되는모양이군요!
identity로 초기화하는건 레지듀얼을 선형으로 모델링할때는 동치지만 레즈넷이나 트랜스포머 블럭이나 레지듀얼을 보통 비선형으로 모델링하기 때문에 동치가 아니게 되네요.
성균관에서 컴퓨터 비전 연구하는 석사 과정입니다. Resnet 논문은 읽었었는데 제가 80%만 이해했었네요! 강의 감사합니다!
좋은 영상 이렇게 무료로 공개해 주셔서 감사합니다:) 혹시 8월에 8기 진행하시나요??
말씀 감사합니다 ㅎㅎ 옙 8월에 7기 진행될 옙정입니다!
12:11
1:11
질문이 있습니다. 왜 x를 넘겨주는 것만으로 신경망의 출력이 차근차근 변해가는 것인지 이해가 안 되는데 어떻게 이해할 수 있을까요?
레이어의 출력이 기존은 F(x), skip 있으면 x+F(x) 인데, F는 학습 초기에는 0 행렬에 가깝습니다.
따라서 레이어의 출력이 기존은 0 근처에서, skip 있으면 x 근처에서부터 출발해서 학습해 나가는 것인데,
사실상 출발한 곳에서 가까운, 적당한 local min으로 수렴하게 되기 때문에 skip 이 있으면 x 근처로 수렴하게 될 것이고
x가 들어와서 x 근처의 값이 나오기 때문에 "차근차근" 이라는 말을 할 수 있는 것이죠 ㅎㅎ
01:11
1:1