[Legend 13] ResNet의 Skip-connection 제대로 이해하기!

Поділитися
Вставка
  • Опубліковано 3 лют 2025

КОМЕНТАРІ • 20

  • @hyukppen
    @hyukppen  Рік тому +2

    < ResNet은 기울기 소실 문제 해결하기 위해 나온 거 아니에요? >
    아닙니다!!
    skip-connection이
    기울기 소실 문제"도" 완화시켜주는 녀석인 것은 맞는데
    기울기 소실 문제"를" 해결하기 위해 제안된 것은 아닌거죠.
    관련 내용이 쓰여진 논문의 일부를 가져왔습니다.
    We argue that this optimization difficulty is unlikely to be caused by vanishing gradients.
    우리는 이러한 최적화 어려움이 기울기 소실(vanishing gradients) 문제로 인한 것 같지 주장합니다.
    These plain networks are trained with BN [16], which ensures forward propagated signals to have non-zero variances.
    이러한 일반 네트워크들은 배치 정규화(BN)[16]를 사용하여 훈련되었으며, 이는 순전파된 신호들이 0이 아닌 분산을 가지도록 보장합니다.
    We also verify that the backward propagated gradients exhibit healthy norms with BN.
    우리는 또한 배치 정규화를 사용할 때 역전파된 기울기들이 정상적인 크기를 보인다는 것을 확인했습니다.
    So neither forward nor backward signals vanish.
    따라서 순전파 신호나 역전파 신호 모두
    In fact, the 34-layer plain net is still able to achieve competitive accuracy (Table 3), suggesting that the solver works to some extent.
    실제로, 34층의 일반 네트워크가 여전히 경쟁력 있는 정확도를 달성할 수 있다는 점(표 3)은 솔버가 어느 정도 작동한다는 것을 시사합니다.
    We conjecture that the deep plain nets may have exponentially low convergence rates, which impact the reducing of the training error3.
    우리는 깊은 일반 네트워크가 지수적으로 낮은 수렴 속도를 가질 수 있으며, 이것이 훈련 오차의 감소에 영향을 미칠 것이라고 추측합니다.
    The reason for such optimization difficulties will be studied in the future.
    이러한 최적화 어려움의 이유는 향후 연구될 것입니다.
    => Loss Landscape 가 꼬불꼬불해진다는 향후 연구가 있었습니다.
    (하지만 이것도 현상에 대한 연구이지 매커니즘을 얘기해주는 것은 아니죠)
    LEVEL 2: Legend 13 & TTT 도강하기 🙄
    (저장해두고 보기)
    👉 ua-cam.com/play/PL_iJu012NOxd_lWvBM8RfXeB7nPYDwafn.html
    Legend 13 전체 강의 (9시간) 정보!
    👉 hyukppen.modoo.at/?link=5db82s6p
    🔥 혁펜하임과 딥러닝 마스터하기!
    LEVEL 1 - Easy! 딥러닝
    hyukppen.modoo.at/?link=2n1a6p7t
    LEVEL 1 - 인스톨! 파이토치
    hyukppen.modoo.at/?link=131k3k7g
    LEVEL 2 - Legend 13
    hyukppen.modoo.at/?link=5db82s6p
    LEVEL 2 - TTT: To The Transformer
    hyukppen.modoo.at/?link=21c4dj8y
    LEVEL 3 - ATT: After The Transformer
    hyukppen.modoo.at/?link=2mcbufeg
    ‼ 강의 모집 공지 가장 빠르게 받아볼 수 있는 곳!
    혁펜하임 딥러닝 톡방
    👉 open.kakao.com/o/g8SgoOSd
    (참여코드: 3300)

    • @dlrudqhr7180
      @dlrudqhr7180 Рік тому

      다음 강의는 언제인가요?

    • @hyukppen
      @hyukppen  Рік тому

      @@dlrudqhr7180 7월에 한기수 할 것 같습니다!

    • @dlrudqhr7180
      @dlrudqhr7180 Рік тому

      @@hyukppen 알겠습니다!

  • @quruquququ7153
    @quruquququ7153 8 місяців тому

    생각날 때마다 다시 와서 보고 있습니다. 혼자 논문 읽었을 때는 절대 생각할 수 없었던 부분까지 잘 짚어주시네요 감사합니다!

  • @yohoho-y9p
    @yohoho-y9p Рік тому +1

    설명 지렸습니다 감사합니다.

  • @strzzzzzzzzz
    @strzzzzzzzzz Рік тому +1

    요즘 바빠서 정신 없는데 늘 잘챙겨보고있습니당...!

    • @hyukppen
      @hyukppen  Рік тому

      ㅎㅎㅎㅎ 오랜만입니다!! 댓글 감사합니다.

  • @djslsnxpdjxb4302
    @djslsnxpdjxb4302 Рік тому +1

    영상을 보고 나서 layer의 response가 천천히 변하는게 이상적이라면, batch norm을 쓰면 다 해결되는게 아닌가? 라는 생각을 가졌는데,
    곰곰히 생각해보니 혁펜하임님이 인용하신 실험 결과에 반례가 있었네요.
    resnet paper의 implementation을 찾아보니까 plain과 resnet모두 batch norm을 통과시킨 것 같은데,
    skip connection구조의 layer response가 plain보다 std이 더 작네요.
    영상을 보기 전까지는 resnet은 gradient vanishing을 막아주니까, 긴 레이어에서 학습이 잘 되는 것이라고 생각하고 있었는데,
    그것 말고도 "layer response가 천천히 변하는게 prediction에 긍정적인 영향을 준다"라는 아이디어도 얻어갑니다.
    좋은 영상 감사합니다 :)

    • @hyukppen
      @hyukppen  Рік тому +1

      그러네요 BN이 분산을 잡아주니 어느정도 std를 알아서 필요하다면 줄일 수 있을 텐데 skip을 하니까 더 꾹꾹 눌러주게 되는모양이군요!

  • @_dandelin
    @_dandelin Рік тому +4

    identity로 초기화하는건 레지듀얼을 선형으로 모델링할때는 동치지만 레즈넷이나 트랜스포머 블럭이나 레지듀얼을 보통 비선형으로 모델링하기 때문에 동치가 아니게 되네요.

  • @신승환-e2c
    @신승환-e2c Рік тому +1

    성균관에서 컴퓨터 비전 연구하는 석사 과정입니다. Resnet 논문은 읽었었는데 제가 80%만 이해했었네요! 강의 감사합니다!

  • @quruquququ7153
    @quruquququ7153 Рік тому +2

    좋은 영상 이렇게 무료로 공개해 주셔서 감사합니다:) 혹시 8월에 8기 진행하시나요??

    • @hyukppen
      @hyukppen  Рік тому +2

      말씀 감사합니다 ㅎㅎ 옙 8월에 7기 진행될 옙정입니다!

  • @손예진-m9x
    @손예진-m9x Рік тому

    12:11

  • @손예진-m9x
    @손예진-m9x Рік тому

    1:11

  • @dangerous_Account
    @dangerous_Account 8 місяців тому

    질문이 있습니다. 왜 x를 넘겨주는 것만으로 신경망의 출력이 차근차근 변해가는 것인지 이해가 안 되는데 어떻게 이해할 수 있을까요?

    • @hyukppen
      @hyukppen  8 місяців тому +1

      레이어의 출력이 기존은 F(x), skip 있으면 x+F(x) 인데, F는 학습 초기에는 0 행렬에 가깝습니다.
      따라서 레이어의 출력이 기존은 0 근처에서, skip 있으면 x 근처에서부터 출발해서 학습해 나가는 것인데,
      사실상 출발한 곳에서 가까운, 적당한 local min으로 수렴하게 되기 때문에 skip 이 있으면 x 근처로 수렴하게 될 것이고
      x가 들어와서 x 근처의 값이 나오기 때문에 "차근차근" 이라는 말을 할 수 있는 것이죠 ㅎㅎ

  • @손예진-m9x
    @손예진-m9x Рік тому

    01:11

  • @손예진-m9x
    @손예진-m9x Рік тому

    1:1