제가 알기로는 x, y 값은 관측에 의해 나오는 실제값(실측값)이구요, x, y는 수많은 (x, y)값의 쌍이 관측되어 존재하는 거죠. 그 수 많은 쌍의 x, y 값을 만족시키는 함수 y=wx + b를 생각해 볼 때, 함수 y는 직선이고 (x, y)값 쌍은 좌표평면에 찍힌 점으로 볼 수 있는데 그 점의 분포를 가장 잘 표현할 수 있는 함수 y의 w와 b 값을 예측해 볼 수 있는 거죠. w, b 값은 무수히 많이 나올 수 있지만, 그 중에서 점의 분포를 가능한한 적은 오차로 설명해 줄 수 있는 직선을 표현할 w, b 값을 찾는 과정이 머신러닝인 거죠.
이경록강사님. 패스트캠퍼스 LOP강의 과정들었던 서상서입니다. 개념이 헛갈렸는데 영상보고 많은 도움 얻습니다. 제가 GCP자격에 취득을 해볼려고 하는데 어떤 방법이 가장 좋을까요? 온라인 강의를 들어야 하는지..서울대에서 하는 평생교육과정도 있고 하던데요. 어떤것을 더 추천해주실수있으신가요?
좋은 영상 감사합니다~ 최소제곱법 영상도 함께 봤는데 경사하강법과 최소제곱법의 차이가 어떤것인지 알려 주실 수 없을까요? 오차를 MSE 로 설정하고 기울기와 절편을 편미분하는 과정까지는 같아보입니다. 글들을 찾아보면 다중선형회기에서는 최소제곱법 적용이 어려워 경사하강법을 사용하게 된다고 하는데 잘 와닿지 않아서 조언을 부탁드립니다. (이해에 도움이 될만한 영상이나 글이라도.. ㅠㅠ)
좋은 질문 이네요. 경사하강법과 최소제곱법은 유사해 보이지만, 차이가 있습니다. 일단, 단적으로 수식을 보시면 다릅니다. 수식으로 좀 더 설명을 드리자면, 최소제곱법은 X bar 와 Y bar 가 개입이 되죠. 그렇기 때문에 어떠한 이상치가 존재할 때 전체 평균에 편향을 가하게 됩니다. 그리고 더 직관적인 차이는 최소제곱법은 수식에 데이터를 넣고 한번에 빡 해를 구하게 됩니다. 경사하강법은 학습율과 업데이트할 gradient를 곱한 값을 차츰차츰 w, b에 업데이트 해주면서 cost 를 낮춰 주는 방향으로 지속하여 학습 합니다. 한번에 뽝은 아니죠. 다중선형회기에 최소제곱법이 적용하기 어렵다는 것은 아마 적용이 진짜 힘들다는 의미가 아니라 적용할 수 있지만 실제 결과에 대하여 대체적으로 실망스럽다가 더 맞는 표현 같습니다. 다중 선형회귀에도 최소제곱법 적용 가능하고 scikit-learn의 Linear Regression으로 적용 가능합니다.. 자 그러면 여기서부터는 official 한 의견 말고 100% 제 경험상 의견 드릴께요. 틀릴 수 있습니다. 그렇다면, 왜 경사하강법을 대다수의 알고리즘이 채택을 하는가? 복잡한 데이터셋 그리고 쉽게 결단내릴 수 없는 다중선형회귀에서 단순히 COST가 최저가 나오는 지점이 정말 최적의 모델일 수 있는가? 이 질문으로부터 시작한다고 생각합니다. 딥러닝 모델을 학습할 때도 학습세트의 최저 COST가 최고의 모델이 아니라 검증세트의 최저 COST의 모델을 뽑죠. 경사하강법을 차용해서 STEP 마다.. 즉 1번 학습하여 나온 결과에 대한 오차 -> 미분량 구해서 업데이트 할 W를 구하고 업데이트 한 후 -> 그다음 우리 모델이 얼마나 더 예측을 잘 하는가를 모니터링 하기에 용이합니다. 게다가 학습율을 곱해주기 때문에 우리는 이 학습율을 조절하는 것만으로도 학습량과 속도를 조절할 수 있습니다. 특히 단순한 문제를 넘어서 학습량과 속도를 어떻게 설정하느냐에 따라서 모델의 성능이 좌지우지 되죠. (이부분은 또다시 local, global optimum 문제로 넘어가기 때문에 일단 skip 할께요) 개념상으로는 오차가 가장 낮은 지점이 최고 성능을 내는 모델이 맞지만, 실 사례에서는 그렇지 않기 때문에, 가중치를 한번에 빡 업데이트 하지 않고 변화량을 보기에도 유용하다는 겁니다.
좋은 질문입니다. 저도 처음에는 굉장히 궁금 했던 부분이기도 했구요. 실제 손실함수가 더욱 더 구불구불하게 더 복잡해지게 되고 단순 선형회귀처럼 한 방에 딱 떨어지는 값이 안나옵니다. 현실적으로 손실=0은 없죠. 그래서 조금씩 w, b,를 업데이트 해 나가면서 가장 최선의 손실 값을 찾아나간다고 봐주기면 될 것 같습니다
@@teddynote 1년이 지났는데, 지금 질문해도 답변을 달아줄지 모르겠네요. 저는 경사하강법의 핵심이 윗분이 질문한거에 있다고 생각하거든요. 바로 미분해서 0이되는 값을 계산을 통해서 구할수 없나요? 없다면 왜 없나요? 최소제곱법에선 구했잖아요. 물론 구할수 없기 때문에 learning rate를 줘서 계속 찾아간다는 건 아는데...왜 못구하는지 자세한 설명은 불가능한가요?
잔차(residual) 는 오차(Error)라고 생각할 때, 바로 이 오차를 음수 값이 나오지 않도록 만듭니다. 즉 거리를 구한다라고 생각하면 됩니다. 절대값을 씌우는 방법도 있고 제곱을 씌워 음수가 나오지 않게 만들고, 제곱 오차에 합을 구하니 너무 값이 커지기 때문에 평균을 구합니다
안녕하세요! 궁금한게 생겨서 질문 드립니다. "W 하나만 고려했을 때 수식에 따라 편차가 최저점으로 다가갈 수 있다" 라는 것은 이해가 됐습니다만 W가 최저점으로 다가가지만 b는 최저점에서 멀어지는 상황도 있을 것 같은데 b가 고정된 것이 아니고 이전 식의 편차에 따라 W와 함께 변한다면 이 두 "각각의 변수 W,b가 주어진 식의 반복된 연산을 통해 상호 보완적으로 편차를 최저점을 향해 다가가게 할 것이다"를 어떻게 확신하는 지 궁금합니다. 감사합니다
말씀해주신 것처럼 w, b를 동시에 업데이트하면서 변화된 w, b 에 따라 계산된 loss를 줄여 나가게됩니다. 이 다음 영상이 파이썬 코드 구현에 대한 내용인데요. 코드로 계산된 손실 값을 보면 w, b 가 동시에 변하는데 변하는 방향성이 최종 손실이 줄어드는 방향으로 변화하는 것을 확인하실 수 있습니다.
와 영어 강의 진짜 3시간을 돌려봐도 이해가 안된게 20분도 안되는 강의로 이해가 될 줄은 상상도 못했네요... 진짜 감사합니다 ㅠㅠㅠㅠ 명강의십니다
감사합니다 😄😆
정말최종최종 헷갈릴까봐 계속 적어주시고... 감동이예요오ㅠㅠ 감사합니다~~
감사합니다 :)
와~~ 혼자 데이터사이언스 공부하는데, 돌고돌아 왔는데 너무 큰 도움이 되었습니다!! 감사해요!!:)
발표준비하느라 막막했는데 설명을 너무 쉽게 해주셔서 드디어 이해했어요!! 감사합니다 ㅠㅠ
도움이 되셨다니 다행이네요~
어려울수 있는 개념을 쉽게 잘 설명해주셔서 감사합니다. 갓테디노트! 최고!
감사합니다!!!!! :)
좋은 강의 감사합니다! 이 영상을 계기로 구독신청했습니다.
구독 감사합니다! 앞으로도 더욱 유익한 콘텐츠 만들겠습니다^^
편미분에 대한 개념이 부족해서 바이어스에 대한 식을 유도하지 못하고 이해하지 못한거 였습니다. 너무 감사합니다.
넵 감사합니다
혼자 머신러닝 공부하다가 수준의 격차를 체감하던 중 너무 좋은 강의 만났어요!
아직 초기지만 열심히 해보겠습니다..!
뽜이팅 입니다~^^
메모: 손실함수에서 손실이 가장작은부분- 이차함수기울기의 꼭짓점> 접선의기울기 0되는점을찾는방법> 경사하강법!
너무 감사합니다.
자세하게 내용 설명해주셔서 ㅠ겨우 풀었습니다.
구독하겠습니다. 좋은영상부탁드립니다.
좋은 말씀 감사합니다. 앞으로도 도움이 되는 영상 만들겠습니다~^^
감사합니다! 구독했습니다~ 앞으로도 좋은 영상부탁드려요 ㅎㅎ
좋은 영상 많이 만들겠습니다~ 구독 감사합니다~
사랑합니다 선생님
강의 감사합니다
사랑합니다
감사합니다. ~~
감사합니다
미쳤다 감사합니다
감사합니다🫡
감사합니다~!
감사합니다 :)
감사합니다. 심봉사 눈을 뜨네요😮
구독했습니다.^^
감사합니다~!
이해하는데 정말 많은 도움이 되었습니다 혹시 멀티디멘션 등에 대해서 설명하실 생각이나 이해하기 쉬운 자료가 있을까요^^
구독하고 갑니다 쉽게 설명해주셔서 감사합니다.
구독 감사합니다~!
굳굳
8:53
여기서 왜 X가 나오는지 이해가 안되는대 설명
해 주시면 감사드리겠습니다.
다른 강의들 모두 그냥 편미분 하니까 저렇게 된다 라고밖에 설명을 안해줘서 이해가 안되서요
어떻게 미분을 했는지 자세히 설명 부탁드립니다.
강의 감사합니다.
미분에 대한 영상은
ua-cam.com/video/vS51prw_yfw/v-deo.html
여기서 보시면 됩니다~
기울기 선은 점을 지나는 선을 그리셨는데.. 다른 점에 닿지 않는 선을 긋고 그 선의 기울기를 말하는건가요.??
친절한 설명 감사합니다ㅠㅠ 질문이 하나 있습니다. 그러면 y=wx+b에서 w와 b가 변수이고 x는 상수인 건가요?...
w, b가 회귀 계수가 되구요 x가 변수가 됩니다. 반대로 생각하시면 됩니다.
제가 알기로는 x, y 값은 관측에 의해 나오는 실제값(실측값)이구요,
x, y는 수많은 (x, y)값의 쌍이 관측되어 존재하는 거죠.
그 수 많은 쌍의 x, y 값을 만족시키는 함수 y=wx + b를 생각해 볼 때,
함수 y는 직선이고 (x, y)값 쌍은 좌표평면에 찍힌 점으로 볼 수 있는데 그 점의 분포를 가장 잘 표현할 수 있는 함수 y의 w와 b 값을 예측해 볼 수 있는 거죠.
w, b 값은 무수히 많이 나올 수 있지만, 그 중에서 점의 분포를 가능한한 적은 오차로 설명해 줄 수 있는 직선을 표현할 w, b 값을 찾는 과정이 머신러닝인 거죠.
혹시 지금 필기노트 무슨 앱인지 알수있나여?
epic pen 입니다.
안녕하세요 강의 잘 봤습니다
궁금한게 있어서 댓글 남기는데요, 손실함수의 개형이 3차원에 그려지는 것이 저기 w,b에 대한 다변수함수의 그래프 인가요 ? 영상에선 이차함수라고 하셨는데 이해를 돕기 위함인가여
그리고 w와 b에 대해 편미분 한 값이 왜 예측값의 w와b로 반영되는지 잘 이해가 가지않아요 ㅠ.ㅠ 그래프적으로 봤을때 특정지점에서의 기울기를 구한것 아닌가요 ?
이경록강사님. 패스트캠퍼스 LOP강의 과정들었던 서상서입니다. 개념이 헛갈렸는데 영상보고 많은 도움 얻습니다. 제가 GCP자격에 취득을 해볼려고 하는데 어떤 방법이 가장 좋을까요?
온라인 강의를 들어야 하는지..서울대에서 하는 평생교육과정도 있고 하던데요. 어떤것을 더 추천해주실수있으신가요?
서울대 과정은 라이브로 진행하기 때문에 몰입도는 더 있습니다. 다만 가격이 조금 더 비싸구요. 저렴하게 집에서 편하게 들으실 수 있는 온라인 VOD 과정도 충분히 좋습니다^^
좋은 영상 감사합니다~
최소제곱법 영상도 함께 봤는데 경사하강법과 최소제곱법의 차이가 어떤것인지 알려 주실 수 없을까요?
오차를 MSE 로 설정하고 기울기와 절편을 편미분하는 과정까지는 같아보입니다.
글들을 찾아보면 다중선형회기에서는 최소제곱법 적용이 어려워 경사하강법을 사용하게 된다고 하는데
잘 와닿지 않아서 조언을 부탁드립니다. (이해에 도움이 될만한 영상이나 글이라도.. ㅠㅠ)
좋은 질문 이네요.
경사하강법과 최소제곱법은 유사해 보이지만, 차이가 있습니다. 일단, 단적으로 수식을 보시면 다릅니다. 수식으로 좀 더 설명을 드리자면, 최소제곱법은 X bar 와 Y bar 가 개입이 되죠. 그렇기 때문에 어떠한 이상치가 존재할 때 전체 평균에 편향을 가하게 됩니다. 그리고 더 직관적인 차이는 최소제곱법은 수식에 데이터를 넣고 한번에 빡 해를 구하게 됩니다. 경사하강법은 학습율과 업데이트할 gradient를 곱한 값을 차츰차츰 w, b에 업데이트 해주면서 cost 를 낮춰 주는 방향으로 지속하여 학습 합니다. 한번에 뽝은 아니죠.
다중선형회기에 최소제곱법이 적용하기 어렵다는 것은 아마 적용이 진짜 힘들다는 의미가 아니라 적용할 수 있지만 실제 결과에 대하여 대체적으로 실망스럽다가 더 맞는 표현 같습니다. 다중 선형회귀에도 최소제곱법 적용 가능하고 scikit-learn의 Linear Regression으로 적용 가능합니다..
자 그러면 여기서부터는 official 한 의견 말고 100% 제 경험상 의견 드릴께요. 틀릴 수 있습니다.
그렇다면, 왜 경사하강법을 대다수의 알고리즘이 채택을 하는가?
복잡한 데이터셋 그리고 쉽게 결단내릴 수 없는 다중선형회귀에서 단순히 COST가 최저가 나오는 지점이 정말 최적의 모델일 수 있는가? 이 질문으로부터 시작한다고 생각합니다. 딥러닝 모델을 학습할 때도 학습세트의 최저 COST가 최고의 모델이 아니라 검증세트의 최저 COST의 모델을 뽑죠.
경사하강법을 차용해서 STEP 마다.. 즉 1번 학습하여 나온 결과에 대한 오차 -> 미분량 구해서 업데이트 할 W를 구하고 업데이트 한 후 -> 그다음 우리 모델이 얼마나 더 예측을 잘 하는가를 모니터링 하기에 용이합니다.
게다가 학습율을 곱해주기 때문에 우리는 이 학습율을 조절하는 것만으로도 학습량과 속도를 조절할 수 있습니다.
특히 단순한 문제를 넘어서 학습량과 속도를 어떻게 설정하느냐에 따라서 모델의 성능이 좌지우지 되죠. (이부분은 또다시 local, global optimum 문제로 넘어가기 때문에 일단 skip 할께요)
개념상으로는 오차가 가장 낮은 지점이 최고 성능을 내는 모델이 맞지만, 실 사례에서는 그렇지 않기 때문에, 가중치를 한번에 빡 업데이트 하지 않고 변화량을 보기에도 유용하다는 겁니다.
@@teddynote 자세한 설명 감사합니다!
정말 많은 도움이 되었습니다~
@@yonghunlee38 감사합니다~
질문입니다. 손실함수를 w랑 b로 각각 편미분해서 러닝레이트를 곱해 더해준다고 하셨는데. 손실함수를 미분하여 0이되는 지점이 손실함수를 최소로하는 w랑 b가 아닌가요? 왜 이렇게하지않고 러닝레이트를 곱해 원래값에 더해주나요
좋은 질문입니다. 저도 처음에는 굉장히 궁금 했던 부분이기도 했구요. 실제 손실함수가 더욱 더 구불구불하게 더 복잡해지게 되고 단순 선형회귀처럼 한 방에 딱 떨어지는 값이 안나옵니다. 현실적으로 손실=0은 없죠. 그래서 조금씩 w, b,를 업데이트 해 나가면서 가장 최선의 손실 값을 찾아나간다고 봐주기면 될 것 같습니다
@@teddynote 1년이 지났는데, 지금 질문해도 답변을 달아줄지 모르겠네요. 저는 경사하강법의 핵심이 윗분이 질문한거에 있다고 생각하거든요. 바로 미분해서 0이되는 값을 계산을 통해서 구할수 없나요? 없다면 왜 없나요? 최소제곱법에선 구했잖아요. 물론 구할수 없기 때문에 learning rate를 줘서 계속 찾아간다는 건 아는데...왜 못구하는지 자세한 설명은 불가능한가요?
@@HoyoulPark 단순 convex가 아닌 함수 형태일 때, 미분 0인 지점을 구하면 local minima에 빠질 수 있기 때문이겠죠
평균제곱오차를 구하는 이유가 무엇인가요?
잔차(residual) 는 오차(Error)라고 생각할 때, 바로 이 오차를 음수 값이 나오지 않도록 만듭니다. 즉 거리를 구한다라고 생각하면 됩니다. 절대값을 씌우는 방법도 있고 제곱을 씌워 음수가 나오지 않게 만들고, 제곱 오차에 합을 구하니 너무 값이 커지기 때문에 평균을 구합니다
안녕하세요 영상 잘 보았습니다!
궁금한 점이 있는데요,
w(t+1) 의 값이 왜 wt - grad(wt) 가 되는 걸까요?? grad(wt)는 Loss 함수를 wt 를 변수로 놓고 봤을 때에 기울기인데, loss 함수의 기울기를 빼는 의미가 무엇인가요??
안녕하세요! 궁금한게 생겨서 질문 드립니다. "W 하나만 고려했을 때 수식에 따라 편차가 최저점으로 다가갈 수 있다" 라는 것은 이해가 됐습니다만
W가 최저점으로 다가가지만 b는 최저점에서 멀어지는 상황도 있을 것 같은데
b가 고정된 것이 아니고 이전 식의 편차에 따라 W와 함께 변한다면
이 두 "각각의 변수 W,b가 주어진 식의 반복된 연산을 통해 상호 보완적으로 편차를 최저점을 향해 다가가게 할 것이다"를 어떻게 확신하는 지 궁금합니다.
감사합니다
말씀해주신 것처럼
w, b를 동시에 업데이트하면서 변화된 w, b 에 따라 계산된 loss를 줄여 나가게됩니다.
이 다음 영상이 파이썬 코드 구현에 대한 내용인데요.
코드로 계산된 손실 값을 보면 w, b 가 동시에 변하는데 변하는 방향성이 최종 손실이 줄어드는 방향으로 변화하는 것을 확인하실 수 있습니다.
근데 MSE까지만 보면 선형회귀기법으로도 쉽게 w와 b를 구할 수 있지 않나요? 실제 상황에서는 더 복잡한 함수가 나와서 경사하강법을 사용하는 것이 유리한데 여기서는 그냥 예시로 보여주기 위해서 경사하강법을 이용하는 건가요?
네 맞습니다. 경사하강법의 원리와 적용방법에 대하여 설명하고 있습니다
사랑합니다