진짜 알기쉬운 예를 들어주셔서 비전공자로써 무엇을 공부해야하는지 조금이나마 알수 있었습니다. 사실 저를 포함한 비전공자는 데이타 사이언스의 무엇을 공부를 해야하느냐를 모르는 경우가 많다고 생각하는데, 이 가이드라인을 제시해주시는건 데싸노트님이 유일한것같아요!! 저는 input data에서 output data를 계산해주는 regression 알고리즘과, 전기자동차의 cost와 environmental load를 처벌로 하는 reinforce learning에 관심이 가네요! 영상 너무 좋아서 구독좋아요 알림설정+댓글이 멈추질 않네요 !!
사실 질문이 정확히 이해되지는 않았으나 관련된 얘기에 대한 답은 비슷할것 같아서 남겨보자면, 결국 Prediction과 Inference에 대한 구분에 대한 이야기일텐데요. 영상에서는 둘을 명확히 구분지어 말씀드렸으나, 현실에서는 경계가 모호한것도 사실입니다. Prediction Model이라고해도 Feature Importance를 통해 원인 분석을 할 수 있고, 원인 분석을 정확히 해도 Prediction이라 할 수 있습니다.
@@데싸노트 감사합니다!! 네, 질문은 본 영상에서 추론(inference)과 예측(prediction)구분 설명을 듣고 드렸어요- 예측은 원인이 분명할 때 가능하다고 말씀하셔서요. 영상에서는 데이터마이닝과 ML 개념 설명이셨는데, 제가 요즘 데이터 분석에서 correlation 이나 causality 냐, 즉 연관성이냐, 원인결과론적 분석이냐 통계적 유의미성으로 비즈니스적 해석을 하는데 꽂혀서 그런 애매모호한 질문을 남겼던 것 같습니다.. ^^; 암튼 데싸님 영상은 직관적으로 개념 이해하는데 도움되는 것 같아요! 감사합니다~.
@@ol7668 앗 뭔가 오해가 있는것 같습니다. 예측은 원인파악이 분명하지 않아도 가능하고, 오히려 추론이 원인을 아는것에 더 중점을 둡니다. 처음 질문 남기신 내용을 다시 살펴보면, 예측은 원인분석과 상관없이도 (예를 들면 딥러닝) 사용 가능합니다. 혹시 제가 영상에서 개념을 반대로 말한부분이 있는가해서 다시 봤는데 못찾겠어요 ^^; 그렇게 언급한 부분이 있다면 댓글로 알려주시면 감사하겠습니다!
window function은 그렇게 많이 쓰진 않습니다. 개인적으로는 그런 작업은 파이썬으로 하는 편이어서요. 따로 파이썬을 쓰지 않는다면 익숙해질 정도는 연습하시는게 좋습니다. 통계쪽은 국내 컨텐츠는 잘 모르겠고, 영어 불편하지 않으시면 3blue1brown이랑 statquest추천드립니다. 유료여도 들을만할정도로 좋은 컨텐츠입니다.
데이터마이닝과 머신러닝 크게 어떤 차이점이 있었는지 분명하지 않았는데 중요한것은 관점의 차이엿군요. 훌륭한 설명 감사합니다. 이와 관련된 것은 아니지만 추가적인 질문이 있습니다. 저는 데이터과학 분야를 공부하고 있는 학생인데요. 공부하다가 변수선택법(전진, 후진)과 PCA(차원 축소)을 언제 어떻게 사용해야 할지를 정확히 구분이 안됩니다. 모델을 만들때 피처 추출을 하고 나서 피처 선택을 해야 하는건지 아니면 둘중에 한가지 방법만 적용하는 건지 잘 모르겠습니다. 모든 경우를 다 돌려보고 loss값이 제일 적은 모델을 택해야 하는 걸까요?? 이와 관련한 영상이나 댓글 달아주시면 정말 감사하겠습니다.
따로따로 고려하시는게 좋습니다. PCA는 정말 필요한 경우가 아니면 사용할 필요가 없구요. PCA를 사용해야하는 경우라하면, 어떻게든 변수들을 추려서 plot을 만들어내야하는 경우라던가, 피쳐들이 특성별로 그룹화 될것이 좀 자명해보이거나, 피쳐가 너무 많은데 모두 사용하고 싶은 경우등이 있겠죠. PCA를 쓰면 설명력이 상당히 떨어지기 때문에, 정말 필요하다고(혹은 유용하다고) 판단되는 경우에 쓰는게 좋습니다. stepwise selection은 보통 리그레션 모델에서 고려하실텐데, 이 경우는 변수간의 상관관계가 모델에 영향을 미칠 수 있으니, PCA를 쓰기로 결정한 경우라면 사용하고 돌려보는것도 괜찮겠죠. 사실상 정답은 없고 말씀하신대로 다양한 방법으로 다 돌려보고 제일 좋은 모델을 택하는것이 좋습니다. 데이터 특성에 따라 뭐가 더 좋을지 알수 없거든요. 그리고 피쳐셀렉션 얘기가 나온김에 하나 더 말씀드리자면, 어차피 부스팅 모델 이상으로 가게되면 변수를 모두 넣고 피쳐 임포턴스를 확인한 뒤에, 뒤에서부터 한두개씩 피쳐를 제거하는 방법이 효율적이기 때문에, 개인적으로는 stepwise selection을 잘 사용하지 않습니다.
감사합니다.
저도 감사합니다!
설명이 기가 막힙니다!ㅎㅎㅎ 무릎탁!치고 갑니다😆
감사합니다 :)
감사합니다~!!
이해가 잘 되었어용
도움이 되셨다니 다행입니다.
영상 정말 잘봤어요
봐주셔서 감사합니다!
정말 명쾌하게 잘 설명해 주시네요. 도움이 되었습니다.
도움이 되셨다니 감사합니다
적절한 예시, 깔끔한 설명 감사합니다! 도움이 되었어요!
도움이 되셨다니 다행입니다.
딱 궁금한 점을 짚어 설명해 주셔서 감사합니다 ~!
제 블로그에 공부한 내용을 요약해서 올리는데 유튜버 데싸님 설명 참고했다고 링크와 같이 올려도 될까요?
출처만 함께 올려주신다면 괜찮습니다 :)
와 진짜 예시가 너무 이해가 잘돼요
좋은 피드백 감사합니다 :)
데이터 관련 강의중 베스트네요
과분한 칭찬 감사합니다 :) 더 좋은 영상 올리도록할게요~
이해하기 너무 쉽게 설명하시는데 ㄷㄷ;; 자주 올려줘요!!!
감사합니다, 너무 힘이되는 칭찬이네요 ㅠㅠ 1~2주 내에 새로운 영상 올릴 계획입니다!
본론 6:32
데싸님 영상들 몇번을 돌려보는 중인지 모르겠네요ㅠㅠ 감사합니당
너무 과분한 칭찬이십니다. 감사합니다 : )
진짜 알기쉬운 예를 들어주셔서 비전공자로써 무엇을 공부해야하는지 조금이나마 알수 있었습니다. 사실 저를 포함한 비전공자는 데이타 사이언스의 무엇을 공부를 해야하느냐를 모르는 경우가 많다고 생각하는데, 이 가이드라인을 제시해주시는건 데싸노트님이 유일한것같아요!! 저는 input data에서 output data를 계산해주는 regression 알고리즘과, 전기자동차의 cost와 environmental load를 처벌로 하는 reinforce learning에 관심이 가네요! 영상 너무 좋아서 구독좋아요 알림설정+댓글이 멈추질 않네요 !!
감사합니다! 조만간 장기프로젝트 형식으로 좀 더 구체적인 가이드라인 영상을 시리즈 형식으로 만들어볼까합니다 :)
예측이란 말은 원인 분석(causation)이 정확히 이루어쟜을때 사용할 수 있나요? Vs.추론... 감사합니다!
사실 질문이 정확히 이해되지는 않았으나 관련된 얘기에 대한 답은 비슷할것 같아서 남겨보자면, 결국 Prediction과 Inference에 대한 구분에 대한 이야기일텐데요. 영상에서는 둘을 명확히 구분지어 말씀드렸으나, 현실에서는 경계가 모호한것도 사실입니다. Prediction Model이라고해도 Feature Importance를 통해 원인 분석을 할 수 있고, 원인 분석을 정확히 해도 Prediction이라 할 수 있습니다.
@@데싸노트 감사합니다!! 네, 질문은 본 영상에서 추론(inference)과 예측(prediction)구분 설명을 듣고 드렸어요- 예측은 원인이 분명할 때 가능하다고 말씀하셔서요. 영상에서는 데이터마이닝과 ML 개념 설명이셨는데, 제가 요즘 데이터 분석에서 correlation 이나 causality 냐, 즉 연관성이냐, 원인결과론적 분석이냐 통계적 유의미성으로 비즈니스적 해석을 하는데 꽂혀서 그런 애매모호한 질문을 남겼던 것 같습니다.. ^^; 암튼 데싸님 영상은 직관적으로 개념 이해하는데 도움되는 것 같아요! 감사합니다~.
@@ol7668 앗 뭔가 오해가 있는것 같습니다. 예측은 원인파악이 분명하지 않아도 가능하고, 오히려 추론이 원인을 아는것에 더 중점을 둡니다. 처음 질문 남기신 내용을 다시 살펴보면, 예측은 원인분석과 상관없이도 (예를 들면 딥러닝) 사용 가능합니다.
혹시 제가 영상에서 개념을 반대로 말한부분이 있는가해서 다시 봤는데 못찾겠어요 ^^; 그렇게 언급한 부분이 있다면 댓글로 알려주시면 감사하겠습니다!
예시가 잘 이해가 되어서 좋습니다! 감사합니다
응원의 댓글 감사합니다, 더 좋은 영상 만들수 있도록 노력하겠습니다 :)
저는 계량경제학쪽 백그라운드라 데이터 마이닝 쪽에 가깝네요 ㅎㅎ안그래도 같은 regression이라도 두 가지 관점에서 어떻게 다른지 막연히만 알고 있었는데, 이번 영상을 통해서 확실히 개념정리가 되었습니다. 좋은 설명 감사드립니다.
도움이 되었다니 다행입니다 :)
와 완전 이해 잘됐습니다. 좋아요랑 구독 바로 누릅니다.
감사합니다! 영상을 좀 더 자주 업데이트 해야하는데 최근 업데이트가 늦어지고있습니다. 빠른 시일 내에 유익한 영상 업로드하겠습니다.
좋은 영상 감사합니다. 가입하고 정주행했습니다. 직장에서 데이터 비주얼 쪽으로 티블로 쓰다가 얼마전부터sql을 배우는데 window function 이 많이 쓰이는지요? 아.. 그리고 통계 초보인데 추천 사이트나 온라인 수업 있으시면 조언 부탁드립니다. 감사드립니다
window function은 그렇게 많이 쓰진 않습니다. 개인적으로는 그런 작업은 파이썬으로 하는 편이어서요. 따로 파이썬을 쓰지 않는다면 익숙해질 정도는 연습하시는게 좋습니다.
통계쪽은 국내 컨텐츠는 잘 모르겠고, 영어 불편하지 않으시면 3blue1brown이랑 statquest추천드립니다. 유료여도 들을만할정도로 좋은 컨텐츠입니다.
@@데싸노트 좋은 정보 이렇게 나누어 주셔서 감사드립니다!
안녕하세요, 컨택을 하고 싶은데 연락수단이 없어서 문의드러요. 메일이나 카톡, sns 등을 알려주실수 있으십니까?
안녕하세요! snkn1959@gmail.com 으로 연락주시면 됩니다.
@@데싸노트 저두 문의 드려두 될까여??
대댓이라 확인이 너무 늦었네요. 네 메일로 연락주셔도 됩니다~
영상 퀄리티 미쳤습니다... 대박나실거에요..!! 통계학 석사 졸업자이긴 해도 현업에 대한 경험이 없다보니, 명확하게 이해가 안되는 부분이 많았는데, 이 채널에서 많은 것들을 정리할 수 있었습니다^^
어휴 과찬이십니다... 더 분발하겠습니다 :)
데이터마이닝과 머신러닝 크게 어떤 차이점이 있었는지 분명하지 않았는데 중요한것은 관점의 차이엿군요. 훌륭한 설명 감사합니다.
이와 관련된 것은 아니지만 추가적인 질문이 있습니다. 저는 데이터과학 분야를 공부하고 있는 학생인데요.
공부하다가 변수선택법(전진, 후진)과 PCA(차원 축소)을 언제 어떻게 사용해야 할지를 정확히 구분이 안됩니다.
모델을 만들때 피처 추출을 하고 나서 피처 선택을 해야 하는건지 아니면 둘중에 한가지 방법만 적용하는 건지 잘 모르겠습니다. 모든 경우를 다 돌려보고 loss값이 제일 적은 모델을 택해야 하는 걸까요??
이와 관련한 영상이나 댓글 달아주시면 정말 감사하겠습니다.
따로따로 고려하시는게 좋습니다. PCA는 정말 필요한 경우가 아니면 사용할 필요가 없구요. PCA를 사용해야하는 경우라하면, 어떻게든 변수들을 추려서 plot을 만들어내야하는 경우라던가, 피쳐들이 특성별로 그룹화 될것이 좀 자명해보이거나, 피쳐가 너무 많은데 모두 사용하고 싶은 경우등이 있겠죠. PCA를 쓰면 설명력이 상당히 떨어지기 때문에, 정말 필요하다고(혹은 유용하다고) 판단되는 경우에 쓰는게 좋습니다.
stepwise selection은 보통 리그레션 모델에서 고려하실텐데, 이 경우는 변수간의 상관관계가 모델에 영향을 미칠 수 있으니, PCA를 쓰기로 결정한 경우라면 사용하고 돌려보는것도 괜찮겠죠. 사실상 정답은 없고 말씀하신대로 다양한 방법으로 다 돌려보고 제일 좋은 모델을 택하는것이 좋습니다. 데이터 특성에 따라 뭐가 더 좋을지 알수 없거든요. 그리고 피쳐셀렉션 얘기가 나온김에 하나 더 말씀드리자면, 어차피 부스팅 모델 이상으로 가게되면 변수를 모두 넣고 피쳐 임포턴스를 확인한 뒤에, 뒤에서부터 한두개씩 피쳐를 제거하는 방법이 효율적이기 때문에, 개인적으로는 stepwise selection을 잘 사용하지 않습니다.
데싸노트 자세한 설명 너무너무 감사합니다. 앞으로 올라오는 영상 꾸준히 잘 보겠습니다.
2011131735