수학교사입니다. 확률과 통계시간에 편차를 n-1개 알 때 나머지 편차도 알수 있다는 내용과 함께 자유도에 대한 설명까지 곁들여가면서 설명했었습니다. 학생들이 충분히 이해할 수 있을 정도로 설명했다 느꼈고 저도 이해한줄 알았는데, 정작 자유도로 왜 나누는가(그래야 값이 같으니까라는 설명 말고)에 대해 모르고 설명하고 있었네요. 고등학교 지도서나 전공책에도 불편성 어쩌구저쩌구만 써있거든요. 이게 간단한 계산으로 보여줄 수 있는것이었는지 몰랐네요... 올해 2학기에 다시 설명할 때는 간단하게 증명까지 곁들여봐야겠네요. 정말 감사합니다!!!
편차를 n-1개 알 때 나머지 편차도 알수 있어서 n-1로 나눈다는 설명은 잘못된 설명입니다. 애초에 그런 설명은 어느 수리통계학 책에도 나오지 않고 수학자가 아닌 사람이 집필한 경영통계 경제통계 생물통계 그런 책에서나 나오는 틀린 설명입니다. 유튜브 내용에서처럼 표본으로 모집단의 분산(및 표준편차)를 추정할 때 n-1로 하는 것이지, 모집단 전수조사해서 분산(및 표준편차)구할땐 n-1이 아니라 n으로 나누고, 또한 표본으로 모집단추정이 아니라 표본 자체의 분산(및 표준편차)을 구할때도 n-1이 아니라 n으로 나눕니다. 편차를 n-1개 알 때 나머지 편차도 알 수 있어서 n-1로 나눈다는 논리를 적용하면 모집단 전수조사해서 분산(및 표준편차)구할때도 n이 아니라 n-1로 계산해야 된다는건데 그렇지 않으니까요.
@@saemjjicouple 댓글 감사합니다! 뭔가 잘 아시는 분 같아서 한가지만 여쭤보려해요. n이 아닌 이유라면 어찌저찌 설명(영상처럼 표본의 분산은 원래보다 작게 나오게 되니까)할수있겠는데 정확히 n-1인 이유를 어떻게 설명해야할까요? 11월 즈음해서 올해도 수업해야하거든요. 참고로 통계학수업은 학부에서만 4학점 들었고 가지고있는 책이 두권(자유아카데미-통계학, 경문사-사범대생을 위한 확률과통계) 뿐인데 두권 모두 통계학 전공하신분들이 저자이고, 제가 말한대로 설명하고있네요. 자유도는 학부생에게 어려울거라 코멘트하면서 저처럼 얘기하고있는데, 막상 님께서 말씀하신 마지막 말씀의 얘기에 대한 대답을 모르겠네요.(좋은 책이 아니라고 하면 할말없지만 사범대생을 위해서 쉽게 쓰여져서 그런가봅니다..) 인터넷 찾아보니 불편추정량 뭐 이런게 있긴하던데 어려워보이네요 ㅎㅎ.
@@bbaa7696 이미 영상에 묻고계신부분에 대한 답이 다 나와있는데 저보고 대답해달라고하면 저도 영상과 똑같이 대답할 수 밖에 없습니다. 혹시 영상을 다 안보셨을까요? 아니면 영상에서 이해되지않는부분이 있으면 말씀해주세요. 그리고 통계전공자말고 수학전공자요. 학부는 경영학과나오고 대학원을 통계학과나오는 이런사람들 말고요. 통계학과가 학부이더라도 문과에 해당되는 통계학과출신들 말고요. 찐 수학자요. 기본적으로 분산(및 표준편차)은 편차의 제곱들의 평균을 구하는 것이기 때문에 n으로 나누는게 맞습니다. 그래서 모집단 전수조사를 해서 분산(및 표준편차)을 구한다면 모집단의 n으로 나누는거고, 마찬가지로 표본의 분산(및 표준편차)을 구할떄도 표본의 n으로 나누는겁니다. 문제는 우리는 모집단 전수조사를 하는게 현실적으로 불가능하고, 표본의 통계량을 알고싶은것도 아닙니다. 표본으로 모집단의 통계량을 알고싶다는게 바로 통계학의 핵심입니다. 즉 표본의 통계량으로 모집단의 통계량을 추정해야됩니다. 평균의 경우를 예를들어봅시다. 표본들을 뽑아 평균을 구합니다. 이 표본평균이 모평균인건 아닙니다. 표본평균으로 모평균을 추정해야죠. 그럼 모평균을 추정할 기준이 되는 값을 표본평균으로 이용하는데 왜 표본평균을 이용할까요? 수학적으로 계산해봤을때 표본평균에 기대값을 취하면 모평균에 수렴하기 때문입니다(극한값이니까 모평균이 된다는건 아닙니다). 마찬가지입니다. 표본의 분산으로 모집단의 분산을 추정하고 싶은데, 표본의 분산(분모가 표본의 n)을 기대값 취해 계산해봤더니 모분산(분모가 모집단의 n)에 수렴하지 않고 모분산의 (n-1)/n배(여기서의 n은 표본의 n입니다)에 수렴한다는걸 알수있습니다. 즉 바꿔말해 표본분산에 n/(n-1)배한 값을 기대값 취하면 모분산에 수렴한다는 것이죠. 그러면 표본분산(원래 n으로 나눴던)값에 n/(n-1)배를 한 값을 모분산추정에 이용하니 표본분산 분모가 n-1로 바뀌게 되는 것 뿐입니다. n-1개를 알아서 나머지 하나를 알기 때문에 n-1로 나눈다는 비논리적인 엉터리 설명을 적용한다면 애초부터(즉 표본으로 모집단을 추정하기 전부터) 분모를 n-1로 놓은 상태에서 계산해야된다는건데 그럼 결과가 n-1이 나오지도 않겠죠? 계산과정은 제 블로그에 이 유튜브 영상보다 더 과거에 올려놨었습니다 참고하세요 blog.naver.com/physicopianist/221079231724
@@saemjjicouple 영상보고 작년에도 설명했구요 당연히도 다른 직관적 방법이 있냐고 여쭤본거였어요. 너무 댓 다시는게 두번 다 공격적이셔서 좀 당황스럽긴한데... 질문 하나만 더할게요. 블로그마지막에 자유도가 잘못된개념이다. 계산과정에서 나온게 자유도와 n-1이 우연히(혹은 우연히가 아니라도 같은 이유가 아닌 다른 이유로)일치할뿐 자유도때문이 아니다 라고했는데, 예전 저희 교수님이나 위키피디아 그리고 유튜브(asdf 오터의 통계 님 혹은 이 영상에서 dukas george님의 댓글, 그외 다양한 영상 올린 교수님들)의 다양한 얘기를 종합해보면 좀더 고차원 혹은 일반적인 경우의 ANOVA 계산에서도 선형대수학 측면으로 생각했을때 자유도가 더 근본적이다 라고 얘기하고있거나 자유도개념이 곧 n-j로 나누는거라 얘기하고 있거든요. 결론적으로 님의견이 맞는거구 다른분들이 잘못알고있거나 쉽게 설명하기위해 교수학적 변환을 거친 거란 말씀이신거죠? 아님 제가 이해력이 부족하거나...
12년간 수학하면서 통계학을 세번씩이나 들으면서 서로다른 세 교수님께 여쭤봐도 그저 자유도때문에 그렇다, 평균이라는 자료를 하나 사용해서 그렇다, 그렇게 해야 값이 더 가깝다 등의 납득은 되지만 이해는 되지않는 대답 뿐이었는데 드디어 정확하게 왜 하필 n-1인지에 대한 이유를 알게 되었습니다. 좋은 영상 너무 감사합니다. 12년묵은 의문 해결!
@@Sehyun_Lee 저는 적절한 대학교의 적합한 수학과 수준밖에 안나와 박서준님께서 얼만큼의 좋은 대학에서 수학을 배웠는지는 모르겠으나 적어도 제가 배운 수학 전공과목에선 1학년 미적분학 선형대수 벡터해석학 이산수학 확률과 통계 2학년 집합론 기초해석학 정수론 3학년 복소해석학 미분기하학 추상대수학 위상수학 4학년 다양체기하학 편미분방정식 배우는동안에는 적어도 저에게 적합한 답변을 주는 교수님께서는 없었던 것 같습니다^^ 좋은 교수님들께 배우신것 같아 너무나 부럽네요
@@Sehyun_Lee 정훈님 상황과 별개로, 수학쪽만 전공하면 모를수도 있을 것 같네요. 서준님이 언급하신 위에 4가지 과목중에 제가 다니는 수학과에서는 확통이나 수리통계를 다루지 않고 (선형대수는 사실 왜 언급하신지도 모르겠습니다. 수학과에서 배우는 선형대수는 대수적인 구조에 집중하지 통계랑 연관짓지는 보통 않으니까요 기껏해야 LSA정도?), 확률해석학은 measure theroy 사용하는 확률론 말하시는 것 같은데 사실 기초 통계학을 제대로 배우지 않았다면 확률론을 배우면서 저 내용을 생각해볼 기회는 없겠죠. 결국 각 학교 수학과 커리큘럼 상의 차이인 것 같습니다. 저는 1학년때 교양 통계학에서 배웠는데요, 저도 그 때 통계학을 수강하지 않았다면 이 내용을 다시 만나기 전까지 굳이 증명까지 안해봤을 것 같네요. 애초에 저 내용을 다루는 수업을 안들으면 생각해볼 일이 없을 것 같아요.
전공수학은 교원임용시험 수준에서 끊겨 즐기지 못했는데, 덕분에 수학에 설레는 감정을 되찾고 있습니다. 학부생때는 그저 형식적 계산과정 차원으로만 이해하였는데, 처음 직관적 이해 설명부분을 듣고 망치로 맞은 느낌입니다. 아는 것을 가르치는게 결코 쉬운일이 아닌데 16분동안 설명 흐름이 정말 깔끔했습니다. 어떻게 설명해줄지를 얼마나 고심하여 준비했는지... 여러모로 열정을 심어주시네요 정말 감사드립니다.
선생님 안녕하세요, 메일을 보낸 사람입니다. 정말 감사합니다. 이 같은 고민을 나눌수있다는것만으로도 감사하며, 아이들에게 많은 도움이 될것 같습니다. 배움은 늘 새롭고 끝이 없다는 것을 당연하지만 더욱 뼈저리게 느끼고 있었습니다. 저 또한 저의 위치에서 최선을 다하겠습니다.
결과적으로 자유도만큼 나눈 게 되지만 원인과 결과를 도치시키면 안 됩니다. 자유도가 원인이라서 n-1로 나누는 게 절대 아니에요. 애초에 자유도랑은 수치만 같을 뿐, 유도과정을 보면 전혀 관계가 없어요. 물론 자유도와의 관계를 불라불라 설명할 수는 있겠죠. 그러나 그건 n-1이 자유도인 이유일뿐, 표본분산을 구할 때 n-1로 나누는 이유가 아닙니다.
@@Total_Syntheses 반대로 자유도가 더 근본적 입니다. n-1인 경우에는 직접 계산해서 나오지만 자유도가 n-d 인 경우에는 n-d로 나누기 위해 선형대수의 자유도(차원) 개념을 이용해야 증명을 할 수 있습니다. 자유도라는 개념을 선형대수를 모르는 상태에서 언급하는건 위험하지만요.
직관적 설명&수식증명 다해주시네요. 최고의 선생님입니다. 수식은 고딩때 배운거네요. 대단한 설명 도대체 누구지 하면서 처음으로 소개영상까지 찾아보고 그럼그렇지 납득됨. 한가지 질문이요. 자유도 개념은 어떻게 연결할수 있을까요? 이 영상 보면 (n-1)을 설명하는데 통계학책에 그토록 많이 나오는 그 개념이 필요가 없네요.
표준편차, 표본표준편차, 표본평균의표준편차, 표준오차 등등 어휘부터 헷깔려서 계속 찾아보고 있는데 이 영상이 개념적으로도 수식으로도 구체적인 논리와 설명이 다 나와있어서 반복해서 보면 이제는 이해할 수 있을거 같다는 희망이 생기네요 ! 여러번 돌려보고 정확히 이해할 수 있도록 하겠습니다. ```더 생각해보기 위한 개인용 댓글``` 9:17 에서 크기가 n인 표본을 추출하고, 이 표본의 표준편차들이 작게 도출되려면, 모집단의 분포가 정규분포에 근사하는 식으로 평균 근처에 변량들이 더 많이 분포한다는 전제가 있어야 하는 것 아닌가 ? (영상에 띄워진 화면 그림을 당연하다며 자동적용하면 맞지만, 말로 논리를 설명할 때는 포함되지 않았음) '전제가 없다면' 9:46의 설명만으론, 표집된 표본의 분포가 달랐다면 오히려 표본표준편차가 모표준편차보다도 증폭되는 경우도 발생하는데 이 빈도가 표본이라서 적게 발생한다고 할 수 있을거 같진 않다고 생각하는 중.
+)질문추가 선생님, 그런데 15:20에서는 σ²=E[Σ(Xn-Xbar)²/(n-1)] 인데, 15:25에서는 σ= √ (Xn-Xbar)²/(n-1)입니다. E[]가 왜 빠진건지, E[]가 빠졌는데 등식이 성립할 수 있나요? 대박이네요. 설마 이런 걸 자세하게 설명해주는 게 있겠어? 싶었는데 개념서에 대충 적힌 설명을 이렇게 정성껏 풀어주셔서 정말 감사합니다.
표본의 분산이나 표준편차를 이용해서 모분산이나 모표준편차를 구하는 식에 대한 설명 7:54 과소추정하게 되는 이유에 대한 이해(표본은 극단값이 선택될 확률이 적기 때문) 10:05 n-1로 나누는 이유에 대한 대략적인 설명(과소추정되는 분산을 키우고 싶어서) 11:35 왜 n-1로 나누어야 하는지에 대한 수학적 설명 (변량-표본평균 제곱의 기댓값이 (n-1)모분산 이기 때문)
고등학생들과 같이 수학을 공부하고 있는 1인 입니다. 좋은 영상에 항상 감사드립니다. 비편향추정량에 대한 예를 들어해주신 설명이 참 감명깊습니다. 학생들과 같이 공부하다보면 표본의 통계량과 표본을 추출하여 얻은 표본값(통계값)의 구분을 어떻게 설명할지 항상 고민을 합니다. [표본값이나 통계값이라 표현하는것이 맞을지 모르겠습니다] 이 영상에서도 표본 X_i 가 통계량(확률변수)라는 인식이 조금 부족할 수도 있을 것 같고요 심지어는 저랑 비슷한 일을 하시는 분 중 어떤 분은 '표본평균이나 모평균이나 거기서 거기'라는 이야기를 했다는 것을 들었던 적도 있습니다(당황) 고교 교과서에서 표본의 통계량과 추출된 표본 표본값(통계값)의 구분도 모호할 뿐더러 대표적인 표본의 통계량인 표본평균, 표본분산, 표본표준편차를 왜 이런식으로 정의하는지에 대한 설명도 너무 부족한 것 같아 항상 아쉽습니다. (식의 구성방법에 대한 설명 등) 추측통계학의 많은 부분이 상당히 재미있는 아이디어들이 들어가 있다는 것은 대학에서 공부하며 조금씩 맛 보게 되었는데 그 출발점인 통계량의 정의부터 고교 수학에서는 너무 단편적이며 부족한 설명이 있기에 이 부분에 대한 쉽고 재미있는 설명은 어떻게 풀어나가실까 싶어서 이렇게 글을 남겨봅니다.
안녕하세요? 언제나 너무 좋은 내용을 잘 보고 배우고 있는 구독자입니다. 이번 표준편차 영상에 대해서 말씀드리고 싶은 점이 있습니다. 1. 표본 표준편차는 불편 추정량이 아닌 것에 대해서 많은 인터넷/유튜브 통계 강의에서 이 부분을 분명히 하고 있지 않은데, 이번 영상도 그럴 오해의 여지가 있다고 생각합니다. Bessel’s correction이 적용된 표본 분산s²은 모집단의 분산σ²을 가장 잘(best) 예측하는 불편 추정량입니다. E(s²) = σ². 하지만 표본 표준편차의 경우 n-1 correction을 적용하더라도 비선형성 때문에 여전히 모집단보다 underestimate(biased)되어 있습니다. 즉 E(s) ≠ σ 로서 표본 표준편차의 평균이 모집단의 표준편차와 일치하지 않습니다. 따라서 여러 표본셋이 있다고 하면, √(E(s²)) 을 사용하여야합니다. 불편 추정량으로서의 E(s’)=σ를 위해서는 unbiased estimation of standard deviation을 사용해야 하는데, 모집단의 분포에 따라 다르고 다소 복잡하기는 하지만 수학적 엄밀함이라는 측면에서 최소한 이런 것이 있다는 명시가 필요하다고 생각합니다. 2. 자유도를 이용한 표본분산 불편 추정량 증명방법 영상의 표본 분산 증명도 올바른 증명이긴 하지만 n-1에 대한 직관적인 이해를 얻기가 어렵다고 생각합니다.(제가 그랬습니다.) 성분 분해와 자유도를 이용한 증명이 n-1이 등장하는 이유를 더 잘 설명하지 않나 생각합니다. 특히 자유도에 대한 것은 정성적인 설명에는 아주 많이 나오지만, 실제로 명확하게 증명에 사용하는 것은 거의 보지 못했습니다. 간단히 소개하면 다음과 같습니다. x₁,…,xₙ이 독립 정규 무작위 변수(μ,σ²)일때 단위 벡터 u=(a₁,…,aₙ)ᵗ와의 내적을 x·u=a₁x₁+..+aₙxₙ이라고 하면, E(x·u)=a₁E(x₁)+…+aₙE(xₙ)이고 Var(x·u)=(a₁²+…+aₙ²)σ²=σ²이다. x₁,…,xₙ을 직교 분해하기 위해 다음과 같은 직교정규벡터를 사용하면, u₁=(1,..,1)ᵗ/√n u₂=(1,-1,0,…)ᵗ/√2 u₃=(1,1,-2,0,…)ᵗ/√6 uₙ=(1,…,1,-(n-1))ᵗ/√(n(n-1)) n차원 벡터 x는 다음과 같이 직교 분해할 수 있다. (u₂,…,uₙ의 선정은 임의적이며 다른 직교 벡터를 선택하더라고 결과는 같다.) x=(x·u₁)u₁+…+(x·uₙ)uₙ u₁ 성분의 평균과 분산은 다음과 같다. E(x·u₁)= √nμ이고 Var(x·u₁)=σ² 이다. (E[(x·u₁)²]=σ²+nμ²) 이 u₁ 방향의 성분은 모집합의 평균 μ를 추정하는데 사용된다. 평균을 추정하는 df(자유도degree of freedom)는 성분이 1개이므로 1이다. 모델 벡터라고도 부른다. x̄ = (x·u₁)u₁=(x₁+..+xₙ)/n (1,...,1)ᵗ 나머지 방향 u₂,..,uₙ 성분은 E(x·uᵢ)=0 이고 Var(x·uᵢ)=E[(x·uᵢ)²]=σ²으로서, 분산을 추정하는데 사용되며(best unbiased estimator), df는 n-1이다. (오류 벡터라고도 부른다.) 이러한 나머지 n-1개 독립 변수 성분의 평균으로 추정한 분산을 표본 분산이라고 부른다. s²=[(x·u₂)²+…+(x·uₙ)²]/(n-1) x - x̄ = (x·u₂)u₂+…+(x·uₙ)uₙ 이므로 표본분산은 다음과 같아진다. s² = |x-x̄|²/(n-1) = ∑(xᵢ-x̄)²/(n-1) 이 방법은 표본 분산의 의문을 해결한다. ∑(xᵢ-x̄)²의 항의 수는 n개인데 왜 n-1로 나누는가? 그것은 독립제곱성분인 (x·u₂)²+…+(x·uₙ)²의 원래 갯수는 n-1개이고 이것을 평균하기 때문이다. (긴 글 읽어주셔서 감사합니다.)
이 부분에.대한.설명은 대학교 교재에서도 본 적이 없어서 예전에 외국 강의 사이트를 뒤져서 이해했었습니다.(영상과 동일한 방법) 믈론 제가 학교에서 고등학생들에게 자세한 설명을 하진 않습니다. 단지 그렇게 해야 오차가 줄어들기 때문이고, 기대값을 계산해보면 저리 나온다고 말해줄 뿐이죠. 아 물론 학생들은 관심이 없습니다. s는 시험에 거의 안나오니까요. 슬픈 일이죠.... 시험에 나오면 보고 시험에 안나오먄 안본다는게...
좋은 질문입니다. 제가 예시로 표본추출을 할때는 비복원추출처럼 설명을 드렸습니다만 (1,2,3중에 2개를 뽑을때 1을 두번 뽑는건 없는 케이스처럼) 기대값 계산을 할때는 복원추출로 (1을 두번 뽑는 것이 가능) 이해하고 계산했습니다. 표본을 n번 뽑는다고 하면 복원추출의 경우 모든 모집단이 안나오는 경우들이 있겠죠. 그때의 표준편차로 모표준편차를 추정할땐 여전히 n-1로 나누는 것이 맞을 것입니다.
표본 표준편차-> 한 개체의 이유를 찾는다. 독특하게 튀는 값이 있다면 그걸 빼서 계산하는 하는 건가요.? 시험을 여러번 보게한다.->각 시험의 유형(같은 시험의 과목)이나 지식별로 난이도를 강화하거나 낮춘다.->시험을 계속 보게하되 오답과 점수를 말해주지 않는다.->추가적인 공부를 시키지 않는다.->튀는 이유를 찾는다.->시험은 계속 본다.->일반적인 표준 까지 산도가 평균적인 수준이 되는 이유를 찾기->떨어지는 사람들이 시험에서 점수가 어떻게 하면은 잘 나오는지 안 나오는지 판단 -> 아니 그냥 그 사람이 이해하고 모르는 부분을 찾는건데? 모집단 표준편차-> 잘 보는 사람과 못 보는 사람들의 케이스 맞나?
영상에서는 표준편차 식이 왜 2가지인지에 대한 깊은 이해를 제공해줬어요. 강의자가 각각의 식이 나오게 된 배경과 적용되는 상황을 자세하게 설명해주어서, 표준편차를 두 가지 식을 통해 더 효과적으로 이해할 수 있었습니다. 수학적인 내용이지만 완전히 이해할 수 있게 해준 좋은 강의였습니다.
표본분산의 평균이 모분산이 되도록 하기 위해 n-1로 나누는 건 많은 책에 다 나와있습니다. 그리고 이때 표본표준편차의 평균은 모표준편차가 되지 않는다는 것도 알려져 있고요. 1. 왜 표본표준편차의 평균이 모표준편차가 되도록 하지 않고 표본분산의 평균이 모분산이 되도록 하는 걸까요? (루트 때문에 계산이 더 복잡해져서 그런걸까요?) 2. 표본표준편차의 평균이 모표준편차가 되도록 하려면 표본표준편차의 정의를 어떻게 해야 하는지 혹시 아시면 알려주시면 감사하겠습니다.
@@빡쌤-e7q 1. 루트를 하고 안 하고 정도의 문제와 질문이 아니었습니다. 루트를 씌우는 게 그리 대단한 일이 아니라면, 표본표준편차의 기댓값, 즉 E(S)=sigma가 되도록 하기 위한 이때의 E의 정의를 어떻게 정할 수 있을 지에 대한 질문이었습니다. 2. 이 영상은 표본분산의 기댓값이 모분산이 된다는 것, 즉 E(S^2)=sigma^2을 소개하는 것이고요 ㅎ... 제 질문은 표본표준편차의 기댓값이 모표준편차가 되도록, 즉 E(S)=sigma가 되도록 하기 위한 E의 정의가 무엇일지에 대한 질문이었습니다. 영상과 질문을 꼼꼼히 봐주세요~
저랑 비슷한 고민을 하셨군요. 위키피디아에 따르면 모분산과 달리 모표준편차에 대한 불편추정량은 통계량이 가지는 분포에 따라 달라진다고 합니다. 따라서 표본분산처럼 분포와 상관없는 일반화된? 모표준편차에 대한 불편추정량 값은 없는듯합니다. 다만 특이 케이스로 통계량이 정규분포를 따를때 모표준편차에 대한 불편추정량을 계산할 수 있지만, 감마함수가 포함된 형태로 굉장히 복잡한 형태의 불편추정량을 가집니다.
안녕하세요 늘 유익한 영상 잘 보고 있습니다! 통계 관련하여 궁금한 것이 있어 여쭈어보고자 합니다. 분산을 편차 제곱에 대한 평균으로 정의하는데, 편차의 평균이 항상 0이 되기 때문으로 알고 있습니다. 그럼 제곱 대신 절댓값의 평균으로 정의하지 않는 이유가 궁금합니다. 특히나 분산에 루트를 씌어 값을 보정(?)하는 것 때문에 더욱 궁금했습니다!
절대값의 평균으로 산포도를 측정할 수도 있겠으나 분산이나 표준편차의 개념을 쓰지 않는 것은 상상하기 어렵습니다. 예를 들어, 정규분포를 표현하는 식에도 표준편차 시그마가 포함되고요. 분산은 제곱들의 평균에서 평균의 제곱을 뺀 것이니 "제곱의 평균" 개념이 포함되어 있는데, 분포의 대칭성을 측정하기 위해서는 skewness라고 하는 세제곱의 평균이 활용되기도 합니다. 모먼트 제너레이팅 펑션에 n제곱의 평균텀들이 쓰이기도 하고요. 분포의 성질을 이해하기 위해서는 제곱의 평균을 활용하는 것이 더 자연스럽습니다.
-이 댓글은 뇌피셜로 작성되었습니다-- 절댓값을 이용해 산포도를 측정하는 것도 아이디어가 될 수 있다고 생각합니다. 핵심은 절댓값으로 계산하는 것과 제곱으로 계산하는 것으로 말미암아 어떤 차이가 생기는지겠네요. 개인적으로 -2, -2, 2, 2와 -2, -2, 1, 3의 두 수집단을 생각해보면 어느 정도 납득이 가지 않을까 합니다. 어떤 변량이 평균값에서 멀리 떨어짐으로써 전체에 영향을 주는 정도를 편의상 '극단성'이라는 단어로 정의한다면 둘 다 평균이 0인 수집단이지만 후자의 경우 3이라는 좀 더 극단적인 변량이 있는데, 절댓값을 이용한 산포도는 둘 다 8로 똑같이 나와 이러한 극단성이 반영되지 않습니다. 극단적인 변량의 존재의미를 중요하게 따지는(재앙 예측 등) 자료의 경우까지도 의미있는 산포도이기 때문이지 않을까 생각해봅니다.
사실 진실을 모르는 평균과 분산을 추정해야 되는데 무식한 추정이 아니다란 기준 중 하나인 한쪽으로 치우치지 않는다란 성질 (불편성)이 성립이 되게하기 위해 표본분산엔 n-1로 나누는거 같아요. 근데 자유도랑 불편성과도 관련이 있는지 궁금해요. 자유도가 말그대로 얼마나 자유하냐는 정도인데 그 자유가 무엇으로부터 자유한 건지도 궁금해요. 실제 단순선형회귀식의 경우 불편성을 만족하는 분산은 n-2로 나누거든요.(사실 우리가 아는 표본평균을 구하는 방식이 상수항+에러텀이 있는 식에서 상수항을 ols로 추정하는 것이죠) 요는 자유도가 무엇으로부터 자유한것인지를 나타내는지 이 자유도와 불편성과 왜 연관될 수 밖에 없는지 이게 궁금합니다
수학교사입니다. 확률과 통계시간에 편차를 n-1개 알 때 나머지 편차도 알수 있다는 내용과 함께 자유도에 대한 설명까지 곁들여가면서 설명했었습니다. 학생들이 충분히 이해할 수 있을 정도로 설명했다 느꼈고 저도 이해한줄 알았는데, 정작 자유도로 왜 나누는가(그래야 값이 같으니까라는 설명 말고)에 대해 모르고 설명하고 있었네요. 고등학교 지도서나 전공책에도 불편성 어쩌구저쩌구만 써있거든요. 이게 간단한 계산으로 보여줄 수 있는것이었는지 몰랐네요... 올해 2학기에 다시 설명할 때는 간단하게 증명까지 곁들여봐야겠네요. 정말 감사합니다!!!
편차를 n-1개 알 때 나머지 편차도 알수 있어서 n-1로 나눈다는 설명은 잘못된 설명입니다. 애초에 그런 설명은 어느 수리통계학 책에도 나오지 않고 수학자가 아닌 사람이 집필한 경영통계 경제통계 생물통계 그런 책에서나 나오는 틀린 설명입니다. 유튜브 내용에서처럼 표본으로 모집단의 분산(및 표준편차)를 추정할 때 n-1로 하는 것이지, 모집단 전수조사해서 분산(및 표준편차)구할땐 n-1이 아니라 n으로 나누고, 또한 표본으로 모집단추정이 아니라 표본 자체의 분산(및 표준편차)을 구할때도 n-1이 아니라 n으로 나눕니다. 편차를 n-1개 알 때 나머지 편차도 알 수 있어서 n-1로 나눈다는 논리를 적용하면 모집단 전수조사해서 분산(및 표준편차)구할때도 n이 아니라 n-1로 계산해야 된다는건데 그렇지 않으니까요.
@@saemjjicouple 댓글 감사합니다! 뭔가 잘 아시는 분 같아서 한가지만 여쭤보려해요. n이 아닌 이유라면 어찌저찌 설명(영상처럼 표본의 분산은 원래보다 작게 나오게 되니까)할수있겠는데 정확히 n-1인 이유를 어떻게 설명해야할까요? 11월 즈음해서 올해도 수업해야하거든요.
참고로 통계학수업은 학부에서만 4학점 들었고 가지고있는 책이 두권(자유아카데미-통계학, 경문사-사범대생을 위한 확률과통계) 뿐인데 두권 모두 통계학 전공하신분들이 저자이고, 제가 말한대로 설명하고있네요. 자유도는 학부생에게 어려울거라 코멘트하면서 저처럼 얘기하고있는데, 막상 님께서 말씀하신 마지막 말씀의 얘기에 대한 대답을 모르겠네요.(좋은 책이 아니라고 하면 할말없지만 사범대생을 위해서 쉽게 쓰여져서 그런가봅니다..) 인터넷 찾아보니 불편추정량 뭐 이런게 있긴하던데 어려워보이네요 ㅎㅎ.
그냥 영상처럼해야하는거겠죠?
@@bbaa7696 이미 영상에 묻고계신부분에 대한 답이 다 나와있는데 저보고 대답해달라고하면 저도 영상과 똑같이 대답할 수 밖에 없습니다. 혹시 영상을 다 안보셨을까요? 아니면 영상에서 이해되지않는부분이 있으면 말씀해주세요. 그리고 통계전공자말고 수학전공자요. 학부는 경영학과나오고 대학원을 통계학과나오는 이런사람들 말고요. 통계학과가 학부이더라도 문과에 해당되는 통계학과출신들 말고요. 찐 수학자요.
기본적으로 분산(및 표준편차)은 편차의 제곱들의 평균을 구하는 것이기 때문에 n으로 나누는게 맞습니다. 그래서 모집단 전수조사를 해서 분산(및 표준편차)을 구한다면 모집단의 n으로 나누는거고, 마찬가지로 표본의 분산(및 표준편차)을 구할떄도 표본의 n으로 나누는겁니다. 문제는 우리는 모집단 전수조사를 하는게 현실적으로 불가능하고, 표본의 통계량을 알고싶은것도 아닙니다. 표본으로 모집단의 통계량을 알고싶다는게 바로 통계학의 핵심입니다. 즉 표본의 통계량으로 모집단의 통계량을 추정해야됩니다. 평균의 경우를 예를들어봅시다. 표본들을 뽑아 평균을 구합니다. 이 표본평균이 모평균인건 아닙니다. 표본평균으로 모평균을 추정해야죠. 그럼 모평균을 추정할 기준이 되는 값을 표본평균으로 이용하는데 왜 표본평균을 이용할까요? 수학적으로 계산해봤을때 표본평균에 기대값을 취하면 모평균에 수렴하기 때문입니다(극한값이니까 모평균이 된다는건 아닙니다). 마찬가지입니다. 표본의 분산으로 모집단의 분산을 추정하고 싶은데, 표본의 분산(분모가 표본의 n)을 기대값 취해 계산해봤더니 모분산(분모가 모집단의 n)에 수렴하지 않고 모분산의 (n-1)/n배(여기서의 n은 표본의 n입니다)에 수렴한다는걸 알수있습니다. 즉 바꿔말해 표본분산에 n/(n-1)배한 값을 기대값 취하면 모분산에 수렴한다는 것이죠. 그러면 표본분산(원래 n으로 나눴던)값에 n/(n-1)배를 한 값을 모분산추정에 이용하니 표본분산 분모가 n-1로 바뀌게 되는 것 뿐입니다. n-1개를 알아서 나머지 하나를 알기 때문에 n-1로 나눈다는 비논리적인 엉터리 설명을 적용한다면 애초부터(즉 표본으로 모집단을 추정하기 전부터) 분모를 n-1로 놓은 상태에서 계산해야된다는건데 그럼 결과가 n-1이 나오지도 않겠죠?
계산과정은 제 블로그에 이 유튜브 영상보다 더 과거에 올려놨었습니다 참고하세요
blog.naver.com/physicopianist/221079231724
@@saemjjicouple 영상보고 작년에도 설명했구요 당연히도 다른 직관적 방법이 있냐고 여쭤본거였어요. 너무 댓 다시는게 두번 다 공격적이셔서 좀 당황스럽긴한데...
질문 하나만 더할게요. 블로그마지막에 자유도가 잘못된개념이다. 계산과정에서 나온게 자유도와 n-1이 우연히(혹은 우연히가 아니라도 같은 이유가 아닌 다른 이유로)일치할뿐 자유도때문이 아니다 라고했는데, 예전 저희 교수님이나 위키피디아 그리고 유튜브(asdf 오터의 통계 님 혹은 이 영상에서 dukas george님의 댓글, 그외 다양한 영상 올린 교수님들)의 다양한 얘기를 종합해보면 좀더 고차원 혹은 일반적인 경우의 ANOVA 계산에서도 선형대수학 측면으로 생각했을때 자유도가 더 근본적이다 라고 얘기하고있거나 자유도개념이 곧 n-j로 나누는거라 얘기하고 있거든요.
결론적으로 님의견이 맞는거구 다른분들이 잘못알고있거나 쉽게 설명하기위해 교수학적 변환을 거친 거란 말씀이신거죠? 아님 제가 이해력이 부족하거나...
12년간 수학하면서 통계학을 세번씩이나 들으면서 서로다른 세 교수님께 여쭤봐도 그저 자유도때문에 그렇다, 평균이라는 자료를 하나 사용해서 그렇다, 그렇게 해야 값이 더 가깝다 등의 납득은 되지만 이해는 되지않는 대답 뿐이었는데 드디어 정확하게 왜 하필 n-1인지에 대한 이유를 알게 되었습니다. 좋은 영상 너무 감사합니다. 12년묵은 의문 해결!
그래서 12math!
@@Sehyun_Lee 뭐 적어도 저를 가르쳐주셨던 교수님들께선 저에게 만족할만한 답변을 주시지 못하셔서 남겼던 댓글입니다. 통계학과를 나오셔서 모든걸 이해하셨다면 모르겠지만 저는 수학을 전공해서 통계는 잘 모르겠네요^^
@@Sehyun_Lee 저는 적절한 대학교의 적합한 수학과 수준밖에 안나와 박서준님께서 얼만큼의 좋은 대학에서 수학을 배웠는지는 모르겠으나 적어도 제가 배운 수학 전공과목에선 1학년 미적분학 선형대수 벡터해석학 이산수학 확률과 통계 2학년 집합론 기초해석학 정수론 3학년 복소해석학 미분기하학 추상대수학 위상수학 4학년 다양체기하학 편미분방정식 배우는동안에는 적어도 저에게 적합한 답변을 주는 교수님께서는 없었던 것 같습니다^^ 좋은 교수님들께 배우신것 같아 너무나 부럽네요
@@Sehyun_Lee 보통 그렇게 말하는 제 친구들이 대학원 가서 박사까지 하고 뛰어난 발견을 하더라구요 저는 그 모든걸 증명해왔지만 자유도라는 개념을 단 한번도 증명해보지 못했고 그 어떤 교수님도 증명해주지 않아서 증명만이 답인 저에겐 신기한 영상이었습니다 ^^
@@Sehyun_Lee 정훈님 상황과 별개로, 수학쪽만 전공하면 모를수도 있을 것 같네요. 서준님이 언급하신 위에 4가지 과목중에 제가 다니는 수학과에서는 확통이나 수리통계를 다루지 않고 (선형대수는 사실 왜 언급하신지도 모르겠습니다. 수학과에서 배우는 선형대수는 대수적인 구조에 집중하지 통계랑 연관짓지는 보통 않으니까요 기껏해야 LSA정도?), 확률해석학은 measure theroy 사용하는 확률론 말하시는 것 같은데 사실 기초 통계학을 제대로 배우지 않았다면 확률론을 배우면서 저 내용을 생각해볼 기회는 없겠죠.
결국 각 학교 수학과 커리큘럼 상의 차이인 것 같습니다. 저는 1학년때 교양 통계학에서 배웠는데요, 저도 그 때 통계학을 수강하지 않았다면 이 내용을 다시 만나기 전까지 굳이 증명까지 안해봤을 것 같네요. 애초에 저 내용을 다루는 수업을 안들으면 생각해볼 일이 없을 것 같아요.
어떨땐 ñ과n-1을 혼용한다고 나와서 헷갈렸는데 충분히 이해했습니다. 감사합니다. 적당한 보정값이 아닌 기대값의 계산에 의해 도출된 식이라니 더욱 믿음이 갑니다.
유도 과정만 알았지 이런 정성적 개념은 잘 몰랐는데... 가려운 곳 긁어주는 것 마냥 시원랍니다!!
이 정도로 명확한 설명은 처음 보네요. 그 동안 왜 n-1이냐고 물어보면 다들 두루뭉술하게 대답했는데, 이제야 이해가 되네요!
11:30 부터 나오는 설명을 세글자로 줄이면 불편성이라고 합니다 통계량 추정할때 맨 처음 배우는 성질이죠
전공수학은 교원임용시험 수준에서 끊겨 즐기지 못했는데, 덕분에 수학에 설레는 감정을 되찾고 있습니다. 학부생때는 그저 형식적 계산과정 차원으로만 이해하였는데, 처음 직관적 이해 설명부분을 듣고 망치로 맞은 느낌입니다. 아는 것을 가르치는게 결코 쉬운일이 아닌데 16분동안 설명 흐름이 정말 깔끔했습니다. 어떻게 설명해줄지를 얼마나 고심하여 준비했는지... 여러모로 열정을 심어주시네요 정말 감사드립니다.
들을 때마다 느끼는 거지만, 정말 시원한 명강의입니다.
이 설명 듣기 전에는 모집단의 표준편차와 표본의 표준편차를 구분한다는 것도 몰랐는데,
저 같이 통계를 모르는 사람도 따라갈 수 있네요.
늘 좋은 가르침, 감사합니다.
선생님 안녕하세요, 메일을 보낸 사람입니다. 정말 감사합니다. 이 같은 고민을 나눌수있다는것만으로도 감사하며, 아이들에게 많은 도움이 될것 같습니다. 배움은 늘 새롭고 끝이 없다는 것을 당연하지만 더욱 뼈저리게 느끼고 있었습니다. 저 또한 저의 위치에서 최선을 다하겠습니다.
저야말로 선생님 덕분에 컨텐츠 아이디어를 얻었습니다. 고맙습니다 :)
앞으로도 의견들 주시면 제 리소스가 되는 한 고민해 보겠습니다.
Thanks!
감사합니다~!
30년전 교수님도 모르는 이유를 권위로 밀어부쳐 어영부영하던 이유를 이유를 이제 들으니 속이 다 시원합니다. 다시 찬찬히 살펴봐야겠읍니다.
정말 수준 높은 영상들을 만드시는거 같아요 댓글도 잘 안다는데 채널 회원 가입이 고민될 정도네요 이런 양질의 영상 올려주셔서 감사합니다
교양 교수님도 똑부러지게 설명 못해주셨던 부분인데! 어휴 가려운데 시원하게 긁고 갑니다 수학계의 최고 효자손 12 math❤
와ㅋㅋㅋ 설명 진짜 잘하신다.. 좋은 영상 감사합니다. 도움 많이 받고 갑니다!
왜 S^2가 모분산의 좋은 추정량인지를 쉽게 설명해주셨네요. 추정량의 기대값이 모수와 일치한다는 unbiased 조건, 그것이 좋은 추정량의 필요 조건 중 하나이지요. 적정한 수준에서의 설명 재밌게 잘 들었습니다.
설명을 쉽게 참 잘하십니다.
좋은 영상 잘 봤습니다. 기회가 된다면 BootStrapping에 대해서도 설명해주시면 좋을 것 같네요.
우와... 10분 30초 구간을 보고서야 표본표준편차가 뭔지 표준오차와 구분하게 되었습니다. 앞으로도 통계관련 좋은 자료 많이 부탁드립니다. 명확해졌어요. 감사합니다.
1차원일때는 n-1 으로 나누었지만 데이터의 차원이 d 일때 (R^d) 에는 n-d로 나누어야 합니다. 이것을 선형대수학 적 으로 생각한다면 데이터의 degree of freedom만큼 뺴준다고 생각할수도 있습니다.
그럼 위의 식의 전개과정을 데이터의 차원에 관계없는식으로 일반화가 가능한건가요?
결과적으로 자유도만큼 나눈 게 되지만
원인과 결과를 도치시키면 안 됩니다. 자유도가 원인이라서 n-1로 나누는 게 절대 아니에요. 애초에 자유도랑은 수치만 같을 뿐, 유도과정을 보면 전혀 관계가 없어요.
물론 자유도와의 관계를 불라불라 설명할 수는 있겠죠. 그러나 그건 n-1이 자유도인 이유일뿐, 표본분산을 구할 때 n-1로 나누는 이유가 아닙니다.
@@Total_Syntheses 통계학개론에서 데이터 자유도만큼 빼주라고 설명을 들어서 영상에서 교수님이 설명해준 식에서 자유도를 변수로 일반화 시킬 수 있는건가 했는데, 결국 그런건 아니군요....
@@Total_Syntheses 왜 상관이 없는거죠? 표본평균 자체가 자유도인데요.
@@Total_Syntheses 반대로 자유도가 더 근본적 입니다. n-1인 경우에는 직접 계산해서 나오지만 자유도가 n-d 인 경우에는 n-d로 나누기 위해 선형대수의 자유도(차원) 개념을 이용해야 증명을 할 수 있습니다. 자유도라는 개념을 선형대수를 모르는 상태에서 언급하는건 위험하지만요.
유튜브의 순기능. 우연히 시청했는데 궁금했던 부분을 이해할 수 있었습니다.
Excellent explanations!!!!!!!!!!!!!
잘 보고갑니다 좋은 강의 감사합니다.
정말 정말 훌륭한 영상입니다!
불편추정량이라는 자체는 왠만큼들 알지만 직관적으로는 잘 모르는데 너무 명쾌하게 설명되네요!!!
ㄱㅖ산으로 설명해주시니까 확 와닿네요
너무 도움이 됐습니다 수학을 좋아하는데 좋은 스승을 만나지 못햇던거 같습니다 정말 잘 배우고 싶엇습니다 너무 감사합니다 이 나에 먹고 수학 다시 공부하게 되네요 새해 복많이 받으세요
좋은 말씀 감사합니다!
직관적 설명&수식증명 다해주시네요. 최고의 선생님입니다. 수식은 고딩때 배운거네요. 대단한 설명 도대체 누구지 하면서 처음으로 소개영상까지 찾아보고 그럼그렇지 납득됨.
한가지 질문이요. 자유도 개념은 어떻게 연결할수 있을까요? 이 영상 보면 (n-1)을 설명하는데 통계학책에 그토록 많이 나오는 그 개념이 필요가 없네요.
작년에 통계 배울땐 하나도 이해 못 하고 넘겼던 내용인데, 영상 몇번 더 돌려보며 풀어봐야겠지만, 일년동안 배운 것 보다 더 큰 표준편차에 대한 이해를 할 수 있게 되었다는 점이 참 아이러니하네요… 좋은 영상 감사합니다
와.. 진짜 몇 번을 봐도 이해가 안됐던 부분인데 이렇게 명쾌하게 알려주시다니.. 너무너무 감사합니다😊❤❤
정말 대단한 설명입니다.
표준편차, 표본표준편차, 표본평균의표준편차, 표준오차 등등 어휘부터 헷깔려서 계속 찾아보고 있는데 이 영상이 개념적으로도 수식으로도 구체적인 논리와 설명이 다 나와있어서 반복해서 보면 이제는 이해할 수 있을거 같다는 희망이 생기네요 ! 여러번 돌려보고 정확히 이해할 수 있도록 하겠습니다.
```더 생각해보기 위한 개인용 댓글```
9:17 에서 크기가 n인 표본을 추출하고, 이 표본의 표준편차들이 작게 도출되려면, 모집단의 분포가 정규분포에 근사하는 식으로 평균 근처에 변량들이 더 많이 분포한다는 전제가 있어야 하는 것 아닌가 ? (영상에 띄워진 화면 그림을 당연하다며 자동적용하면 맞지만, 말로 논리를 설명할 때는 포함되지 않았음)
'전제가 없다면' 9:46의 설명만으론, 표집된 표본의 분포가 달랐다면 오히려 표본표준편차가 모표준편차보다도 증폭되는 경우도 발생하는데 이 빈도가 표본이라서 적게 발생한다고 할 수 있을거 같진 않다고 생각하는 중.
와 마침 공분산 비슷한거 배우면서 궁금했는데 딱 나와서 알고 가네요. 감사합니다.
+)질문추가
선생님, 그런데 15:20에서는 σ²=E[Σ(Xn-Xbar)²/(n-1)] 인데, 15:25에서는 σ= √ (Xn-Xbar)²/(n-1)입니다. E[]가 왜 빠진건지, E[]가 빠졌는데 등식이 성립할 수 있나요?
대박이네요. 설마 이런 걸 자세하게 설명해주는 게 있겠어? 싶었는데 개념서에 대충 적힌 설명을 이렇게 정성껏 풀어주셔서 정말 감사합니다.
15:20 에서 계산된 기댓값은 s^2입니다
오옷 정말 이해하기 쉽습니다..
14:40 이거 마지막 두 줄이 핵심인것 같은데... 나중에 정신차리고 다시 들어보고 싶습니다.
왜 n-1인지 집요하게 질문했더니 이거 이해하려면 통계 관련 대학원 오라던 교수님 기억나는군요.
오 설명 너무 좋은데요? 잘 배우고 갑니다~! :)
와 대단합니다! 한번에 이해했습니다!!!!!
표본의 분산이나 표준편차를 이용해서 모분산이나 모표준편차를 구하는 식에 대한 설명
7:54 과소추정하게 되는 이유에 대한 이해(표본은 극단값이 선택될 확률이 적기 때문)
10:05 n-1로 나누는 이유에 대한 대략적인 설명(과소추정되는 분산을 키우고 싶어서)
11:35 왜 n-1로 나누어야 하는지에 대한 수학적 설명 (변량-표본평균 제곱의 기댓값이 (n-1)모분산 이기 때문)
제가 항상 궁금했었는데 속 시원하게 설명해 주셔서 감사합니다. ^^
고등개념책은 실제로 값을 해봐서 예시로 설명하는데 여긴 증명까지 깔끔하니 20년전 계속궁금하던게 드디어 풀렸습니다. 진짜. 감사합니다.
응원합니다 ❤❤
이거 궁금했었는 데, 감사합니다.
최고의 설명이네요. 감사합니다.
좋은 영상 감사합니다
고등학생들과 같이 수학을 공부하고 있는 1인 입니다. 좋은 영상에 항상 감사드립니다.
비편향추정량에 대한 예를 들어해주신 설명이 참 감명깊습니다.
학생들과 같이 공부하다보면 표본의 통계량과 표본을 추출하여 얻은 표본값(통계값)의 구분을 어떻게 설명할지 항상 고민을 합니다. [표본값이나 통계값이라 표현하는것이 맞을지 모르겠습니다]
이 영상에서도 표본 X_i 가 통계량(확률변수)라는 인식이 조금 부족할 수도 있을 것 같고요
심지어는 저랑 비슷한 일을 하시는 분 중 어떤 분은 '표본평균이나 모평균이나 거기서 거기'라는 이야기를 했다는 것을 들었던 적도 있습니다(당황)
고교 교과서에서 표본의 통계량과 추출된 표본 표본값(통계값)의 구분도 모호할 뿐더러
대표적인 표본의 통계량인 표본평균, 표본분산, 표본표준편차를 왜 이런식으로 정의하는지에 대한 설명도 너무 부족한 것 같아 항상 아쉽습니다. (식의 구성방법에 대한 설명 등)
추측통계학의 많은 부분이 상당히 재미있는 아이디어들이 들어가 있다는 것은 대학에서 공부하며 조금씩 맛 보게 되었는데
그 출발점인 통계량의 정의부터 고교 수학에서는 너무 단편적이며 부족한 설명이 있기에 이 부분에 대한 쉽고 재미있는 설명은 어떻게 풀어나가실까 싶어서 이렇게 글을 남겨봅니다.
뭐하시는 분일까
중딩때 배울 땐 그냥 외우고 말았는데 대학까지 졸업하고 나서 다시 보니까 완전 쏙쏙 박히네요 감사합니다 이제 평생 안 까먹을듯
굿이네요
와우 감사합니다!
개인적 직관으로는 결과에 영향이 안갈정도의 더이해하기 쉽게 식의 변형인거군요 최근에 책읽었는데 제곱평균-평균제곱 강조하던데 이렇게 써먹는군요.
표준편차 보니까 갑자기 떠오르는 게 있는데 spherical linear interpolation가 갑자기 떠오르네요. 평균이 0인 X들은 하이퍼스피어 위의 점이 된다는 거 였는데.. n개의 확률 변수를 n차원 공간의 점으로 놓고 볼 수 있다는 점이 많이 신기했습니다.
degrees of freedom에 대한 mathematics deployment Logic Access Method로 굉장히 좋은 내용이네요 다만 일반인들이 이해 할 수 있는 Degrees of freedom의 concept은 따로 설명이 필요 할 듯하네요
와 그냥 과소평가 한다만 알았는데 식으로 증명을 하니까 이해가 더 잘되네요
와, 궁금했는데 어느 정도 이해가 되네요. 감사합니다.
예술이네요
너무 친절하게 잘 설명해주시네요 감사합니다^^.
오 감사합니다 너무 궁금했아용
고등학생 때 그냥 외우기만 했었는데 이런 이유가 있었다니 신기하네요
와...이해가확실히되었습니다
안녕하세요? 언제나 너무 좋은 내용을 잘 보고 배우고 있는 구독자입니다.
이번 표준편차 영상에 대해서 말씀드리고 싶은 점이 있습니다.
1. 표본 표준편차는 불편 추정량이 아닌 것에 대해서
많은 인터넷/유튜브 통계 강의에서 이 부분을 분명히 하고 있지 않은데, 이번 영상도 그럴 오해의 여지가 있다고 생각합니다. Bessel’s correction이 적용된 표본 분산s²은 모집단의 분산σ²을 가장 잘(best) 예측하는 불편 추정량입니다. E(s²) = σ². 하지만 표본 표준편차의 경우 n-1 correction을 적용하더라도 비선형성 때문에 여전히 모집단보다 underestimate(biased)되어 있습니다.
즉 E(s) ≠ σ 로서 표본 표준편차의 평균이 모집단의 표준편차와 일치하지 않습니다. 따라서 여러 표본셋이 있다고 하면, √(E(s²)) 을 사용하여야합니다. 불편 추정량으로서의 E(s’)=σ를 위해서는 unbiased estimation of standard deviation을 사용해야 하는데, 모집단의 분포에 따라 다르고 다소 복잡하기는 하지만 수학적 엄밀함이라는 측면에서 최소한 이런 것이 있다는 명시가 필요하다고 생각합니다.
2. 자유도를 이용한 표본분산 불편 추정량 증명방법
영상의 표본 분산 증명도 올바른 증명이긴 하지만 n-1에 대한 직관적인 이해를 얻기가 어렵다고 생각합니다.(제가 그랬습니다.) 성분 분해와 자유도를 이용한 증명이 n-1이 등장하는 이유를 더 잘 설명하지 않나 생각합니다. 특히 자유도에 대한 것은 정성적인 설명에는 아주 많이 나오지만, 실제로 명확하게 증명에 사용하는 것은 거의 보지 못했습니다. 간단히 소개하면 다음과 같습니다.
x₁,…,xₙ이 독립 정규 무작위 변수(μ,σ²)일때 단위 벡터 u=(a₁,…,aₙ)ᵗ와의 내적을 x·u=a₁x₁+..+aₙxₙ이라고 하면, E(x·u)=a₁E(x₁)+…+aₙE(xₙ)이고 Var(x·u)=(a₁²+…+aₙ²)σ²=σ²이다.
x₁,…,xₙ을 직교 분해하기 위해 다음과 같은 직교정규벡터를 사용하면,
u₁=(1,..,1)ᵗ/√n
u₂=(1,-1,0,…)ᵗ/√2
u₃=(1,1,-2,0,…)ᵗ/√6
uₙ=(1,…,1,-(n-1))ᵗ/√(n(n-1))
n차원 벡터 x는 다음과 같이 직교 분해할 수 있다. (u₂,…,uₙ의 선정은 임의적이며 다른 직교 벡터를 선택하더라고 결과는 같다.)
x=(x·u₁)u₁+…+(x·uₙ)uₙ
u₁ 성분의 평균과 분산은 다음과 같다. E(x·u₁)= √nμ이고 Var(x·u₁)=σ² 이다. (E[(x·u₁)²]=σ²+nμ²)
이 u₁ 방향의 성분은 모집합의 평균 μ를 추정하는데 사용된다. 평균을 추정하는 df(자유도degree of freedom)는 성분이 1개이므로 1이다. 모델 벡터라고도 부른다.
x̄ = (x·u₁)u₁=(x₁+..+xₙ)/n (1,...,1)ᵗ
나머지 방향 u₂,..,uₙ 성분은 E(x·uᵢ)=0 이고 Var(x·uᵢ)=E[(x·uᵢ)²]=σ²으로서, 분산을 추정하는데 사용되며(best unbiased estimator), df는 n-1이다. (오류 벡터라고도 부른다.) 이러한 나머지 n-1개 독립 변수 성분의 평균으로 추정한 분산을 표본 분산이라고 부른다.
s²=[(x·u₂)²+…+(x·uₙ)²]/(n-1)
x - x̄ = (x·u₂)u₂+…+(x·uₙ)uₙ 이므로 표본분산은 다음과 같아진다. s² = |x-x̄|²/(n-1) = ∑(xᵢ-x̄)²/(n-1)
이 방법은 표본 분산의 의문을 해결한다. ∑(xᵢ-x̄)²의 항의 수는 n개인데 왜 n-1로 나누는가? 그것은 독립제곱성분인 (x·u₂)²+…+(x·uₙ)²의 원래 갯수는 n-1개이고 이것을 평균하기 때문이다.
(긴 글 읽어주셔서 감사합니다.)
표본분산에 대한 최고의 설명이십니다~ 와우~
이게 정말 궁금했는데, 어디에서도 설명해주는 사람이 없어서 괴로웠습니다. 어쩌다 이 영상을 보게 됐는지는 모르겠지만 정말 속이 후련합니다. 고맙습니다!!!
정말 감사합니다
뭔 말인지 모르겠는데 재미있네요 ㅋㅋㅋ
30년전에 수리통계학에서 배우던 것이 새롭게 기억나네요~
이야... 박수
내공이 엄청나신 강의입니다 이해도쏙쏙가고 통계의신 통신이라고 불러드리고싶네요^^
제가 이해했던건
저 수많은 데이터중엔 딱 평균과 같거나 혹은 평균하고 엄청 가까운 변량이 있을거고 (즉 편차가 0이거나 0에가까운) 그녀석은 산포도로서 계산할 때 오히려 함정카드가 되니까! 라고 이해하고 있었는데 반쪽짜리 이해였네요.. 너무감사합니다
자유도라는 개념과 어떻게 연결되는지도 설명부탁드립니다 ㅎㅎ
14:06 여기서 마법이 일어나네
계산에 의해서 n-1임을 보여주면 될텐데, 경험상 n-1이 더 근접해서 그렇다는 설명을 해줘서 의문이였는 데 이제 이해갔네요. 30년전 문과대 대학때 배운 통계학 수업때 기억을 썸네일이 강제 소환시켜서 다 봤네요 ㅎ
지렸네요
진짜 언제는 n이고 언제는 n-1인지 궁금하기만 하고 찾아봐도 이해가 안 가길래 그냥 자주 쓰지도 않고 대충 쓰자 했는데 이런 의미가 있었네요 감사합니다.
와 완벽해 고등학교 대학교 대학원 그 누구도 완벽히 설명 못해주더라고요 ㅡㅡ 교수님들도 자유도 어쩌구 하면서 논리적으로 설명잘 안해주시고..
근데 처음으로 완벽한 설명을 들었어!
고등학교 수학 배울때 n-1로 나눌 때 값이 더 정확해진다고만 듣고 넘어갔었는데 이런 이유가 있었군요
이 부분에.대한.설명은 대학교 교재에서도 본 적이 없어서 예전에 외국 강의 사이트를 뒤져서 이해했었습니다.(영상과 동일한 방법) 믈론 제가 학교에서 고등학생들에게 자세한 설명을 하진 않습니다. 단지 그렇게 해야 오차가 줄어들기 때문이고, 기대값을 계산해보면 저리 나온다고 말해줄 뿐이죠. 아 물론 학생들은 관심이 없습니다. s는 시험에 거의 안나오니까요. 슬픈 일이죠.... 시험에 나오면 보고 시험에 안나오먄 안본다는게...
경우의 수와 확률은 어려워지면 퍼즐이고 통계는 겉만 핥으니 패턴까지 정해진 암기과목이고 ㅋㅋ 고교 확률론은 답없죠 ㅋㅋ
삼각함수 관련 영상도 올려주실수 있으신가요? ㅠㅠ
N-2도 잇죠. Linear 에선 한 line을 만들기위해선 점이 2개 필요 하니깐 n-2를 씁니다.
n-1을 왜 자유도라고 부르는 건가요?
마리갤은 개추ㅋㅋ
a+b+c=0 이래고 했을때
a와 b가 자유롭게 정해지면
c는 종속되므로
자유도가 2라고 하는 것입니다.
자유도는 n-1만 있는 것이 아닙니다
헉
근데 자유도가 뭐지
마리갤 찐이네 ㅋㅋ
기댓값의 계산을 통해 표준편차를 구할 때 n-1로 나누는 게 좋겠다는 결론을 얻은 것은 납득이 되는데, 동시에 표본의 갯수를 모집단의 크기만큼 늘리면 식에 모순이 생기는 것은 아닌가 헷갈리네요. 으 어지럽다
@@도파민-m1w 그렇겠지만, 영상에서 나온 기댓값을 구하는 과정에서는 n의 크기가 모집단의 크기와 다르다는 가정을 하거나, 달라야만 하는 부분을 못 느꼈거든요. 뭔가 놓친걸까요?
좋은 질문입니다. 제가 예시로 표본추출을 할때는 비복원추출처럼 설명을 드렸습니다만 (1,2,3중에 2개를 뽑을때 1을 두번 뽑는건 없는 케이스처럼) 기대값 계산을 할때는 복원추출로 (1을 두번 뽑는 것이 가능) 이해하고 계산했습니다. 표본을 n번 뽑는다고 하면 복원추출의 경우 모든 모집단이 안나오는 경우들이 있겠죠. 그때의 표준편차로 모표준편차를 추정할땐 여전히 n-1로 나누는 것이 맞을 것입니다.
@@12math 아! 그렇네요 감사합니다
불편추정량을 만들기위해서 n-1 로 나누어야하는 건데 그걸 교수님이 모르셨다구요?? 통계책만 잘 봐도 나오는 내용인데용??
그니까 결론은 계산결과 n-1로 나누어야 모집단의 분산을 나타내는 값이기 때문인 거죠?
저는 통계에서 이런부분을 집지 않고 그냥 넘어가서 늘 받아들이는게 어려웠는데 좋은 강의 감사드립니다. 이런 부분을 공부하려면 어떤 공부(책?? 과목??)을 해야하나요? 대학 학부수준의 통계나, 수리통계에서는 배운적이 없는것 같네요.
30년전에도 수리통계학에 나오는 내용인데요~
학부 수리통계에서 다루는 내용입니다
8:05 왜 난 이걸보고 그게보이지......
선 좋아요 후 감상
표본 표준편차-> 한 개체의 이유를 찾는다.
독특하게 튀는 값이 있다면 그걸 빼서 계산하는 하는 건가요.?
시험을 여러번 보게한다.->각 시험의 유형(같은 시험의 과목)이나 지식별로 난이도를 강화하거나 낮춘다.->시험을 계속 보게하되 오답과 점수를 말해주지 않는다.->추가적인 공부를 시키지 않는다.->튀는 이유를 찾는다.->시험은 계속 본다.->일반적인 표준 까지 산도가 평균적인 수준이 되는 이유를 찾기->떨어지는 사람들이 시험에서 점수가 어떻게 하면은 잘 나오는지 안 나오는지 판단 -> 아니 그냥 그 사람이 이해하고 모르는 부분을 찾는건데?
모집단 표준편차-> 잘 보는 사람과 못 보는 사람들의 케이스
맞나?
n으로 나눈것이 표본의 표준편차인 것은 맞으나, 그것이 모표준편차를 추정하는데 적절하지 못하지 때문에 (n-1)로 나누는 것이라고 이해했는데 제대로 이해한 것이 맞나요? 왜(n-1)로 나눠야 하는지를 이 영상에서 대수적으로 확인한거고요
표본표준편차 n-1의 이유
영상에서는 표준편차 식이 왜 2가지인지에 대한 깊은 이해를 제공해줬어요. 강의자가 각각의 식이 나오게 된 배경과 적용되는 상황을 자세하게 설명해주어서, 표준편차를 두 가지 식을 통해 더 효과적으로 이해할 수 있었습니다. 수학적인 내용이지만 완전히 이해할 수 있게 해준 좋은 강의였습니다.
감동해서 울었습니다
편차제곱합이 일치추정량인데 n-1로 나눌 때 불편추정량이 되니까
unbiasedness vs consistency
저게 표본표준편차의 평균이 모집단의 평균과 같게 되려면 n-1로 해야 되는 걸로 알고 있는데 증명하는 방법이 기억이 안났는데 간만에 다시 봤네요.
표본분산의 평균이 모분산이 되도록 하기 위해 n-1로 나누는 건 많은 책에 다 나와있습니다. 그리고 이때 표본표준편차의 평균은 모표준편차가 되지 않는다는 것도 알려져 있고요.
1. 왜 표본표준편차의 평균이 모표준편차가 되도록 하지 않고 표본분산의 평균이 모분산이 되도록 하는 걸까요? (루트 때문에 계산이 더 복잡해져서 그런걸까요?)
2. 표본표준편차의 평균이 모표준편차가 되도록 하려면 표본표준편차의 정의를 어떻게 해야 하는지 혹시 아시면 알려주시면 감사하겠습니다.
1번은 루트만 계산하면 되니 편하게 하는것이죠.
2번은 이 영상의 핵심이 답이니 다시 보세요.
기댓값을 모두 평균이라고 하시니 좀 헷깔리네요.
@@빡쌤-e7q 1. 루트를 하고 안 하고 정도의 문제와 질문이 아니었습니다. 루트를 씌우는 게 그리 대단한 일이 아니라면, 표본표준편차의 기댓값, 즉 E(S)=sigma가 되도록 하기 위한 이때의 E의 정의를 어떻게 정할 수 있을 지에 대한 질문이었습니다.
2. 이 영상은 표본분산의 기댓값이 모분산이 된다는 것, 즉 E(S^2)=sigma^2을 소개하는 것이고요 ㅎ... 제 질문은 표본표준편차의 기댓값이 모표준편차가 되도록, 즉 E(S)=sigma가 되도록 하기 위한 E의 정의가 무엇일지에 대한 질문이었습니다. 영상과 질문을 꼼꼼히 봐주세요~
계산의 편이성이 주요한 이유가 아닐까 싶습니다. 분산을 맞추는게 아니라 표준편차를 기준으로 맞추면 분산이 또 어그러지겠죠. :)
저랑 비슷한 고민을 하셨군요.
위키피디아에 따르면 모분산과 달리 모표준편차에 대한 불편추정량은 통계량이 가지는 분포에 따라 달라진다고 합니다. 따라서 표본분산처럼 분포와 상관없는 일반화된? 모표준편차에 대한 불편추정량 값은 없는듯합니다.
다만 특이 케이스로 통계량이 정규분포를 따를때 모표준편차에 대한 불편추정량을 계산할 수 있지만, 감마함수가 포함된 형태로 굉장히 복잡한 형태의 불편추정량을 가집니다.
굳~~
안녕하세요 늘 유익한 영상 잘 보고 있습니다! 통계 관련하여 궁금한 것이 있어 여쭈어보고자 합니다.
분산을 편차 제곱에 대한 평균으로 정의하는데, 편차의 평균이 항상 0이 되기 때문으로 알고 있습니다. 그럼 제곱 대신 절댓값의 평균으로 정의하지 않는 이유가 궁금합니다. 특히나 분산에 루트를 씌어 값을 보정(?)하는 것 때문에 더욱 궁금했습니다!
절대값의 평균으로 산포도를 측정할 수도 있겠으나 분산이나 표준편차의 개념을 쓰지 않는 것은 상상하기 어렵습니다. 예를 들어, 정규분포를 표현하는 식에도 표준편차 시그마가 포함되고요. 분산은 제곱들의 평균에서 평균의 제곱을 뺀 것이니 "제곱의 평균" 개념이 포함되어 있는데, 분포의 대칭성을 측정하기 위해서는 skewness라고 하는 세제곱의 평균이 활용되기도 합니다. 모먼트 제너레이팅 펑션에 n제곱의 평균텀들이 쓰이기도 하고요. 분포의 성질을 이해하기 위해서는 제곱의 평균을 활용하는 것이 더 자연스럽습니다.
이렇게 정성들여 답글 달아주셔서 정말 감사드립니다!! 앞으로도 영상 재밌게 잘 보겠습니다!:)
-이 댓글은 뇌피셜로 작성되었습니다--
절댓값을 이용해 산포도를 측정하는 것도 아이디어가 될 수 있다고 생각합니다. 핵심은 절댓값으로 계산하는 것과 제곱으로 계산하는 것으로 말미암아 어떤 차이가 생기는지겠네요.
개인적으로 -2, -2, 2, 2와 -2, -2, 1, 3의 두 수집단을 생각해보면 어느 정도 납득이 가지 않을까 합니다.
어떤 변량이 평균값에서 멀리 떨어짐으로써 전체에 영향을 주는 정도를 편의상 '극단성'이라는 단어로 정의한다면
둘 다 평균이 0인 수집단이지만 후자의 경우 3이라는 좀 더 극단적인 변량이 있는데, 절댓값을 이용한 산포도는 둘 다 8로 똑같이 나와 이러한 극단성이 반영되지 않습니다.
극단적인 변량의 존재의미를 중요하게 따지는(재앙 예측 등) 자료의 경우까지도 의미있는 산포도이기 때문이지 않을까 생각해봅니다.
가끔 자유도로 설명하는 사람들이 있는데, 자유도인 n-1과 같은 값인 건 그냥 우연입니다.
나만 14:13 x바의 분산이 시그마/n이 되는게 이해가 안되는건가; 표본 평균의 분산이라...
모집단이랑 표본이랑 같으면 어떻게되요? 결과는 같아야하는데 수식이 달라지자나요
사실 진실을 모르는 평균과 분산을 추정해야 되는데 무식한 추정이 아니다란 기준 중 하나인 한쪽으로 치우치지 않는다란 성질 (불편성)이 성립이 되게하기 위해 표본분산엔 n-1로 나누는거 같아요.
근데 자유도랑 불편성과도 관련이 있는지 궁금해요. 자유도가 말그대로 얼마나 자유하냐는 정도인데 그 자유가 무엇으로부터 자유한 건지도 궁금해요. 실제 단순선형회귀식의 경우 불편성을 만족하는 분산은 n-2로 나누거든요.(사실 우리가 아는 표본평균을 구하는 방식이 상수항+에러텀이 있는 식에서 상수항을 ols로 추정하는 것이죠)
요는 자유도가 무엇으로부터 자유한것인지를 나타내는지 이 자유도와 불편성과 왜 연관될 수 밖에 없는지 이게 궁금합니다
샘플링 예제에서 샘플링할때 각각이 독립적으로 뽑아야되서 무조건 다른것만 나오게 샘플링 하면 안되지 않나요?
이거 그냥 표본분산의 불편성을 만족하려면 n-1로 나눠야지만
불편성을 만족해서 n-1인줄알았는데 아닌가용?
7:09 그 얘기를 영상에서 하신 것 같아요. 표본표준편차가 모표준편차에 비해 대체로 작게 나온다는 의미는 표본분산의 불편성을 만족하지 않는다는 얘기로도 볼 수 있으니까요.