Én azt nem értem hogy ha teljesul a CLT, akkor ez azt is jelenti hogy innentol kezdve normal eloszlasnak tekinhetem a populáciot s ez felhatalmaz hogy t-probakat is vegezhetek , még akkor is ha a populáciorol pl eros a gyanum hogy nem normegyenletes eloszlast kovet? Mennyire helyes ez a megkozelites
Ez egy nagyon jó kérdés, és a téma heves internetes viták alapja. Először is a központi határeloszlás tételnek nagyon sok mindenben van szerepe (gyakorlatilag ezért működik a statisztika): 1) részben felelős azért, hogy sok tulajdonság a populációban normál eloszláshoz közelítsen, mert a tulajdonságokat sokminden befolyásolja. Ettől még nem biztos, hogy a tulajdonságot az általam vett mérőeszközön keresztül is normáleloszlásúnak fogom látni (itt most nem a mintavételezés bizonytalanságáról beszélek, hanem kifejezetetten arról, ahogy a tulajdonságot mérem), mert sok mérőeszközünk van, mely nem egyforma felbontásban mér a tulajdonság teljes tartományán (pl. perfekcionizmus skála, mely a magasan perfekcionisták részén jól mér, a kb. normál tartományban viszont padlóhatás miatt egy csomó embert összemos). 2) a predikciónk hibájának normáleloszlását hozza létre (regressziós videóban részletesebben: ha a modelltől független a sok egyéb tényező, mely a hibát, zajt létrehozza, akkor a zaj normál eloszlást fog követni). 3) sok próba valóban robusztusabbá válik nagyobb elemszámon a normalitás sérülésére. Itt az a nehéz, ez a robusztusság különböző sérülésfajtáknál eltérő elemszámnál válik kellően erőssé. Pl. t-próbánál mindkét minta ugyanabba az irányba ferde - viszonylag kis elemszámnál is már robusztus a t-próba. A két minta eltérő irányba ferde: akár több ezer főnél sem az. Szóval óvatosan azzal, amikor a normalitás sérülése ellenére t-próbát használsz a CLT-re hivatkozva. Sokszor teljesen rendben van, néha meg nagyon nem. Inkább azt szoktam tanácsolni, hogy vizsgáld meg, hogyan sérül a normalitás (hisztogram, Q-Q plot, ferdeség, csúcsosság segítségével), és a robusztussági szakirodalmat figyelembe véve dönts arről, használhatsz-e t-próbát ennek ellenére. (itt továbbra is a központi határeloszlásnak köszönheted, ha a robusztusság kialakult, de nem vakon arra hagyatkozva döntesz)
Jó videó lett, könnyen emészthető :)
Én azt nem értem hogy ha teljesul a CLT, akkor ez azt is jelenti hogy innentol kezdve normal eloszlasnak tekinhetem a populáciot s ez felhatalmaz hogy t-probakat is vegezhetek , még akkor is ha a populáciorol pl eros a gyanum hogy nem normegyenletes eloszlast kovet? Mennyire helyes ez a megkozelites
Ez egy nagyon jó kérdés, és a téma heves internetes viták alapja.
Először is a központi határeloszlás tételnek nagyon sok mindenben van szerepe (gyakorlatilag ezért működik a statisztika):
1) részben felelős azért, hogy sok tulajdonság a populációban normál eloszláshoz közelítsen, mert a tulajdonságokat sokminden befolyásolja. Ettől még nem biztos, hogy a tulajdonságot az általam vett mérőeszközön keresztül is normáleloszlásúnak fogom látni (itt most nem a mintavételezés bizonytalanságáról beszélek, hanem kifejezetetten arról, ahogy a tulajdonságot mérem), mert sok mérőeszközünk van, mely nem egyforma felbontásban mér a tulajdonság teljes tartományán (pl. perfekcionizmus skála, mely a magasan perfekcionisták részén jól mér, a kb. normál tartományban viszont padlóhatás miatt egy csomó embert összemos).
2) a predikciónk hibájának normáleloszlását hozza létre (regressziós videóban részletesebben: ha a modelltől független a sok egyéb tényező, mely a hibát, zajt létrehozza, akkor a zaj normál eloszlást fog követni).
3) sok próba valóban robusztusabbá válik nagyobb elemszámon a normalitás sérülésére. Itt az a nehéz, ez a robusztusság különböző sérülésfajtáknál eltérő elemszámnál válik kellően erőssé. Pl. t-próbánál mindkét minta ugyanabba az irányba ferde - viszonylag kis elemszámnál is már robusztus a t-próba. A két minta eltérő irányba ferde: akár több ezer főnél sem az.
Szóval óvatosan azzal, amikor a normalitás sérülése ellenére t-próbát használsz a CLT-re hivatkozva. Sokszor teljesen rendben van, néha meg nagyon nem. Inkább azt szoktam tanácsolni, hogy vizsgáld meg, hogyan sérül a normalitás (hisztogram, Q-Q plot, ferdeség, csúcsosság segítségével), és a robusztussági szakirodalmat figyelembe véve dönts arről, használhatsz-e t-próbát ennek ellenére. (itt továbbra is a központi határeloszlásnak köszönheted, ha a robusztusság kialakult, de nem vakon arra hagyatkozva döntesz)