Hinweis: In einer früheren Version des Videos wurde der zentrale Grenzwertsatz (ZGW) nicht präzise genug erläutert. Bei steigender Stichprobengröße nähert sich die Verteilung der Stichprobenparameter, z.B. Mittelwerte zunehmend einer Normalverteilung an - unabhängig der Form der Grundgesamtheitsverteilung. Hier ein Ausschnitt aus Field, A. (2018) Discovering Statistics Using SPSS, S. 235 f.: „1. For confidence intervals around a parameter estimate (e.g., the mean, or a b in equation (2.4)) to be accurate, that estimate must come from a normal sampling distribution. The central limit theorem tells us that in large samples, the estimate will have come from a normal distribution regardless of what the sample or population data look like. Therefore, if we are interested in computing confidence intervals then we don’t need to worry about the assumption of normality if our sample is large enough. 2. For significance tests of models to be accurate the sampling distribution of what’s being tested must be normal. Again, the central limit theorem tells us that in large samples this will be true no matter what the shape of the population. Therefore, the shape of our data shouldn’t affect significance tests provided our sample is large enough. However, the extent to which test statistics perform as they should do in large samples varies across different test statistics, and we will deal with these idiosyncratic issues in the appropriate chapter. 3. For the estimates of model parameters (the b‘s in equation (2.4)) to be optimal (using the method of least squares) the residuals in the population must be normally distributed. The method of least squares will always give you an estimate of the model parameters that minimizes error, so in that sense you don’t need to assume normality of anything to fit a linear model and estimate the parameters that define it (Gelman & Hill, 2007). However, there are other methods for estimating model parameters, and if you happen to have normally distributed errors then the estimates that you obtained using the method of least squares will have less error than the estimates you would have got using any of these other methods.“ Zusätzlich empfehloe ich zu diesem Thema wärmstens den Artikel: Lumley, T., Diehr, P., Emerson, S., & Chen, L. (2002). The importance of the normality assumption in large public health data sets. Annual review of public health, 23(1), 151-169.
Ciao Björn, ich habe eine Frage: Beobachtung hat eine Population von 9 Menschen (5 Männer und 4 Frauen) und die Information wie sie bestimmte Abos nutzen. Die Möglichkeit sind bezahltes, freies und kein Abo. Meine Frage, Könnten wir auf der Grundlage dieser Daten einen Korrelationskoeffizienten berechnen? Warum ? Warum nicht? Vielen Dank für deine Hilfe. Gruss Drogba
Bei ca. 5:55 sagst du, Wenn ihr wisst das ihr keine bivartiate Normalverteilung habt, dann muss man das BCa-Intervall anschauen. Und wenn ich keine Ahnung habe ob sie bivariat NV sind? Ich habe Ergebnisse, bei denen die Siginifkanz nach Pearson da ist (r ist auch Groß). Muss ich die Korrelation immer als nicht signifikant ansehen wenn die Null im BCa-Interval liegt, oder nur wenn ich, woher auch immer, weiß das die Werte nicht bivariat Normalverteilt sind?
Hallo, bivariat normalverteilt ist eine Voraussetzung die wie gesagt kaum geprüft wird. Univariat für die zu korrelierenden Variablen reicht idR völlig aus. Alternativ kann man auf Nummer sicher gehen und das Bca anschauen. Da sollte eigentlich bei hinreichend großem r das Intervall die 0 nicht umschließen. Wie groß ist die Stichprobe? Bca sollte 50 die untere Schwelle sein. Viele Grüße, Björn.
super Video! Was mich aber mal sehr interessieren würde ist, was eigentlich zu tun ist, wenn man einfach nur die Korrelation einer Grundgesamtheit testen möchte. Wenn also gar keine Stichprobe gezogen wurde. Anscheinend ist das so selbsterklärend oder in der Praxis nicht relevant, dass ich dazu einfach keine Richtlinien finde. Eine Signifikanzprüfung sollte ja schonmal unnötig sein, da wir keine Rückschlüsse von einer Stichprobe auf die Grundgesamtheit ziehen wollen (Wir betrachten ja schon die Grundgesamtheit). Was ist mit den Voraussetzungen die du hier prüfst? Sind die bei einer Grundgesamtheit genauso zu prüfen? Beim zentralen Grenzwertsatz werden wieder lediglich Stichproben thematisiert :D Über eine Antwort würde ich mich freuen! Viele Grüße
Super Video! Danke. Meine Frage: Mein Streudiagramm zeigt an fast jeder Stelle des Diagramms Messwerte (N=1616). Es ist kaum ein Muster erkennbar, oben links und unten recht sind etwas weniger Werte. Wie erkenne ich dort, ob es einen linearen Zusammenhang (Voraussetzung Pearson-Korrelation) gibt?
Das würde mich auch interessieren. Ich hab eine ziemlich unförmige Punktewolke (alle anderen Voraussetzungen sind erfüllt), kann ich dann trotzdem eine Pearson-Korrelation rechnen oder sollte ich besser Spearman nehmen?
Kannst du das mit der Linearitätsvoraussetzung noch einmal erläutern? Ich habe eine sehr kleine Stichprobe und kann an den Streudiagrammen kaum erkennen, ob Linearität gegeben ist. Ist es dann legitim, die Pearson-Korrelation durchzuführen und die Linearität später infrage zu stellen oder sollte man immer auf nicht parametrische Verfahren wie Spearman zurückgreifen?
Hallo Laura, die Linearitätsvoraussetzung ist öfter Gegenstand von Diskussionen. Gerade bei Korrelation und Regression heißt es immer, es sei eine Voraussetzung. Soweit auch richtig. Irgendwie wird es auch zur selbsterfüllenden Prophezeiung. Ich setze es voraus, untersuche ja aber genau das mit der Korrelation. R zeigt mir ja einfach gesprochen an, wie stark ich eine Variable durch die andere _linear_ "erklären" kann (Achtung: bei Korrelation ist es ein ungerichteter Zusammenhang). Demzufolge prüfe ich ja mit der Korrelation auf einen linearen Zusammenhang - je größer R, desto linearer. Bei 1 hätte man eine Punktewolke, wo alle Punkte auf einer Gerade liegen - eher unrealistisch. Was bedeutet das nun für dich? Wenn du eine Korrelation zwischen zwei Variablen rechnen möchtest, kannst du streng genommen auf die Linearitätsprüfung verzichten - Pearson's R zeigt dir ja letztendlich an, "wie linear" der Zusammenhang ist. Also nach Pearson rechnen und dann relativieren erscheint mir gangbar, v.a. vor dem Hintergrund, dass Spearman eben mit Problemen behaftet ist, die sich aus der Rangbildung ergeben. Dazu hier auch ein Papier, wo man sehr schön sehen kann, das sich je nach Datenlage (es sind eher ungewöhnlichere aber nicht unrealisitische Fälle) die Richtung und/oder Signifikanz des Zusammenhanges deutlich ändern können: geoinfo.amu.edu.pl/qg/archives/2011/QG302_087-093.pdf Mit diesem Wissen würde ich daher persönlich Pearson bevorzugen, sofern v.a. die Normalverteilung halbwegs erfüllt ist. Hilft dir das weiter? Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther danke für die ausführliche Antwort, das ist mir eine große Hilfe! Ich würde also eine Pearson-Korrelation berechnen, beschreiben, dass sich anhand des Streudiagramms nicht eindeutig ein nicht-linearer Zusammenhang feststellen lässt und ich daher zunächst von Linearität ausgehe? Und das würde ich in der Diskussion relativieren. Gilt das auch unter der Voraussetzung, dass ich in der Hypothese (x hängt positiv mit y zusammen) einen Zusammenhang annehme, aber nicht explizit einen linearen? Oder wäre die Hypothese damit nicht hinreichend beantwortet?
Hey, vielen Dank für das Video. Ich habe eine kleine Frage zu den Voraussetzungen und Skalenniveaus. Ich möchte untersuchen, ob 3 Variablen miteinander zusammenhängen (UV1 und AV, UV2 und AV, UV1 und UV2). Allerdings habe ich diese auf verschiedenen Likert Skalen gemessen, weswegen sie ja eigentlich ordinalskaliert sind (UV1 = fünfstufig, UV2= sechsstufig, AV= vierstufig). Müsste ich hierfür Skalenscores bilden, damit ich ein metrisches Skalenniveau habe? Und stellt es ein Problem dar, dass diese Skalen auf verschiedenen Skalenstufen gemessen worden sind?
Hallo, zunächst ist die Anzahl der Skalenstufen bei der Korrelation egal. Die gibt den standardisierten Zusammenhang zurück. Die Kovarianz wäre hingegen davon beeinflusst und wird aher auch meist recht selten überhaupt angegeben. Likertskalen sollten mit einem Rangkorrelationskoeffizient (Spearman, Kendall-Tau) korreliert werden. Wenn es jedoch pro Skala einen Mittelwert gibt, weil eine gewisse Menge an Items zusammen das Konstrukt abbilden, wird dieser Mittelwert häufig als "quasimetrisch" eingeordnet und kann, mit anderen (quasi)metrischen Variablen auch mit Pearson korreliert werden. Wenn man gleichzeitig für den Einfluss der Drittvariable kontrollieren möchte, empfiehlt sich in deinem Fall evtl. eine Partialkorrelation - allerdings gibt es in SPSS nur eine Partialkorrelation auf Basis des Pearson-Korrelationskoeffizienten. Viele Grüße, Björn.
Hi, wenn ich in dem Streudiagramm weder einen linearen, noch einen anderweitigen Zusammenhang erkennen kann, wäre es denn trotzdem legitim eine Pearson-Korrelation zu rechnen, um zu prüfen, ob es nicht doch einen linearen zusammenhang gibt?
Hey Björn, ich würde die Vorgehensweise gerne in meiner Methodik erklären, kann aber keine Quelle finden in der z.B. Die Überprüfung der Ausreißer erwähnt wird. Könntest du mir da ggf. Einen Literaturtipp geben, oder eine Quelle nennen? Grüße, Kim
Hallo, eine gute Quelle wäre: Warner (2013), Applied Statistics, S. 267-270. books.google.de/books?id=b1bXhepuJOEC&newbks=1&newbks_redir=0&lpg=PA1&dq=warner%20applied%20statistics&hl=de&pg=PT301#v=onepage&q&f=false Viele Grüße, Björn.
Danke für deine tollen Videos, die haben mir bei meiner Bachelorarbeit echt weitergeholfen!. Ich hab noch eine frage zur bivariaten Normalverteilung. Wenn das Konfidenzintervall den Wert 0 beinhaltet (es liegt beispielsweise bei -0,053 und 0,589) darf ich dann den Pearson garnicht rechnen und muss den Spearman nehmen ( habe zwei metrisch skalierte merkmale) oder zeigt mir das Intervall, wenn es die 0 beinhaltet, nur das keine signifikante Korrelation vorliegen wird?
Hallo vielen Dank für deine Videos, du rettest quasi meine Bachelorarbeit. Ich habe folgendes Problem. Nach dem zentralen Grenzwertsatz wären meine Variablen normalverteilt, wenn man den Shapiro-Wilk-Test oder das Bootsrapping anwendet hingegen nicht (0 ist im Konfidenzintervall bzw. p ist kleiner 0). Die Linearität kann weder bestätigt noch verworfen werden, da sind halt überall gleichmäßig Punkte. Ich habe zwar Likert-Skalen, da diese aber aus mehreren Items bestehen, zählt das an meiner Uni als metrisch bzw. intervallskaliert. Kann ich daher dennoch die Korrelation nach Pearson rechnen, auch wenn nichts korreliert (außer Moderator mit AV)? Und wenn nein, was ist die Alternative, kann ich noch was retten, auch meine Hypothesen müssen alle verworfen werden? Besten Dank vorab.
Hallo Florian, man berichtet sie kurz, meist in einem Satz, das sie erfüllt sind. Es gibt allerdings auch Institute o.ä., die auch Voraussetzungsprüfungen ausführlicher berichtet haben wollen. Viele Grüße, Björn.
Hi, ich hätte mal eine allgemeine Frage zu deinen Videos, du gehtst gerne auf PowerPoint Präsentationen ein, die du wahrscheinlich selbst erstellt hast, um auf Formeln und ähnliches zu verweisen. Daher die Frage, hast du diese Präsentationen irgendwo veröffentlicht und wenn Sie von dir kommen, hast du dort auch auf die entsprechende Literatur verwiesen. Dabei interessiert mich vor allem die Brechnung in SPSS, da ich gerne nachvollziehen möchte, wie die grundlegende Berechnung im Hintergrund abläuft und in wie weit man die Formelparameter beinflussen kann, kannst du da evt. Literatur zu empfehlen? Danke im voraus und dafür das du dir all die Mühe mit deinem Kanal machst, hat mir echt geholfen ^^
Hallo Konstantin und danke für dein Lob! Die Folien erstelle ich immer nur für das jeweilige Video und gebe sie daher auch nicht raus. Quellen gebe ich entweder direkt mit auf den Folien an oder lasse sie meist weg und gebe nur dann noch mal Literaturhinweise, wenn sie nachgefragt sind. Es geht ja häufiger um das Durchführen und ggf. interpretieren, was meist ohne Literatur klappt. Die grundlegenden Berechnungen, sind für alle Verfahren in Standardwerken zur Statistik erklärt, z.B. bei Andy Field (amzn.to/2WRJQec). Der erlärt das ziemlich gut und ausführlicher als ich das je wollte. Wenn es auf Deutsch sein soll, hat mir Döring, Bortz (amzn.to/2WZH0nq) immer ganz gut gefallen. Viele Grüße, Björn.
Ich habe ein Korrelationsdiagramm erstellt, also sehr viele metrische Werte miteinander auf Korrelationen geprüft. Dieses ist selbstverständlich sehr unübersichtlich. Gibt es eine Möglichkeit, sich die höchsten Korrelationen markieren zu lassen von SPSS? LG!
Hallo Danny, leider nicht automatisch, soweit ich weiß. Nur die Markierung signifikanter Korrelationen ist möglich. Da hilft nur ein manuelles durchgehen und fett unterlegen. Alternativ wäre ein Export in Excel denkbar und eine bedingte Formatierung der Zellwerte. Viele Grüße, Björn.
1000 Dank für deine tollen Videos! Die haben mich schon so manches Mal aus der Verzweiflung wieder rausgeholte. Ich habe allerdings eine Frage. Was mache ich wenn mehrer Ausreißer mit Sternchen markiert sind, die Werte aber trotzdem plausibel erscheinen?
Hallo Kyra und danke für dein Lob! :-) Wenn die Ausreißer plausibel sind, würde ich sie nicht entfernen sondern in der Stichprobe belassen. Es ist meist so, dass die Werte, mit denen du sie korrelierst, auch Ausreißer sind - dann passen die beiden Variablen in der Hinsicht ja zusammen. Das kann man z.B. in einem Streudiagramm grafisch prüfen. Viele Grüße, Björn.
Hallo, dieses Beispiel ist mir absolut klar und auch verständlich.Ich möchte den Zusammenhang zwischen Schulnoten und der Wahrscheinlichkeit der Aufnahme eines Studiums untersuchen. Die Noten sind auf einer Skala von 1 (Sehr gut) und 5 (nicht genügend). Noten sind ja ordinal skaliert. Für die Wahrscheinlichkeit habe ich eine Likert-Skala verwendet, die ja nach meinen Recherchen als metrisch gesehen werden kann, richtig? Die Skala ist ich wie folgt: 100% - 75% - 50% - 25% - 0%. In Excel habe ich dies dann von 5 (100%) bis 1 (0%) codiert. Kann ich hier den Pearson Korrelationskoeffizienten verwenden? Normalverteilung ist gegeben, da meine Stichprobe n=163 ist. Zudem ist mir unklar wie ich hier auch Ausreißer untersuche und den linearen Zusammenhang prüfen kann? Vielen Dank.
Hallo Sandra, da eine deiner neuen Variablen ordinal ist, nimmst du automatisch Spearman. Normalverteilung ist da unerheblich, gerade bei ordinalen Merkmalen ohnehin unwichtig, wenn man nur Spearman zur Korrelation nimmt. Viele Grüße, Björn.
Hallo, super danke für die schnelle Antwort. Hat die Art der Berechnung Auswirkung auf die Formulierung der Hypothesen? Oder kann ich, unabhängig davon die Hypothesen gerichtet (wenn ich eine Vermutung habe) oder ungerichtet formulieren? Vielen Dank.
Hallo , ich Wollre mir gerade ein Streudiagramm ausgeben lassen, aber leider sieht das überhaupt nicht richtig aus. Ich hatte vorher beide Variablen aus Indexen (ungewichteter additiver Index), also aus verschiedenen Variablen zusammengesetzt und will jetzt die Pearson Korrelation berechnen. Dabei ist bei mir ein Streudigaramm entstanden, welches überhaupt keine Punktewolke hat, sondern alle Punkte sind gleichmäßig verteilt. Ich hoffe Sie lesen diesen Kommentar und könnten mir vielleicht helfen. Liebe Grüße
Hallo, super Video, jedoch weiß ich nicht genau, wie ich das an meinem Beispiel deuten muss. Also ich habe zwei Umsätze 2018 und 2019, die ich miteinander korrelieren möchte. Der Unterschied jedoch ist, dass 2019 Werbung geschaltet wurde. Wenn ich den Korrelationskoeffizient nach Person anwende (vorher Einflüsse herausgerechnet), wie kann ich hierdurch sehen, ob der Einsatz der Werbung zur Umsatzsteigerung geführt hat? Muss da ein hoher signifikanter Zusammenhang zwischen 2018 und 2019 bestehen? Oder eher nicht?
Hallo Jana, normalerweise würde man eine Partialkorrelation (ua-cam.com/video/WJfWXDQpL0U/v-deo.html) rechnen und damit für den Einfluss der Werbung kontrollieren - sie sollte allerdings im selben Skalenniveau, also metrisch, vorliegen. Viele Grüße, Björn.
Hallo! Eine Korrelation nach Pearson kann man auch berechnen, wenn eine Variable dichotom (Ausprägungen: 0 und 1) ist oder? Ich habe das unter dem Stichwort "punktbiseriale Korrelation gefunden". Stimmt das?
Hallo Andrea, ja, das ist korrekt. SPSS berechnet die punktbiseriale Korrelation automatisch in solch einem Fall, wenn der Haken bei Pearson gesetzt ist. Viele Grüße, Björn.
Hallo, erstmal, tolles Video. Kannst du nochmal erklären wann eine Pearson Korrelation signifikant ist oder nicht? Weil eigentlich sagt -/+ 0,1 schwacher Zusammenhang, -/+ 0,3 mittelstarker Zusammenhang und -/+ 0,5 starker Zusammenhang. Aber irgendwie ist es in meinen Tabellen oft anders. Da steht dann z.B. für Pearson ,262** und für sig 2-tailed ,000. habe ich einen Denkfehler? Mit freundlichen Grüßen
Hallo Marina, du verwechselst scheinbar Signifikanz und Stärke des Zusammenhanges. Signifikanz sagt dir etwas über die Sicherheit aus, mit der du testest. Je kleiner deine Signifikanz, desto sicherer kannst du, vereinfacht gesprochen, sein, dass die Korrelation auch tatsächlich existiert. Die Höhe der Korrelation an sich kann dann mit den Klassen 0,1; 0,3 und 0,5 eingeordnet werden - vorausgesetzt sie ist signifikant. Viele Grüße, Björn.
@@carlamorgenroth3397 Hallo Carla, zwicshen der unteren und der oberen Intervallgrenze keine 0 liegen. Zwischen -0,1 und 0,1 liegt die 0. Zwischen 0,1 und 0,2 liegt keine 0. Letzteres wäre wünschenswert bzgl. einer Signifikanz. Die Signifikanz zeigt dir nur die Zufallswahrscheinlichkeit einer Korrelation an. Mit Normalverteilung hat alles bisher geschriebene nichts zu tun. Viele Grüße, Björn.
Moin Björn! Vielen lieben Dank für das Video. Ich hab ein Problem, bei dem Du mir vielleicht helfen kannst. In meiner Bachelorarbeit will ich 7 Variablen miteinander in einem 3x4 Design miteinander korrelieren (also 12 Korrelationswerte). Nun streube ich mich ein bisschen zur Prüfung der Linearität der Beziehung zwischen den einzelnen Variablen 12 Streudiagramme zu erstellen. Gibt es vielleicht eine analytische Alternative? MfG, Luis
Hallo Luis, gerne. Streng genommen zeigt dir die Korrelation ja, ob es einen linearen Zusammenhang gibt. Ist dieser nicht vorhanden, ist die Korrelation klein und/oder nicht signifikant. Also keine Scheu. ;-) Viele Grüße, Björn.
Hallo Johann, der Kolmogorov-Smirnov-Test ist generell nicht mehr empfehlenswert. Bei kleinen Stichproben fehlt die Teststärke, bei großen ist er zu sensitiv. Zudem, kann man auch damit keine bivariate Normalverteilung prüfen. Lieber univariat mittels Histogramm prüfen, ob die Variablen in etwa normalverteilt sind. Eine "echte" bivariate Normalverteilungsprüfung kann man z.B. in R durchführen. Viele Grüße, Björn.
Hallo, Vielen Dank für das tolle Video. Könntest du vielleicht erklären wie man vorgeht wenn sowohl kein linearer Zusammenhang vorhanden ist als auch keine bivariate Normalverteilung? Lässt sich dann die Spearman-Korrelationsanalyse berechnen?
Hallo Karolin, danke für dein Lob! Ja, im Zweifel kann man in solch einem Fall auf Spearman als nicht-parametrische Alternative zurückfallen. Viele Grüße, Björn.
Hallo, erstmal vielen Dank für deine super hilfreichen Videos! Ich habe im Datensatz meiner Bachelorarbeit einige Ausreißerwerte, es sind aber keine extremen Ausreißer. Trotzdem wird die Korrelation nur dann signifikant, wenn ich diese ausschließe oder auf Kendalls tau ausweiche. Schließt man Ausreißer grundsätzlich nur dann aus, wenn sie unplausibel erscheinen oder auch dann, wenn sie scheinbar die Korrelation sehr verändern? Ich konnte da bis jetzt irgendwie keine konkrete Anweisung zu finden, vielleicht kannst du mir ja weiterhelfen. Danke!
Hallo Merle und danke für dein Lob! Da gibt es ein paar unterschiedliche Philosophien zu. Ich halte es so, dass ich Ausreißer nur ausschließe, wenn es unplausible Werte sind. Eventuell läst sich deine Signifikanz ja noch retten, wenn du einseitig testest? ua-cam.com/video/z5L4refldMo/v-deo.html Sind die Voraussetzungen für Pearson denn erfüllt? Also grundlegend metrisch skalierte Variablen? Viele Grüße, Björn.
Hey Björn, vielen Dank für die Antwort, dann werde ich die Ausreißer auch drin lassen und nochmal schauen, was bei einer einseitigen Testung rauskommt :) Was die Voraussetzungen angeht ist die metrische Skalierung auf jeden Fall erfüllt. Nur Normalverteilung ist teilweise nicht gegeben, aber da meine Stichprobe größer als 30 ist, sollte das ja kein Problem sein. Liebe Grüße!
1. DANKE! Du rettest mir Tag für den Tag meine Bachelorarbeit!! 2. Eine Frage von einer leicht verzweifelten Studentin! Ich habe zwei Variablen, eine ist ein Durchschnittswert von 3 Statements (d.h. 3,25 etc, wurde mit Likert Skala 1-5 gemessen, also metrisch skaliert) und die zweite Variable liegt zwischen den Werten 1-5 (auch eine Likert Skala aber nur ein Statement, hier bin ich mir eben nicht sicher, ordinal skaliert?), wäre dies dann Pearson oder nicht? Rang gibt es auch keine deswegen bin ich mehr sehr unsicher bei der Verwendung von Spearman! Beide sind normalverteilt!
Hallo Ellieyo, 1. Sehr gerne. Freut mich, wenn dir die Videos helfen! 2. Wenn die zweite Variable Likert-skaliert ist, sollte man sie als ordinal einordnen und somit Spearman rechnen. Das die erste Variable dank der Mittelwertbildung quasi-metrisch ist, hilft dir dann leider auch nicht mehr, doch noch Pearson zu nehmen. Also lieber zu Spearman greifen, der ist keinesfalls "schlechter" als Pearson, auch wenn sich dieses Gerücht (unter Studenten) bisher immer gut gehalten hat. ;-) Viele Grüße, Björn.
Kannst du vielleicht deine quellen immer mit angeben, also bezüglich der Voraussetzungen im meinem Statistik Buch "Eid" steht das nicht so schön aufgelistet
@@StatistikamPC_BjoernWalther bsp. Statistikguru gibt bei den Voraussetzungen für die Pearson Korrelation eine (univariate) Normalverteilung an. So habe ich es z.b. auch von meinen Dozenten gelernt. Jetzt stell ich mir die Frage was nun richtig ist. Die normalen normalverteilung kann man ja einfach rechnen und angeben. Das Buch ist mir gerade zu teuer, sonst würde ich blind die bivariate normalverteilung zitieren und verlasse mich auf dieses Video 😄 . Was denkst du? Danke für deine Zeit, ich schätze das sehr 😊
Hallo, bei den Ausreißern hast du jetzt einfach geguckt welche Werte einer Variable sehr weit vom Median entfernt sind. Das ist doch aber irrelevant bei einer Korrelation, so lange sehr hohe Werte auf einer Variablen mit sehr hohen Werten auf der anderen Variablen einhergehen. Ausreißer in der Korrelation sind doch vielmehr Datenpunkte, die sehr weit vom Trend entfernt sind. Die kann man so aber ja nicht identifizieren. Was wäre dann dafür eine Möglichkeit? Ergänzung: habe mich weitergehend informiert und bin auf Erklärungen zu multivariaten Ausreißern gestoßen. Diese Art von Ausreißern ist im Rahmen der Korrelation relevant. Ich denke, du hast hier in dem Video nur Univariate Ausreißer aufgegriffen.
Hallo Jonathan, ich kümmere mich nie wirklich um Ausreißer, weil es meist einen guten Grund gibt, das sie existieren und häufig, wie auch im Beispiel einen ähnlich Wert in der mit ihr zu korrelierenden Variable aufweisen. Unplausible Werte sind da wieder was anderes. Multivariate Ausreißer kann man noch mit einer Cluster-Analyse prüfen, das hätte aber den Rahmen des Videos gesprengt. Alternativ und ganz pragmatisch wäre ein Streudiagramm noch hilfreich. Der hier gezeigte univariate Weg kann letztlich lediglich ein Anhaltspunkt sein, wenn ein Fall in der einen Variable einen Ausreißer hat und in der anderen nicht. Viele Grüße, Björn.
Hallo Eva, danke für dein Feedback! Das Tempo ist immer ein schmaler Grat. Im Zweifel kann man die Wiedergabegeschwindigkeit reduzieren/erhöhen. Viele Grüße, Björn.
Hinweis: In einer früheren Version des Videos wurde der zentrale Grenzwertsatz (ZGW) nicht präzise genug erläutert. Bei steigender Stichprobengröße nähert sich die Verteilung der Stichprobenparameter, z.B. Mittelwerte zunehmend einer Normalverteilung an - unabhängig der Form der Grundgesamtheitsverteilung.
Hier ein Ausschnitt aus Field, A. (2018) Discovering Statistics Using SPSS, S. 235 f.:
„1. For confidence intervals around a parameter estimate (e.g., the mean, or a b in equation (2.4)) to be accurate, that estimate must come from a normal sampling
distribution. The central limit theorem tells us that in large samples, the estimate will have come from a normal distribution regardless of what the sample or population data look like. Therefore, if we are interested in computing confidence intervals then we don’t need to worry about the assumption of normality if our sample is large enough.
2. For significance tests of models to be accurate the sampling distribution of what’s being tested must be normal. Again, the central limit theorem tells us that in large samples this will be true no matter what the shape of the population. Therefore, the shape of our data shouldn’t affect significance tests provided our sample is large enough. However, the extent to which test statistics perform as they should do in large samples varies across different test statistics, and we will deal with these idiosyncratic issues in the appropriate chapter.
3. For the estimates of model parameters (the b‘s in equation (2.4)) to be optimal (using the method of least squares) the residuals in the population must be normally distributed. The method of least squares will always give you an estimate of the model parameters that minimizes error, so in that sense you don’t need to assume normality of anything to fit a linear model and estimate the parameters that define it (Gelman & Hill, 2007). However, there are other methods for estimating model parameters, and if you happen to have normally distributed errors then the estimates that you obtained using the method of least squares will have less error than the estimates you would have got using any of these other methods.“
Zusätzlich empfehloe ich zu diesem Thema wärmstens den Artikel: Lumley, T., Diehr, P., Emerson, S., & Chen, L. (2002). The importance of the normality assumption in large public health data sets. Annual review of public health, 23(1), 151-169.
Bei Fragen und Anregungen zu den Voraussetzungen des Korrelationskoeffizienten nach Pearson, nutzt bitte die Kommentarfunktion.
Ciao Björn, ich habe eine Frage: Beobachtung hat eine Population von 9 Menschen (5 Männer und 4 Frauen) und die Information wie sie bestimmte Abos nutzen. Die Möglichkeit sind bezahltes, freies und kein Abo. Meine Frage, Könnten wir auf der Grundlage dieser Daten einen Korrelationskoeffizienten berechnen? Warum ? Warum nicht? Vielen Dank für deine Hilfe. Gruss Drogba
Bei ca. 5:55 sagst du, Wenn ihr wisst das ihr keine bivartiate Normalverteilung habt, dann muss man das BCa-Intervall anschauen. Und wenn ich keine Ahnung habe ob sie bivariat NV sind? Ich habe Ergebnisse, bei denen die Siginifkanz nach Pearson da ist (r ist auch Groß). Muss ich die Korrelation immer als nicht signifikant ansehen wenn die Null im BCa-Interval liegt, oder nur wenn ich, woher auch immer, weiß das die Werte nicht bivariat Normalverteilt sind?
Hallo, bivariat normalverteilt ist eine Voraussetzung die wie gesagt kaum geprüft wird. Univariat für die zu korrelierenden Variablen reicht idR völlig aus. Alternativ kann man auf Nummer sicher gehen und das Bca anschauen. Da sollte eigentlich bei hinreichend großem r das Intervall die 0 nicht umschließen. Wie groß ist die Stichprobe? Bca sollte 50 die untere Schwelle sein.
Viele Grüße, Björn.
super Video! Was mich aber mal sehr interessieren würde ist, was eigentlich zu tun ist, wenn man einfach nur die Korrelation einer Grundgesamtheit testen möchte. Wenn also gar keine Stichprobe gezogen wurde. Anscheinend ist das so selbsterklärend oder in der Praxis nicht relevant, dass ich dazu einfach keine Richtlinien finde.
Eine Signifikanzprüfung sollte ja schonmal unnötig sein, da wir keine Rückschlüsse von einer Stichprobe auf die Grundgesamtheit ziehen wollen (Wir betrachten ja schon die Grundgesamtheit).
Was ist mit den Voraussetzungen die du hier prüfst? Sind die bei einer Grundgesamtheit genauso zu prüfen? Beim zentralen Grenzwertsatz werden wieder lediglich Stichproben thematisiert :D
Über eine Antwort würde ich mich freuen! Viele Grüße
Super Video! Danke.
Meine Frage: Mein Streudiagramm zeigt an fast jeder Stelle des Diagramms Messwerte (N=1616). Es ist kaum ein Muster erkennbar, oben links und unten recht sind etwas weniger Werte. Wie erkenne ich dort, ob es einen linearen Zusammenhang (Voraussetzung Pearson-Korrelation) gibt?
Das würde mich auch interessieren. Ich hab eine ziemlich unförmige Punktewolke (alle anderen Voraussetzungen sind erfüllt), kann ich dann trotzdem eine Pearson-Korrelation rechnen oder sollte ich besser Spearman nehmen?
Kannst du das mit der Linearitätsvoraussetzung noch einmal erläutern? Ich habe eine sehr kleine Stichprobe und kann an den Streudiagrammen kaum erkennen, ob Linearität gegeben ist. Ist es dann legitim, die Pearson-Korrelation durchzuführen und die Linearität später infrage zu stellen oder sollte man immer auf nicht parametrische Verfahren wie Spearman zurückgreifen?
Hallo Laura, die Linearitätsvoraussetzung ist öfter Gegenstand von Diskussionen. Gerade bei Korrelation und Regression heißt es immer, es sei eine Voraussetzung. Soweit auch richtig. Irgendwie wird es auch zur selbsterfüllenden Prophezeiung. Ich setze es voraus, untersuche ja aber genau das mit der Korrelation. R zeigt mir ja einfach gesprochen an, wie stark ich eine Variable durch die andere _linear_ "erklären" kann (Achtung: bei Korrelation ist es ein ungerichteter Zusammenhang). Demzufolge prüfe ich ja mit der Korrelation auf einen linearen Zusammenhang - je größer R, desto linearer. Bei 1 hätte man eine Punktewolke, wo alle Punkte auf einer Gerade liegen - eher unrealistisch. Was bedeutet das nun für dich? Wenn du eine Korrelation zwischen zwei Variablen rechnen möchtest, kannst du streng genommen auf die Linearitätsprüfung verzichten - Pearson's R zeigt dir ja letztendlich an, "wie linear" der Zusammenhang ist. Also nach Pearson rechnen und dann relativieren erscheint mir gangbar, v.a. vor dem Hintergrund, dass Spearman eben mit Problemen behaftet ist, die sich aus der Rangbildung ergeben. Dazu hier auch ein Papier, wo man sehr schön sehen kann, das sich je nach Datenlage (es sind eher ungewöhnlichere aber nicht unrealisitische Fälle) die Richtung und/oder Signifikanz des Zusammenhanges deutlich ändern können: geoinfo.amu.edu.pl/qg/archives/2011/QG302_087-093.pdf
Mit diesem Wissen würde ich daher persönlich Pearson bevorzugen, sofern v.a. die Normalverteilung halbwegs erfüllt ist.
Hilft dir das weiter?
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther danke für die ausführliche Antwort, das ist mir eine große Hilfe! Ich würde also eine Pearson-Korrelation berechnen, beschreiben, dass sich anhand des Streudiagramms nicht eindeutig ein nicht-linearer Zusammenhang feststellen lässt und ich daher zunächst von Linearität ausgehe? Und das würde ich in der Diskussion relativieren. Gilt das auch unter der Voraussetzung, dass ich in der Hypothese (x hängt positiv mit y zusammen) einen Zusammenhang annehme, aber nicht explizit einen linearen? Oder wäre die Hypothese damit nicht hinreichend beantwortet?
Hey, vielen Dank für das Video. Ich habe eine kleine Frage zu den Voraussetzungen und Skalenniveaus. Ich möchte untersuchen, ob 3 Variablen miteinander zusammenhängen (UV1 und AV, UV2 und AV, UV1 und UV2). Allerdings habe ich diese auf verschiedenen Likert Skalen gemessen, weswegen sie ja eigentlich ordinalskaliert sind (UV1 = fünfstufig, UV2= sechsstufig, AV= vierstufig). Müsste ich hierfür Skalenscores bilden, damit ich ein metrisches Skalenniveau habe? Und stellt es ein Problem dar, dass diese Skalen auf verschiedenen Skalenstufen gemessen worden sind?
Hallo, zunächst ist die Anzahl der Skalenstufen bei der Korrelation egal. Die gibt den standardisierten Zusammenhang zurück. Die Kovarianz wäre hingegen davon beeinflusst und wird aher auch meist recht selten überhaupt angegeben.
Likertskalen sollten mit einem Rangkorrelationskoeffizient (Spearman, Kendall-Tau) korreliert werden. Wenn es jedoch pro Skala einen Mittelwert gibt, weil eine gewisse Menge an Items zusammen das Konstrukt abbilden, wird dieser Mittelwert häufig als "quasimetrisch" eingeordnet und kann, mit anderen (quasi)metrischen Variablen auch mit Pearson korreliert werden. Wenn man gleichzeitig für den Einfluss der Drittvariable kontrollieren möchte, empfiehlt sich in deinem Fall evtl. eine Partialkorrelation - allerdings gibt es in SPSS nur eine Partialkorrelation auf Basis des Pearson-Korrelationskoeffizienten.
Viele Grüße, Björn.
Hi, wenn ich in dem Streudiagramm weder einen linearen, noch einen anderweitigen Zusammenhang erkennen kann, wäre es denn trotzdem legitim eine Pearson-Korrelation zu rechnen, um zu prüfen, ob es nicht doch einen linearen zusammenhang gibt?
Hey Björn, ich würde die Vorgehensweise gerne in meiner Methodik erklären, kann aber keine Quelle finden in der z.B. Die Überprüfung der Ausreißer erwähnt wird. Könntest du mir da ggf. Einen Literaturtipp geben, oder eine Quelle nennen? Grüße, Kim
Hallo, eine gute Quelle wäre: Warner (2013), Applied Statistics, S. 267-270.
books.google.de/books?id=b1bXhepuJOEC&newbks=1&newbks_redir=0&lpg=PA1&dq=warner%20applied%20statistics&hl=de&pg=PT301#v=onepage&q&f=false
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Tausend Dank für deine Antwort. Und für alle deine Videos, ich hab viel von dir lernen können!
Danke für deine tollen Videos, die haben mir bei meiner Bachelorarbeit echt weitergeholfen!.
Ich hab noch eine frage zur bivariaten Normalverteilung. Wenn das Konfidenzintervall den Wert 0 beinhaltet (es liegt beispielsweise bei -0,053 und 0,589) darf ich dann den Pearson garnicht rechnen und muss den Spearman nehmen ( habe zwei metrisch skalierte merkmale) oder zeigt mir das Intervall, wenn es die 0 beinhaltet, nur das keine signifikante Korrelation vorliegen wird?
Hallo vielen Dank für deine Videos, du rettest quasi meine Bachelorarbeit. Ich habe folgendes Problem. Nach dem zentralen Grenzwertsatz wären meine Variablen normalverteilt, wenn man den Shapiro-Wilk-Test oder das Bootsrapping anwendet hingegen nicht (0 ist im Konfidenzintervall bzw. p ist kleiner 0). Die Linearität kann weder bestätigt noch verworfen werden, da sind halt überall gleichmäßig Punkte. Ich habe zwar Likert-Skalen, da diese aber aus mehreren Items bestehen, zählt das an meiner Uni als metrisch bzw. intervallskaliert. Kann ich daher dennoch die Korrelation nach Pearson rechnen, auch wenn nichts korreliert (außer Moderator mit AV)? Und wenn nein, was ist die Alternative, kann ich noch was retten, auch meine Hypothesen müssen alle verworfen werden? Besten Dank vorab.
Kann man dehn Pearson korrelation benutzen mit autokorrelierte Zeitreihen?
Schreibt man die Prüfung dieser Voraussetzungen in den Forschungsbericht oder prüft man diese einfach nur ?
Hallo Florian, man berichtet sie kurz, meist in einem Satz, das sie erfüllt sind. Es gibt allerdings auch Institute o.ä., die auch Voraussetzungsprüfungen ausführlicher berichtet haben wollen.
Viele Grüße, Björn.
Hi, ich hätte mal eine allgemeine Frage zu deinen Videos, du gehtst gerne auf PowerPoint Präsentationen ein, die du wahrscheinlich selbst erstellt hast, um auf Formeln und ähnliches zu verweisen. Daher die Frage, hast du diese Präsentationen irgendwo veröffentlicht und wenn Sie von dir kommen, hast du dort auch auf die entsprechende Literatur verwiesen. Dabei interessiert mich vor allem die Brechnung in SPSS, da ich gerne nachvollziehen möchte, wie die grundlegende Berechnung im Hintergrund abläuft und in wie weit man die Formelparameter beinflussen kann, kannst du da evt. Literatur zu empfehlen? Danke im voraus und dafür das du dir all die Mühe mit deinem Kanal machst, hat mir echt geholfen ^^
Hallo Konstantin und danke für dein Lob!
Die Folien erstelle ich immer nur für das jeweilige Video und gebe sie daher auch nicht raus. Quellen gebe ich entweder direkt mit auf den Folien an oder lasse sie meist weg und gebe nur dann noch mal Literaturhinweise, wenn sie nachgefragt sind. Es geht ja häufiger um das Durchführen und ggf. interpretieren, was meist ohne Literatur klappt. Die grundlegenden Berechnungen, sind für alle Verfahren in Standardwerken zur Statistik erklärt, z.B. bei Andy Field (amzn.to/2WRJQec). Der erlärt das ziemlich gut und ausführlicher als ich das je wollte. Wenn es auf Deutsch sein soll, hat mir Döring, Bortz (amzn.to/2WZH0nq) immer ganz gut gefallen.
Viele Grüße, Björn.
Ich habe ein Korrelationsdiagramm erstellt, also sehr viele metrische Werte miteinander auf Korrelationen geprüft. Dieses ist selbstverständlich sehr unübersichtlich. Gibt es eine Möglichkeit, sich die höchsten Korrelationen markieren zu lassen von SPSS? LG!
Hallo Danny, leider nicht automatisch, soweit ich weiß. Nur die Markierung signifikanter Korrelationen ist möglich. Da hilft nur ein manuelles durchgehen und fett unterlegen. Alternativ wäre ein Export in Excel denkbar und eine bedingte Formatierung der Zellwerte.
Viele Grüße, Björn.
1000 Dank für deine tollen Videos! Die haben mich schon so manches Mal aus der Verzweiflung wieder rausgeholte. Ich habe allerdings eine Frage. Was mache ich wenn mehrer Ausreißer mit Sternchen markiert sind, die Werte aber trotzdem plausibel erscheinen?
Hallo Kyra und danke für dein Lob! :-)
Wenn die Ausreißer plausibel sind, würde ich sie nicht entfernen sondern in der Stichprobe belassen. Es ist meist so, dass die Werte, mit denen du sie korrelierst, auch Ausreißer sind - dann passen die beiden Variablen in der Hinsicht ja zusammen. Das kann man z.B. in einem Streudiagramm grafisch prüfen.
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther vielen Dank für die schnelle Antwort :)
Hallo, dieses Beispiel ist mir absolut klar und auch verständlich.Ich möchte den Zusammenhang zwischen Schulnoten und der Wahrscheinlichkeit der Aufnahme eines Studiums untersuchen.
Die Noten sind auf einer Skala von 1 (Sehr gut) und 5 (nicht genügend). Noten sind ja ordinal skaliert. Für die Wahrscheinlichkeit habe ich eine Likert-Skala verwendet, die ja nach meinen Recherchen als metrisch gesehen werden kann, richtig? Die Skala ist ich wie folgt: 100% - 75% - 50% - 25% - 0%. In Excel habe ich dies dann von 5 (100%) bis 1 (0%) codiert. Kann ich hier den Pearson Korrelationskoeffizienten verwenden? Normalverteilung ist gegeben, da meine Stichprobe n=163 ist.
Zudem ist mir unklar wie ich hier auch Ausreißer untersuche und den linearen Zusammenhang prüfen kann? Vielen Dank.
Hallo Sandra, da eine deiner neuen Variablen ordinal ist, nimmst du automatisch Spearman. Normalverteilung ist da unerheblich, gerade bei ordinalen Merkmalen ohnehin unwichtig, wenn man nur Spearman zur Korrelation nimmt.
Viele Grüße, Björn.
Hallo, super danke für die schnelle Antwort.
Hat die Art der Berechnung Auswirkung auf die Formulierung der Hypothesen? Oder kann ich, unabhängig davon die Hypothesen gerichtet (wenn ich eine Vermutung habe) oder ungerichtet formulieren?
Vielen Dank.
Hallo , ich Wollre mir gerade ein Streudiagramm ausgeben lassen, aber leider sieht das überhaupt nicht richtig aus. Ich hatte vorher beide Variablen aus Indexen (ungewichteter additiver Index), also aus verschiedenen Variablen zusammengesetzt und will jetzt die Pearson Korrelation berechnen. Dabei ist bei mir ein Streudigaramm entstanden, welches überhaupt keine Punktewolke hat, sondern alle Punkte sind gleichmäßig verteilt. Ich hoffe Sie lesen diesen Kommentar und könnten mir vielleicht helfen. Liebe Grüße
Hallo, super Video, jedoch weiß ich nicht genau, wie ich das an meinem Beispiel deuten muss. Also ich habe zwei Umsätze 2018 und 2019, die ich miteinander korrelieren möchte. Der Unterschied jedoch ist, dass 2019 Werbung geschaltet wurde. Wenn ich den Korrelationskoeffizient nach Person anwende (vorher Einflüsse herausgerechnet), wie kann ich hierdurch sehen, ob der Einsatz der Werbung zur Umsatzsteigerung geführt hat? Muss da ein hoher signifikanter Zusammenhang zwischen 2018 und 2019 bestehen? Oder eher nicht?
Hallo Jana, normalerweise würde man eine Partialkorrelation (ua-cam.com/video/WJfWXDQpL0U/v-deo.html) rechnen und damit für den Einfluss der Werbung kontrollieren - sie sollte allerdings im selben Skalenniveau, also metrisch, vorliegen.
Viele Grüße, Björn.
Hallo! Eine Korrelation nach Pearson kann man auch berechnen, wenn eine Variable dichotom (Ausprägungen: 0 und 1) ist oder? Ich habe das unter dem Stichwort "punktbiseriale Korrelation gefunden". Stimmt das?
Hallo Andrea, ja, das ist korrekt. SPSS berechnet die punktbiseriale Korrelation automatisch in solch einem Fall, wenn der Haken bei Pearson gesetzt ist.
Viele Grüße, Björn.
Hallo,
erstmal, tolles Video. Kannst du nochmal erklären wann eine Pearson Korrelation signifikant ist oder nicht? Weil eigentlich sagt -/+ 0,1 schwacher Zusammenhang, -/+ 0,3 mittelstarker Zusammenhang und -/+ 0,5 starker Zusammenhang. Aber irgendwie ist es in meinen Tabellen oft anders. Da steht dann z.B. für Pearson ,262** und für sig 2-tailed ,000. habe ich einen Denkfehler?
Mit freundlichen Grüßen
Hallo Marina, du verwechselst scheinbar Signifikanz und Stärke des Zusammenhanges. Signifikanz sagt dir etwas über die Sicherheit aus, mit der du testest. Je kleiner deine Signifikanz, desto sicherer kannst du, vereinfacht gesprochen, sein, dass die Korrelation auch tatsächlich existiert. Die Höhe der Korrelation an sich kann dann mit den Klassen 0,1; 0,3 und 0,5 eingeordnet werden - vorausgesetzt sie ist signifikant.
Viele Grüße, Björn.
Wie kann ich die Bootstrapping Ergebnisse interpretieren? Was bedeutet "das Intervall sollte die null nicht beinhalten" Lieben Dank
mein unterer wert beträgt 0,010. Heißt das meine Daten sind nicht bivariat normal verteilt?
@@carlamorgenroth3397 Hallo Carla, zwicshen der unteren und der oberen Intervallgrenze keine 0 liegen. Zwischen -0,1 und 0,1 liegt die 0. Zwischen 0,1 und 0,2 liegt keine 0. Letzteres wäre wünschenswert bzgl. einer Signifikanz. Die Signifikanz zeigt dir nur die Zufallswahrscheinlichkeit einer Korrelation an. Mit Normalverteilung hat alles bisher geschriebene nichts zu tun.
Viele Grüße, Björn.
Moin Björn!
Vielen lieben Dank für das Video. Ich hab ein Problem, bei dem Du mir vielleicht helfen kannst.
In meiner Bachelorarbeit will ich 7 Variablen miteinander in einem 3x4 Design miteinander korrelieren (also 12 Korrelationswerte). Nun streube ich mich ein bisschen zur Prüfung der Linearität der Beziehung zwischen den einzelnen Variablen 12 Streudiagramme zu erstellen. Gibt es vielleicht eine analytische Alternative?
MfG,
Luis
Hallo Luis, gerne.
Streng genommen zeigt dir die Korrelation ja, ob es einen linearen Zusammenhang gibt. Ist dieser nicht vorhanden, ist die Korrelation klein und/oder nicht signifikant. Also keine Scheu. ;-)
Viele Grüße, Björn.
Sind die workarounds zum Beispiel der Kolmogorov- Smirnov test??
Hallo Johann, der Kolmogorov-Smirnov-Test ist generell nicht mehr empfehlenswert. Bei kleinen Stichproben fehlt die Teststärke, bei großen ist er zu sensitiv. Zudem, kann man auch damit keine bivariate Normalverteilung prüfen. Lieber univariat mittels Histogramm prüfen, ob die Variablen in etwa normalverteilt sind. Eine "echte" bivariate Normalverteilungsprüfung kann man z.B. in R durchführen.
Viele Grüße, Björn.
Hallo,
Vielen Dank für das tolle Video. Könntest du vielleicht erklären wie man vorgeht wenn sowohl kein linearer Zusammenhang vorhanden ist als auch keine bivariate Normalverteilung? Lässt sich dann die Spearman-Korrelationsanalyse berechnen?
Hallo Karolin, danke für dein Lob!
Ja, im Zweifel kann man in solch einem Fall auf Spearman als nicht-parametrische Alternative zurückfallen.
Viele Grüße, Björn.
Hallo, erstmal vielen Dank für deine super hilfreichen Videos!
Ich habe im Datensatz meiner Bachelorarbeit einige Ausreißerwerte, es sind aber keine extremen Ausreißer. Trotzdem wird die Korrelation nur dann signifikant, wenn ich diese ausschließe oder auf Kendalls tau ausweiche. Schließt man Ausreißer grundsätzlich nur dann aus, wenn sie unplausibel erscheinen oder auch dann, wenn sie scheinbar die Korrelation sehr verändern?
Ich konnte da bis jetzt irgendwie keine konkrete Anweisung zu finden, vielleicht kannst du mir ja weiterhelfen. Danke!
Hallo Merle und danke für dein Lob!
Da gibt es ein paar unterschiedliche Philosophien zu. Ich halte es so, dass ich Ausreißer nur ausschließe, wenn es unplausible Werte sind. Eventuell läst sich deine Signifikanz ja noch retten, wenn du einseitig testest? ua-cam.com/video/z5L4refldMo/v-deo.html
Sind die Voraussetzungen für Pearson denn erfüllt? Also grundlegend metrisch skalierte Variablen?
Viele Grüße, Björn.
Hey Björn,
vielen Dank für die Antwort, dann werde ich die Ausreißer auch drin lassen und nochmal schauen, was bei einer einseitigen Testung rauskommt :) Was die Voraussetzungen angeht ist die metrische Skalierung auf jeden Fall erfüllt. Nur Normalverteilung ist teilweise nicht gegeben, aber da meine Stichprobe größer als 30 ist, sollte das ja kein Problem sein.
Liebe Grüße!
1. DANKE! Du rettest mir Tag für den Tag meine Bachelorarbeit!!
2. Eine Frage von einer leicht verzweifelten Studentin! Ich habe zwei Variablen, eine ist ein Durchschnittswert von 3 Statements (d.h. 3,25 etc, wurde mit Likert Skala 1-5 gemessen, also metrisch skaliert) und die zweite Variable liegt zwischen den Werten 1-5 (auch eine Likert Skala aber nur ein Statement, hier bin ich mir eben nicht sicher, ordinal skaliert?), wäre dies dann Pearson oder nicht? Rang gibt es auch keine deswegen bin ich mehr sehr unsicher bei der Verwendung von Spearman! Beide sind normalverteilt!
Hallo Ellieyo,
1. Sehr gerne. Freut mich, wenn dir die Videos helfen!
2. Wenn die zweite Variable Likert-skaliert ist, sollte man sie als ordinal einordnen und somit Spearman rechnen. Das die erste Variable dank der Mittelwertbildung quasi-metrisch ist, hilft dir dann leider auch nicht mehr, doch noch Pearson zu nehmen. Also lieber zu Spearman greifen, der ist keinesfalls "schlechter" als Pearson, auch wenn sich dieses Gerücht (unter Studenten) bisher immer gut gehalten hat. ;-)
Viele Grüße, Björn.
Kannst du vielleicht deine quellen immer mit angeben, also bezüglich der Voraussetzungen im meinem Statistik Buch "Eid" steht das nicht so schön aufgelistet
Hallo, eine mägliche Quelle ist Field, Andy (2018), Discovering Statistics amzn.to/2sJGq3c, S. 344
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther vielen vielen dank :))
@@StatistikamPC_BjoernWalther bsp. Statistikguru gibt bei den Voraussetzungen für die Pearson Korrelation eine (univariate) Normalverteilung an. So habe ich es z.b. auch von meinen Dozenten gelernt. Jetzt stell ich mir die Frage was nun richtig ist. Die normalen normalverteilung kann man ja einfach rechnen und angeben. Das Buch ist mir gerade zu teuer, sonst würde ich blind die bivariate normalverteilung zitieren und verlasse mich auf dieses Video 😄 . Was denkst du? Danke für deine Zeit, ich schätze das sehr 😊
Hallo, bei den Ausreißern hast du jetzt einfach geguckt welche Werte einer Variable sehr weit vom Median entfernt sind. Das ist doch aber irrelevant bei einer Korrelation, so lange sehr hohe Werte auf einer Variablen mit sehr hohen Werten auf der anderen Variablen einhergehen. Ausreißer in der Korrelation sind doch vielmehr Datenpunkte, die sehr weit vom Trend entfernt sind. Die kann man so aber ja nicht identifizieren. Was wäre dann dafür eine Möglichkeit?
Ergänzung: habe mich weitergehend informiert und bin auf Erklärungen zu multivariaten Ausreißern gestoßen. Diese Art von Ausreißern ist im Rahmen der Korrelation relevant. Ich denke, du hast hier in dem Video nur Univariate Ausreißer aufgegriffen.
Hallo Jonathan, ich kümmere mich nie wirklich um Ausreißer, weil es meist einen guten Grund gibt, das sie existieren und häufig, wie auch im Beispiel einen ähnlich Wert in der mit ihr zu korrelierenden Variable aufweisen. Unplausible Werte sind da wieder was anderes. Multivariate Ausreißer kann man noch mit einer Cluster-Analyse prüfen, das hätte aber den Rahmen des Videos gesprengt. Alternativ und ganz pragmatisch wäre ein Streudiagramm noch hilfreich. Der hier gezeigte univariate Weg kann letztlich lediglich ein Anhaltspunkt sein, wenn ein Fall in der einen Variable einen Ausreißer hat und in der anderen nicht.
Viele Grüße, Björn.
Auf jeden Fall hilfreich. Allerdings oft zu schnell, auch bei mehrmaligem Anschauen ist er schon 3 Klicks weiter wie ich.... 😶🌫
Hallo Eva, danke für dein Feedback! Das Tempo ist immer ein schmaler Grat. Im Zweifel kann man die Wiedergabegeschwindigkeit reduzieren/erhöhen.
Viele Grüße, Björn.