Om två variabler har 0-korrelation, varför är de inte nödvändigtvis oberoende? Är nollkorrelerade variabler oberoende under speciella omständigheter? Om det är möjligt letar jag efter en intuitiv förklaring, inte en mycket teknisk.
Om två variabler har 0-korrelation, varför är de inte nödvändigtvis oberoende? Är nollkorrelerade variabler oberoende under speciella omständigheter? Om det är möjligt letar jag efter en intuitiv förklaring, inte en mycket teknisk.
Korrelation mäter linjär koppling mellan två givna variabler och den har ingen skyldighet att upptäcka någon annan form av association.
Så dessa två variabler kan associeras på flera andra icke-linjära sätt och korrelation skilja sig från oberoende fall.
Som ett mycket didaktiskt, artificiellt och icke-realistiskt exempel kan man överväga $ X $ så att $ P (X = x) = 1/3 $ för $ x = -1, 0, 1 $ och $ Y = X ^ 2 $. Lägg märke till att de inte bara är associerade utan den ena är en funktion av den andra. Ändå är deras korrelation 0, för deras associering är ortogonal mot den association som korrelation kan upptäcka.
Det finns en allmän brist på noggrannhet i användningen av ordet "korrelation" av den enkla anledningen att det kan ha mycket olika antaganden och betydelser. Den enklaste, lösaste och vanligaste användningen är att det finns någon vag förening, relation eller brist på oberoende mellan ett statiskt par slumpmässiga variabler.
Här är standardvärdet som refereras till vanligtvis korrelationen Pearson , vilket är ett standardmått för parvis, linjär koppling mellan två kontinuerligt distribuerade variabler. En av Pearson's vanligaste missbruk är att rapportera det i procent. Det är definitivt inte en procentsats. Korrelationen Pearson , r , sträcker sig mellan -1,0 och +1,0 där 0 betyder ingen linjär koppling. Andra inte så allmänt erkända problem med att använda korrelationen Pearson som standard är att det faktiskt är ett ganska strikt, icke-robust mått på linjäritet som kräver intervallskalade variabler som inmatning (se Paul Embrechts utmärkta papper om Korrelation och beroende i riskhantering: Egenskaper och fallgropar här: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf).
Embrechts konstaterar att det finns många falska antaganden om beroende som börjar med antaganden om den underliggande strukturen och geometriska formen för dessa förhållanden:
Dessa felaktigheter uppstår från ett naivt antagande att beroendegenskaper i den elliptiska världen håller också i den icke-elliptiska världen
Embrechts pekar på copulas som en mycket bredare klass av beroendemetriker som används i ekonomi och riskhantering , varav Pearson korrelationen bara är en typ.
Columbias statistikavdelning tillbringade läsåret 2013-2014 med fokus på att utveckla djupare förståelser för beroendestrukturer: t.ex. linjär, icke-linjär, monoton, rang, parametrisk, icke-parametrisk, potentiellt mycket komplex och med stora skillnader i skalning. Året avslutades med en 3 dagars workshop och konferens som samlade de flesta av de bästa bidragsgivarna inom detta område ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28 -maj-2).
Dessa bidragsgivare inkluderade Reshef Brothers, nu känd för ett Science -papper från 2011 Upptäcka romanföreningar i stora datamängder http: // www .uvm.edu / ~ cdanfort / csc-läsgrupp / reshef-korrelation-science-2011.pdf som har kritiserats i stor utsträckning (se AndrewGelman.com för en bra översikt, publicerad samtidigt med Columbia-evenemanget: http://andrewgelman.com/2014/03/14/maximal-information-koefficient). Reshefs behandlade all denna kritik i sin presentation (tillgänglig på Columbia-konferenswebbplatsen), liksom en mycket effektivare MIC-algoritm.
Många andra ledande statistiker presenterade vid detta evenemang inklusive Gabor Szekely, nu kl. NSF i DC. Szekely utvecklade sina korrelationer mellan avstånd och partiell avstånd . Deep Mukhopadhay, Temple U, presenterar sin Unified Statistical Algorithm - en ram för enhetliga algoritmer för datavetenskap - baserat på arbete gjort med Eugene Franzen http: //www.fox.temple. edu / mcm_people / subhadeep-mukhopadhyay /. Och många andra. För mig var ett av de mer intressanta teman bred hävstång och användning av Reproducing Kernel Hilbert Space (RKHS) och chi-square. Om det fanns ett modalt tillvägagångssätt för beroendestrukturer vid denna konferens, var det RKHS.
De typiska introduktionsstatistikböckerna är perfekta i sin behandling av beroende, vanligtvis beroende av presentationer av samma uppsättning visualiseringar av cirkulära eller paraboliska förhållanden. Mer sofistikerade texter kommer att gräva i Anscombes kvartett , en visualisering av fyra olika datamängder som har liknande, enkla statistiska egenskaper men väldigt olika förhållanden: https://en.wikipedia.org/wiki/Anscombe% 27s_quartet
En av de stora sakerna med denna workshop var mångfalden av beroendestrukturer och relationer som visualiserats och presenterats, som gick långt utöver den vanliga, tillfälliga behandlingen. Till exempel hade Reshefs dussintals miniatyrbilder som representerade bara ett urval av möjliga icke-linjärer. Deep Mukhopadhay hade fantastiska bilder av mycket komplexa relationer som liknade mer en satellitvy över Himalaya. Statistik och författare till datavetenskapliga läroböcker måste notera.
När jag kom ut från Columbia-konferensen med utveckling och visualisering av dessa mycket komplexa, parvisa beroendestrukturer, fick jag ifrågasätta multivariata statistikmodellers förmåga att fånga dessa olinjäriteter och komplexiteter.
Det beror på din exakta definition av "korrelation", men det är inte så svårt att konstruera degenererade fall. "Oberoende" kan betyda något som "ingen prediktiv kraft alls, någonsin" lika mycket som "linjär korrelation".
Linjär korrelation skulle till exempel inte indikera beroende på $ y = \ sin (2000x) $ om domänen $ x $ var $ [0,1) $.
I grund och botten betyder beroende av Y på X fördelningen av värden på Y beror på något sätt av värdet på X. Det beroendet kan vara på medelvärdet för Y (det vanliga fallet som presenteras i de flesta svaren) eller vad som helst andra egenskaper hos Y.
Låt till exempel X vara 0 eller 1. Om X = 0 ska Y vara 0, om X = 1 ska Y vara -1, 0 eller 1 (samma sannolikhet). X och Y är okorrelerade. I genomsnitt beror Y inte på X, för vilket värde som helst är X, medelvärdet av Y är 0. Men tydligt beror fördelningen av värden på Y på X-värdet. I det här fallet är till exempel variansen för Y 0 när X = 0 och> 0 när X = 1, så det finns åtminstone ett beroende av varians, dvs det finns ett beroende.
Så linjär korrelation visar bara en typ av beroende av medelvärde (linjärt beroende), som i sin tur bara är ett speciellt fall av beroende.
Ett intuitivt exempel skulle vara en cirkel.Jag har två variabler $ X $ och $ Y $ .Och de uppfyller ekvationen
$$ X ^ 2 + Y ^ 2 = 1 $$
Nu är $ X $ och $ Y $ definitivt inte oberoende av varandra, för givet $ X $ kan vi beräkna $ Y $ och vice versa.Men deras personskorrelationskoefficient är $ 0 $ .Detta beror på att det bara fångar upp det linjära förhållandet mellan två variabler.
Att lägga till @Marcelo Ventura och @Mike Hunter fantastiska svar, och hänvisningen till en bra diskussion kring detta på Quora.
En viktig punkt (implicit) görs här och i quora-tråden. Även om korrelation är ett linjärt mått betyder det inte uteslutande att det bara kan kvantifiera förhållandet mellan linjärt beroende variabler.
Förmodligen är en lika viktig faktor om det finns ett monotonförhållande mellan variabler . Som anges på minitab
I ett monotont förhållande tenderar variablerna att röra sig i samma relativa riktning, men inte nödvändigtvis i konstant takt. I ett linjärt förhållande rör sig variablerna i samma riktning med konstant hastighet.
T Detta betyder att om vi har icke-monotonrelaterade variabler kan vi observera en nollkorrelation även om de inte är oberoende
För att illustrera detta säger vi till exempel att vi har en $ f (x) = x ^ 2 $ , som använder python
för att utvärdera funktionen
Om vi tittar på $ x $ i $ [0, 50) $ finner vi att $ f (x) $ har en monot relation med $ x $ , som ett resultat observerar vi korrelationerna att vara nära 1:
importera numpy som np importera seaborn som sns x = np. område (0, 50, 1) f = lambda x: x ** 2 y = f (x) sns.scatterplot (x, y)
# Få korrelationer med scipy
från scipy.stats importerar pearsonr, spearmanr
pearsonr (x, y) [0]
spearmanr (x, y) [0]
0.967
0.999...
Nu om vi tittar på $ x $ i $ [- 25, 25) $ ,hitta $ f (x) $ n längre har en monotone-relation med $ x $ , korrelationerna är alltsånära noll som förväntat:
x = np.avstånd (-25, 25, 1) y = f (x) sns.scatterplot (x, y) pearsonr (x, y) [0] spearmanr (x, y) [0]
-0.059