Fråga:
Varför noll korrelation inte nödvändigtvis innebär oberoende
Victor
2015-10-31 07:33:41 UTC
view on stackexchange narkive permalink

Om två variabler har 0-korrelation, varför är de inte nödvändigtvis oberoende? Är nollkorrelerade variabler oberoende under speciella omständigheter? Om det är möjligt letar jag efter en intuitiv förklaring, inte en mycket teknisk.

Korrelation är ett mått på linjärt beroende (association).det är möjligt för två slumpmässiga variabler att vara okorrelerade men icke-linjärt beroende.
Intuitiv förklaring -> http://math.stackexchange.com/questions/444408/zero-correlation-does-not-imply-independence
Nollkorrelation innebär oberoende om variablerna är flervariata normala.Detta är inte samma sak som varje variabel är normal - se [här] (http://stats.stackexchange.com/questions/162547/why-is-pearsons-%CF%81-only-an-exhaustive-measure-of-association-if-the-joint-distri / 162576 # 162576) för vissa spridningsdiagram med nollkorrelerade men beroende normala variabler (varje variabel är individuellt normal)
Korrelation (okvalificerad) kan inkludera rangkorrelation, etc., för vilket monoton beroende är problemet, och så vidare.
För outlook, skulle jag rekommendera dig att se Wikipedia "avståndskorrelation" som ett mått på självständighet.
[Kovarians och oberoende] (http://stats.stackexchange.com/q/12842/22228) är en nästan duplikat av denna fråga, och något som kommer närmare "Är noll korrelerade variabler oberoende under speciella omständigheter" kan vara [För vilka distributioner innebär uncorrelatedness oberoende] (http://stats.stackexchange.com/q/74410/22228) eller [Uncorrelatedness innebär självständighet under något villkor?] (Http://stats.stackexchange.com/q/35952/22228) Mer allmänt, se [Vad är sambandet mellan ortogonal, korrelation och självständighet?] (Http://stats.stackexchange.com/q/171324/22228)
Relaterat: https://stats.stackexchange.com/q/85363/119261
Sex svar:
Marcelo Ventura
2015-10-31 16:05:32 UTC
view on stackexchange narkive permalink

Korrelation mäter linjär koppling mellan två givna variabler och den har ingen skyldighet att upptäcka någon annan form av association.

Så dessa två variabler kan associeras på flera andra icke-linjära sätt och korrelation skilja sig från oberoende fall.

Som ett mycket didaktiskt, artificiellt och icke-realistiskt exempel kan man överväga $ X $ så att $ P (X = x) = 1/3 $ för $ x = -1, 0, 1 $ och $ Y = X ^ 2 $. Lägg märke till att de inte bara är associerade utan den ena är en funktion av den andra. Ändå är deras korrelation 0, för deras associering är ortogonal mot den association som korrelation kan upptäcka.

Jag letade efter bevis för att slumpmässiga avvikelser var okorrelerade men ändå beroende men ingen av de direkta svaren på min fråga avslöjade intuitiva fakta.Ditt svar å andra sidan ger mig en mycket bra vinkel att tänka på, tack så mycket!
@stucash mitt nöje!Det var ett gammalt motexempel som jag lärde mig
Mike Hunter
2015-10-31 18:26:25 UTC
view on stackexchange narkive permalink

Det finns en allmän brist på noggrannhet i användningen av ordet "korrelation" av den enkla anledningen att det kan ha mycket olika antaganden och betydelser. Den enklaste, lösaste och vanligaste användningen är att det finns någon vag förening, relation eller brist på oberoende mellan ett statiskt par slumpmässiga variabler.

Här är standardvärdet som refereras till vanligtvis korrelationen Pearson , vilket är ett standardmått för parvis, linjär koppling mellan två kontinuerligt distribuerade variabler. En av Pearson's vanligaste missbruk är att rapportera det i procent. Det är definitivt inte en procentsats. Korrelationen Pearson , r , sträcker sig mellan -1,0 och +1,0 där 0 betyder ingen linjär koppling. Andra inte så allmänt erkända problem med att använda korrelationen Pearson som standard är att det faktiskt är ett ganska strikt, icke-robust mått på linjäritet som kräver intervallskalade variabler som inmatning (se Paul Embrechts utmärkta papper om Korrelation och beroende i riskhantering: Egenskaper och fallgropar här: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf).

Embrechts konstaterar att det finns många falska antaganden om beroende som börjar med antaganden om den underliggande strukturen och geometriska formen för dessa förhållanden:

Dessa felaktigheter uppstår från ett naivt antagande att beroendegenskaper i den elliptiska världen håller också i den icke-elliptiska världen

Embrechts pekar på copulas som en mycket bredare klass av beroendemetriker som används i ekonomi och riskhantering , varav Pearson korrelationen bara är en typ.

Columbias statistikavdelning tillbringade läsåret 2013-2014 med fokus på att utveckla djupare förståelser för beroendestrukturer: t.ex. linjär, icke-linjär, monoton, rang, parametrisk, icke-parametrisk, potentiellt mycket komplex och med stora skillnader i skalning. Året avslutades med en 3 dagars workshop och konferens som samlade de flesta av de bästa bidragsgivarna inom detta område ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28 -maj-2).

Dessa bidragsgivare inkluderade Reshef Brothers, nu känd för ett Science -papper från 2011 Upptäcka romanföreningar i stora datamängder http: // www .uvm.edu / ~ cdanfort / csc-läsgrupp / reshef-korrelation-science-2011.pdf som har kritiserats i stor utsträckning (se AndrewGelman.com för en bra översikt, publicerad samtidigt med Columbia-evenemanget: http://andrewgelman.com/2014/03/14/maximal-information-koefficient). Reshefs behandlade all denna kritik i sin presentation (tillgänglig på Columbia-konferenswebbplatsen), liksom en mycket effektivare MIC-algoritm.

Många andra ledande statistiker presenterade vid detta evenemang inklusive Gabor Szekely, nu kl. NSF i DC. Szekely utvecklade sina korrelationer mellan avstånd och partiell avstånd . Deep Mukhopadhay, Temple U, presenterar sin Unified Statistical Algorithm - en ram för enhetliga algoritmer för datavetenskap - baserat på arbete gjort med Eugene Franzen http: //www.fox.temple. edu / mcm_people / subhadeep-mukhopadhyay /. Och många andra. För mig var ett av de mer intressanta teman bred hävstång och användning av Reproducing Kernel Hilbert Space (RKHS) och chi-square. Om det fanns ett modalt tillvägagångssätt för beroendestrukturer vid denna konferens, var det RKHS.

De typiska introduktionsstatistikböckerna är perfekta i sin behandling av beroende, vanligtvis beroende av presentationer av samma uppsättning visualiseringar av cirkulära eller paraboliska förhållanden. Mer sofistikerade texter kommer att gräva i Anscombes kvartett , en visualisering av fyra olika datamängder som har liknande, enkla statistiska egenskaper men väldigt olika förhållanden: https://en.wikipedia.org/wiki/Anscombe% 27s_quartet

En av de stora sakerna med denna workshop var mångfalden av beroendestrukturer och relationer som visualiserats och presenterats, som gick långt utöver den vanliga, tillfälliga behandlingen. Till exempel hade Reshefs dussintals miniatyrbilder som representerade bara ett urval av möjliga icke-linjärer. Deep Mukhopadhay hade fantastiska bilder av mycket komplexa relationer som liknade mer en satellitvy över Himalaya. Statistik och författare till datavetenskapliga läroböcker måste notera.

När jag kom ut från Columbia-konferensen med utveckling och visualisering av dessa mycket komplexa, parvisa beroendestrukturer, fick jag ifrågasätta multivariata statistikmodellers förmåga att fånga dessa olinjäriteter och komplexiteter.

Jag kom precis över den här utmärkta och uttömmande diskussionen om associeringsåtgärder på Quora: https://www.quora.com/Correlation-can-measure-only-the-linear-relationship-between-variables-What-are-the-metoder för mätning av icke-linjära relationer mellan två variabler
Andrew Charneski
2015-10-31 10:31:28 UTC
view on stackexchange narkive permalink

Det beror på din exakta definition av "korrelation", men det är inte så svårt att konstruera degenererade fall. "Oberoende" kan betyda något som "ingen prediktiv kraft alls, någonsin" lika mycket som "linjär korrelation".

Linjär korrelation skulle till exempel inte indikera beroende på $ y = \ sin (2000x) $ om domänen $ x $ var $ [0,1) $.

Karpablanca
2015-11-01 06:38:05 UTC
view on stackexchange narkive permalink

I grund och botten betyder beroende av Y på X fördelningen av värden på Y beror på något sätt av värdet på X. Det beroendet kan vara på medelvärdet för Y (det vanliga fallet som presenteras i de flesta svaren) eller vad som helst andra egenskaper hos Y.

Låt till exempel X vara 0 eller 1. Om X = 0 ska Y vara 0, om X = 1 ska Y vara -1, 0 eller 1 (samma sannolikhet). X och Y är okorrelerade. I genomsnitt beror Y inte på X, för vilket värde som helst är X, medelvärdet av Y är 0. Men tydligt beror fördelningen av värden på Y på X-värdet. I det här fallet är till exempel variansen för Y 0 när X = 0 och> 0 när X = 1, så det finns åtminstone ett beroende av varians, dvs det finns ett beroende.

Så linjär korrelation visar bara en typ av beroende av medelvärde (linjärt beroende), som i sin tur bara är ett speciellt fall av beroende.

Haitao Du
2020-02-11 19:10:27 UTC
view on stackexchange narkive permalink

Ett intuitivt exempel skulle vara en cirkel.Jag har två variabler $ X $ och $ Y $ .Och de uppfyller ekvationen

$$ X ^ 2 + Y ^ 2 = 1 $$

Nu är $ X $ och $ Y $ definitivt inte oberoende av varandra, för givet $ X $ kan vi beräkna $ Y $ och vice versa.Men deras personskorrelationskoefficient är $ 0 $ .Detta beror på att det bara fångar upp det linjära förhållandet mellan två variabler.

RK1
2020-02-11 19:02:17 UTC
view on stackexchange narkive permalink

Att lägga till @Marcelo Ventura och @Mike Hunter fantastiska svar, och hänvisningen till en bra diskussion kring detta på Quora.

En viktig punkt (implicit) görs här och i quora-tråden. Även om korrelation är ett linjärt mått betyder det inte uteslutande att det bara kan kvantifiera förhållandet mellan linjärt beroende variabler.

Förmodligen är en lika viktig faktor om det finns ett monotonförhållande mellan variabler . Som anges på minitab

I ett monotont förhållande tenderar variablerna att röra sig i samma relativa riktning, men inte nödvändigtvis i konstant takt. I ett linjärt förhållande rör sig variablerna i samma riktning med konstant hastighet.

T Detta betyder att om vi har icke-monotonrelaterade variabler kan vi observera en nollkorrelation även om de inte är oberoende

För att illustrera detta säger vi till exempel att vi har en $ f (x) = x ^ 2 $ , som använder python för att utvärdera funktionen

Om vi ​​tittar på $ x $ i $ [0, 50) $ finner vi att $ f (x) $ har en monot relation med $ x $ , som ett resultat observerar vi korrelationerna att vara nära 1:

  importera numpy som np
importera seaborn som sns

x = np. område (0, 50, 1)
f = lambda x: x ** 2
y = f (x)
sns.scatterplot (x, y)
 

enter image description here

  # Få korrelationer med scipy
från scipy.stats importerar pearsonr, spearmanr
pearsonr (x, y) [0]
spearmanr (x, y) [0]
 
  • Pearson Correlation: 0.967
  • SPearman-korrelation: 0.999...

Nu om vi tittar på $ x $ i $ [- 25, 25) $ ,hitta $ f (x) $ n längre har en monotone-relation med $ x $ , korrelationerna är alltsånära noll som förväntat:

  x = np.avstånd (-25, 25, 1)
y = f (x)
sns.scatterplot (x, y)
pearsonr (x, y) [0]
spearmanr (x, y) [0]
 

enter image description here

  • Pearson-korrelation: -0.077
  • Spearman-korrelation: -0.059


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...