Fråga:
Genomsnittliga korrelationsvärden
Boris Gorelik
2011-03-08 21:06:45 UTC
view on stackexchange narkive permalink

Låt oss säga att jag testar hur variabel Y beror på variabel X under olika experimentella förhållanden och får följande graf:

enter image description here

Strecklinjerna i diagrammet ovan representerar linjär regression för varje dataserie (experimentell inställning) och siffrorna i förklaringen betecknar Pearson-korrelationen för varje dataserie.

Jag skulle vilja beräkna "genomsnittlig korrelation" (eller "genomsnittlig korrelation") mellan X och Y . Får jag helt enkelt genomsnittsvärdena för r ? Vad sägs om "genomsnittligt bestämningskriterium", $ R ^ 2 $? Ska jag beräkna genomsnittet r och än ta kvadraten för det värdet eller ska jag beräkna genomsnittet för enskilda $ R ^ 2 $?

Fyra svar:
Amyunimus
2011-12-14 23:43:05 UTC
view on stackexchange narkive permalink

För Pearson-korrelationskoefficienter är det i allmänhet lämpligt att transformera r -värdena med en Fisher z -transformation. Genomsnitt sedan z -värdena och konvertera genomsnittet tillbaka till ett r värde.

Jag antar att det också skulle vara bra för en Spearman-koefficient.

Här är ett papper och wikipedia -posten.

+1; Detta svar verkar mer lämpligt och allmänt än det accepterade svaret, men skulle det i det särskilda användningsfallet inte falla sönder för r-värden på 1? Är något som en kejsarlogit rimlig här där man bara skulle "lägga till" en datapunkt som saknar korrelationen? Om så är fallet, var skulle man lägga till det? Skulle man behöva genomföra en monte carlo sim som tog två slumpmässiga variabler från källfördelningarna? Alternativt skulle man bara justera r till något värde något mindre än 1? Hur långt ska man anpassa sig?
whuber
2011-03-08 21:57:23 UTC
view on stackexchange narkive permalink

Det enkla sättet är att lägga till en kategorisk variabel $ z $ för att identifiera de olika experimentella förhållandena och inkludera den i din modell tillsammans med en "interaktion" med $ x $; det vill säga $ y \ sim z + x \ # z $. Detta genomför alla fem regressionerna på en gång. Dess $ R ^ 2 $ är vad du vill ha.

För att se varför genomsnittet av enskilda $ R $ -värden kan vara fel, antar att riktningen för lutningen är omvänd under några av de experimentella förhållandena. Du skulle i genomsnitt ha en massa 1 och -1 ut till cirka 0, vilket inte skulle återspegla kvaliteten på något av passningarna. För att se varför ett genomsnitt av $ R ^ 2 $ (eller någon fast omvandling därav) inte är rätt, antag att du under de flesta experimentella förhållanden bara hade två observationer, så att deras $ R ^ 2 $ alla är lika med $ 1 $, men i ett experiment du hade hundra observationer med $ R ^ 2 = 0 $. Det genomsnittliga $ R ^ 2 $ på nästan 1 skulle inte återspegla situationen korrekt.

ursäkta min okunnighet, men vad betyder # -tecknet i ditt svar?
Jag tycker att ditt svar är mycket bra för den underförstådda definitionen av korrelation som används. Vad händer om de menade det som en standardiserad lutning (kanske antyds av figuren)? I så fall vill du att negativa och positiva åtgärder ska avbrytas. Du är död på problemet med provstorlek. Överväg också att flytta din kommentar till ditt svar.
Vill du ha $ R ^ 2 $ eller justerad $ R ^ 2 $?
@whuber i din ursprungliga kommentar där, ditt menar att korrelationen kan vara $ \ pm 1 $;$ R ^ 2 $ är i varje fall $ 1 $.(Jag inser att detta bara är ett skriv- eller redigeringsproblem. Det ändrar inte din poäng, men det kan vilseleda.)
@rpierce I andra stycket gör det ingen skillnad för idéerna om du använder justerade $ R ^ 2 $ - föreställ dig helt enkelt uppsättningar av * tre *, snarare än två punkter, som är nästan kollinära.Deras justerade $ R ^ 2 $ kan vara godtyckligt nära $ 1 $.
Kan någon berätta för mig hur man gör det i Excel eller Matlab?
Karl
2011-10-17 21:56:05 UTC
view on stackexchange narkive permalink

Den genomsnittliga korrelationen kan vara meningsfull. Tänk också på fördelningen av korrelationer (till exempel, plotta ett histogram).

Men som jag förstår det, för varje individ har du någon ranking på $ n $ artiklar plus förutsagda rankningar av dessa för den personen och du tittar på korrelationen mellan individens ranking och de förutsagda.

I det här fallet kan det hända att korrelationen inte är det bästa måttet på hur bra algoritmen gör förutsägelser. Tänk dig till exempel att algoritmen får de första 100 artiklarna perfekt och de nästa 200 artiklarna helt trasslade, motsatt. Det kan vara så att du bara bryr dig om kvaliteten på topprankingen. I det här fallet kan du titta på summan av de absoluta skillnaderna mellan individens ranking och den förutsagda rankningen, men bara bland individens bästa $ m $ -objekt.

StatsStudent
2011-12-14 23:55:25 UTC
view on stackexchange narkive permalink

Vad sägs om att använda medelkvadratförutsedd eror (MSPE) för algoritmens prestanda? Detta är ett vanligt tillvägagångssätt för vad du försöker göra, om du försöker jämföra prediktiv prestanda mellan en uppsättning algoritmer.

Jag är inte säker på varför detta inlägg http://stats.stackexchange.com/questions/17129/how-to-average-spearman-correlations slogs samman med det här. De ställer faktiskt två olika frågor enligt min mening - det finns två olika mål.
Du har rätt: de är olika frågor. Jag har röstat för att öppna det andra inlägget på nytt (även om vilken effekt det kan ha är oklart). Jag ber om ursäkt för att jag inte såg din kommentar: om du istället hade * flaggat * det inlägget skulle det ha kommit till oss flera år tidigare!


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 2.0-licensen som det distribueras under.
Loading...