Vad betyder det att en linjär regression är statistiskt signifikant men har mycket låg r kvadrat?

Fråga:

PaperRockBazooka

2017-04-13 00:37:28 UTC

view on stackexchange narkive permalink

Jag förstår att det betyder att modellen är dålig när det gäller att förutsäga enskilda datapunkter men har etablerat en fast trend (t.ex. y går upp när x går upp).

Det kan föreslå en mycket stor provstorlek

R-kvadrat har lite bagage.https://stats.stackexchange.com/questions/13314/is-r2-useful-or-dangerous

Fem svar:

Aksakal

2017-04-13 00:41:47 UTC

view on stackexchange narkive permalink

Det betyder att du kan förklara en liten del av variansen i data.Till exempel kan du fastställa att en högskoleexamen påverkar lönerna, men samtidigt är det bara en liten faktor.Det finns många andra faktorer som påverkar din lön, och bidraget från högskoleexamen är mycket litet men detekterbart.

I praktiken kan det betyda att högskoleexamen i genomsnitt höjer lönen med $ 500 per år, medan standardavvikelsen för människors löner är \ $ 10K.Så, många högskoleutbildade har lägre löner än icke-utbildade, och värdet av din modell för förutsägelse är lågt.

Haitao Du

2017-04-13 01:53:46 UTC

view on stackexchange narkive permalink

Det betyder "irreducible error is high", dvs. det bästa vi kan göra (med linjär modell) är begränsat. Till exempel följande datamängd:

  data = rbind (
cbind (1,1: 400),
cbind (2200: 400),
cbind (3,300: 400))
plot (data)

Obs! Tricket i den här datamängden är att med ett $ x $ -värde finns det för många olika $ y $ -värden, att vi inte kan göra en bra förutsägelse för att tillfredsställa dem alla. Samtidigt finns det "starka" linjära korrelationer mellan $ x $ och $ y $. Om vi passar en linjär modell får vi betydande koefficienter, men låga R kvadrat.

  fit = lm (data [, 2] ~ data [, 1])
sammanfattning (passform)
abline (passform)

Ring upp:
lm (formel = data [, 2] ~ data [, 1])

Rester:
     Min 1Q Median 3Q Max
-203,331 -59,647 -1,252 68,103 195,669

Koefficienter:
            Uppskatta Std. Fel t värde Pr (> | t |)
(Avlyssning) 123,910 8,428 14,70 <2e-16 ***
data [, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Restfel: 93,9 på 700 frihetsgrader
Multipel R-kvadrat: 0.2814, Justerad R-kvadrat: 0.2804
F-statistik: 274,1 på 1 och 700 DF, p-värde: < 2.2e-16

Luca Citi

2017-04-13 01:32:35 UTC

view on stackexchange narkive permalink

Sätt på ett enkelt sätt (överförenkla lite) för att bevisa att något är viktigt, du behöver en stark effekt och / eller mycket data.Du kan få en statistiskt signifikant linjär regression även vid en liten effekt (liten $ R ^ 2 $) om du har tillräckligt med data.Detta är inte begränsat till linjär regression.

faustus

2017-04-13 05:34:29 UTC

view on stackexchange narkive permalink

Vad betyder det att en linjär regression är statistiskt signifikant men har mycket lågt r kvadrat?

Det betyder att det finns en linjär relation mellan den oberoende och beroende variabeln, men att detta förhållande kanske inte är värt att prata om.

Relationens meningsfullhet är dock mycket beroende av vad du undersöker, men generellt sett kan du anta att statistisk signifikans inte ska förväxlas med relevans.

Med en tillräckligt stor urvalsstorlek kan även de mest triviala relationerna vara statistiskt signifikanta.

Egentligen linjär regression betyder linjär i parametrarna.De råberoende variablerna kan transformeras och du har fortfarande en linjär regression.Jag är lite förbryllad över vad du tycker att statistisk signifikans är. För mig betyder det att parameteruppskattningarna är stora.

^ betydelse hänvisar till sannolikheten att resultaten var rent av en slump och att det inte finns något samband mellan prediktorerna och den beroende variabeln.om du har en liten provstorlek och resultaten är signifikanta, ja, parameteruppskattningarna skulle vara stora.men med ett löjligt stort urval kan du få betydande resultat även med en mycket liten parameteruppskattning.prova det här: http://www.danielsoper.com/statcalc/calculator.aspx

Vad du säger låter som en allmän beskrivning av vad slutsatsen handlar om.Men statistisk signifikans är en specifik term som har att göra med att överskrida ett eller flera kritiska värden där det eller de kritiska värdena beror på en viss signifikansnivå som analytikern väljer (t.ex. 0,05, 0,01 etc).Provstorleken är en annan faktor.I regression testar du flera hypoteser (betydelsen av individuella regressionskoefficienter såväl som testet att det inte finns något samband. Det kan också vara komplicerat genom att göra stegvisa procedurer som väljer mellan flera möjliga modeller.

^ ja, mitt svar är verkligen ett uttalande om slutsats.statistik är en ganska speciell hobby utan tolkning.och jag tycker bara att det finns för mycket betoning på statistisk signifikans över effektstorlek ... särskilt inom forskningsområden där man har ett intresse av att hitta nämnda relation.

Statistik är en del vetenskap och en del konst men den bygger på matematiska principer.

@MichaelChernik Kan du utarbeta lite?Jag håller med faustus (jag gav faktiskt ett liknande svar) och jag förstår inte din poäng.I linjär regression testas signifikansen ((oavsett om enskilda regressionskoefficienter eller hela regressionen är betydelsefull) mot hypotesen om inget samband (koefficient exakt 0). Med tillräckligt med data kan du kanske säga att koefficienterna är noll, men ändå fruktansvärtliten. (fortsätter)

(fortsättning) Aksakals exempel på lönerna förklarar det bra: med tillräckligt med data kan du hitta en statistiskt signifikant ökning av anställdas lön på grund av faktor X även om den faktiska ökningen kan vara så låg som $ 1.

healthcynic

2017-04-14 13:52:05 UTC

view on stackexchange narkive permalink

Ett annat sätt att formulera detta är att det betyder att du med säkerhet kan förutsäga en förändring på befolkningsnivå men inte på individnivå. dvs det finns en hög variation i enskilda data, men när ett tillräckligt stort urval används kan en underliggande effekt ses totalt sett. Det är en anledning till att vissa statliga hälsorådgivning inte är till hjälp för individen. Regeringar känner någon gång behovet av att agera eftersom de kan se att mer av någon aktivitet leder till fler dödsfall totalt sett i befolkningen. De ger råd eller en politik som "räddar" dessa liv. Men på grund av den höga variationen i enskilda svar kan det vara mycket osannolikt att en individ personligen ser någon nytta (eller, värre, på grund av specifika genetiska tillstånd, skulle deras egen hälsa faktiskt ha förbättrats från att följa motsatta råd, men detta är dolt i befolkningsaggregeringen). Om individen dra nytta av (t.ex. nöje) från den "ohälsosamma" aktiviteten kan det att följa rådet innebära att de avstår från detta bestämda nöje under hela sin livstid, men ändrar faktiskt inte personligen om de skulle ha eller inte skulle ha lidit av tillståndet.

Mycket bra exempel!

Jag undrar vad [den här studien] (https://www.nytimes.com/2017/04/12/well/move/an-hour-of-running-may-add-seven-hours-to-your-life.html? _r = 0) s $ R ^ 2 $

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.

about - legalese