Fråga:
Varför måste svarsvariabeln vara kontinuerlig i linjär regression?
ilovestats
2017-03-12 09:00:00 UTC
view on stackexchange narkive permalink

Jag vet att svarsvariabeln i linjär regression måste vara kontinuerlig men varför är det så?Jag verkar inte hitta något online som förklarar varför jag inte kan använda diskreta data för svarsvariabeln.

Fyra svar:
Glen_b
2017-03-12 11:00:43 UTC
view on stackexchange narkive permalink

Det finns inget som hindrar dig från att använda linjär regression i två kolumner med siffror du gillar. Det finns tillfällen då det till och med kan vara ett ganska förnuftigt val.

Egenskaperna för det du får ut kommer dock inte nödvändigtvis att vara användbara (t.ex. är det inte nödvändigtvis allt du kanske vill att de ska vara).

I allmänhet med regression försöker du passa något förhållande mellan det villkorliga medelvärdet av Y och prediktorn - dvs passformförhållanden av någon form $ E (Y | x) = g (x) $; utan tvekan modellering av beteendet hos den villkorade förväntningen är vad 'regression' är . [Linjär regression är när du tar en viss form för $ g $]

Tänk till exempel på extrema fall av diskrethet, en svarsvariabel vars fördelning är antingen 0 eller 1 och som tar värdet 1 med sannolikhet att förändras när någon prediktor ($ x $) ändras. Det är $ E (Y | x) = P (Y = 1 | X = x) $.

Om du passar den typen av relation med en linjär regressionsmodell, förutom ett smalt intervall kommer det att förutsäga värden för $ E (Y) $ som är omöjliga - antingen under $ 0 $ eller över $ 1 $:

0-1 data and least squares fit

Det är faktiskt också möjligt att se att när förväntningen närmar sig gränserna måste värdena allt oftare ta värdet vid den gränsen, så dess avvikelse blir mindre än om förväntningen var nära mitten - variansen måste minskar till 0. Så en vanlig regression gör att vikterna är felaktiga och underviktar data i regionen där den villkorade förväntningen är nära 0 eller 1. Liknande effekter uppstår om du har en variabel som är avgränsad mellan a och b, säg (som att varje observation är ett diskret antal av en känd total möjlig räkning för den observationen)

Dessutom förväntar vi oss normalt att det villkorliga medelvärdet kommer att asymptot mot de övre och nedre gränserna, vilket innebär att förhållandet normalt skulle vara krökt, inte rakt, så vår linjära regression gör det troligtvis också fel inom dataområdet.

Liknande problem uppstår med data som bara är avgränsade på ena sidan (t.ex. räkningar som inte har en övre gräns) när du är nära den ena gränsen.

Det är möjligt (om det är sällsynt) att ha diskreta data som inte är begränsade i båda ändarna; om variabeln tar många olika värden kan diskretiteten ha relativt liten betydelse så länge modellens beskrivning av medelvärdet och variansen är rimlig.

Här är ett exempel som det vore helt rimligt att använda linjär regression på:

plot showing discrete y as function of x where linear regression makes sense

Även om det i någon tunn remsa av x-värden bara finns några få y-värden som sannolikt kommer att observeras (kanske cirka 10 för intervall med bredd 1), kan förväntningarna uppskattas väl och till och med standardfel och p-värden och konfidensintervall kommer alla att vara mer eller mindre rimliga i detta speciella fall. Prediktionsintervall tenderar att fungera något mindre bra (eftersom icke-normaliteten tenderar att ha en mer direkt inverkan i så fall)

-

Om du vill utföra hypoteser eller beräkna förtroende- eller förutsägelsesintervall, antar de vanliga procedurerna ett normalitetstillstånd. Under vissa omständigheter kan det betyda. Det är dock möjligt att dra slutsatser utan att göra det speciella antagandet.

Tack, inte säker på att jag förstod allt du sa men jag kommer att arbeta med det.
Om du har specifika frågor kan jag försöka svara på dem
@ilovestats Jag har en magisterexamen i ekonometri och jag kan försäkra dig om att detta svar är värt att förstå varje ord av.Utmärkt svar, med en enkel segue / bra grund för att införa logistisk regression.
carlo
2017-03-12 17:26:58 UTC
view on stackexchange narkive permalink

Jag kan inte kommentera, så jag svarar: i vanlig linjär regression behöver svarsvariabeln not för att vara kontinuerlig, ditt antagande är inte:

$$ y = β_0 + β_1x $$

men är:

$$ E [y] = β_0 + β_1x. $$

Vanlig linjär regression härrör från minimering av kvadratrester, vilket är en metod som anses vara lämplig för kontinuerliga och diskreta variabler (se Gauss-Markof-satsen).Självklart ligger allmänt använda konfidens- eller prediktionsintervall och hypotesprov på antagandet om normal distribution, som Glen_b påpekade korrekt, men OLS-uppskattningar av parametrar gör det inte.

Haitao Du
2017-03-12 09:06:29 UTC
view on stackexchange narkive permalink

I linjär regression är anledningen till att vi behöver svar för att vara kontinuerlig att kamma från antagandena vi gjorde. Om den oberoende variabeln $ x $ är kontinuerlig antar vi att det linjära förhållandet mellan $ x $ och $ y $ är

$$ y = \ beta_0 + \ beta_1 x + \ epsilon $$

där de återstående $ \ epsilon $ är normala. Och formla formeln vi vet $ y $ är kontinuerlig.

Å andra sidan, i generaliserad linjär modell, kan svarsvariabeln vara diskret / kategorisk (logistisk regression). Eller räkna (Poisson-regression).


Redigera till adressmark999 och anpassa om kommentarer.

Linjär regression är en allmän benämning som får människor att använda den annorlunda. Det finns inget som hindrar oss att använda den på diskret variabel ELLER är den oberoende variabeln och den beroende variabeln inte linjär.

Om vi ​​antar ingenting och kör linjär regression kan vi fortfarande få resultat. Och om resultaten uppfyller våra behov är hela processen OK. Men som Glan_b sa

Om du vill utföra hypotesprov eller beräkna konfidens- eller förutsägelsesintervall antar de vanliga procedurerna normalitet.

Jag har det här svaret beror på att jag antar att OP frågar linjär regression från klassisk statistikbok där vi vanligtvis har detta antagande när vi lär ut linjär regression.

Tack, jag förstod din förklaring.Mest uppskattat.
Kan du också förklara varför den förklarande variabeln kan vara antingen kontinuerlig eller diskret (som många publikationer säger)?I din förklaring säger du (och det är vettigt) att den oberoende variabeln x är kontinuerlig.
Jag tror inte att det här svaret är korrekt.Svarsvariabeln antas inte vara en deterministisk funktion av förklaringsvariablerna, och det finns inget behov av att anta att förklaringsvariablerna är kontinuerliga.
Resultatet kan vara diskret eller fortsätter, detta svar är helt fel
@Repmat tack för din kommentar, kolla min redigering.
@mark999 tack för din kommentar, kolla min redigering.
Jay Stevens
2017-03-16 18:00:06 UTC
view on stackexchange narkive permalink

Det gör det inte. Om modellen fungerar, vem bryr sig?

Ur ett teoretiskt perspektiv är svaren ovan korrekt. I praktiken beror det dock på din datadomän och din modells förutsägelseskraft.

Ett verkligt exempel är den gamla MDS-konkursmodellen. Detta var en av de tidiga riskpoäng som användes av konsumentkreditgivare för att förutsäga sannolikheten för att en låntagare skulle förklara konkurs. Denna modell använde detaljerade uppgifter från låntagarens kreditrapport och och en binär 0/1-flagga för att indikera konkurs under prognosperioden. Sedan matade du in data i ... ja ... du gissade det.

En vanlig gammal linjär regression

Jag fick en gång möjlighet att prata med en av de personer som byggde den här modellen. Jag frågade honom om brott mot antaganden. Han förklarade att även om det helt bryter mot antagandena om rester etc. bryr han sig inte.

Visas ...

Denna 0/1 linjära regressionsmodell (när den är standardiserad / skalad till en lättläst poäng och ihopkopplad med en lämplig avskärning) validerades rent mot hållprover av data & fungerade mycket bra som en bra / dålig diskriminator för konkurs.

Modellen användes i flera år som en andra kreditpoäng för att skydda sig mot konkurs sida vid sida med FICO: s riskpoäng (som var utformad för att förutsäga 60+ dagars kreditbrott).



Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...