Jag vet att svarsvariabeln i linjär regression måste vara kontinuerlig men varför är det så?Jag verkar inte hitta något online som förklarar varför jag inte kan använda diskreta data för svarsvariabeln.
Jag vet att svarsvariabeln i linjär regression måste vara kontinuerlig men varför är det så?Jag verkar inte hitta något online som förklarar varför jag inte kan använda diskreta data för svarsvariabeln.
Det finns inget som hindrar dig från att använda linjär regression i två kolumner med siffror du gillar. Det finns tillfällen då det till och med kan vara ett ganska förnuftigt val.
Egenskaperna för det du får ut kommer dock inte nödvändigtvis att vara användbara (t.ex. är det inte nödvändigtvis allt du kanske vill att de ska vara).
I allmänhet med regression försöker du passa något förhållande mellan det villkorliga medelvärdet av Y och prediktorn - dvs passformförhållanden av någon form $ E (Y | x) = g (x) $; utan tvekan modellering av beteendet hos den villkorade förväntningen är vad 'regression' är . [Linjär regression är när du tar en viss form för $ g $]
Tänk till exempel på extrema fall av diskrethet, en svarsvariabel vars fördelning är antingen 0 eller 1 och som tar värdet 1 med sannolikhet att förändras när någon prediktor ($ x $) ändras. Det är $ E (Y | x) = P (Y = 1 | X = x) $.
Om du passar den typen av relation med en linjär regressionsmodell, förutom ett smalt intervall kommer det att förutsäga värden för $ E (Y) $ som är omöjliga - antingen under $ 0 $ eller över $ 1 $:
Det är faktiskt också möjligt att se att när förväntningen närmar sig gränserna måste värdena allt oftare ta värdet vid den gränsen, så dess avvikelse blir mindre än om förväntningen var nära mitten - variansen måste minskar till 0. Så en vanlig regression gör att vikterna är felaktiga och underviktar data i regionen där den villkorade förväntningen är nära 0 eller 1. Liknande effekter uppstår om du har en variabel som är avgränsad mellan a och b, säg (som att varje observation är ett diskret antal av en känd total möjlig räkning för den observationen)
Dessutom förväntar vi oss normalt att det villkorliga medelvärdet kommer att asymptot mot de övre och nedre gränserna, vilket innebär att förhållandet normalt skulle vara krökt, inte rakt, så vår linjära regression gör det troligtvis också fel inom dataområdet.
Liknande problem uppstår med data som bara är avgränsade på ena sidan (t.ex. räkningar som inte har en övre gräns) när du är nära den ena gränsen.
Det är möjligt (om det är sällsynt) att ha diskreta data som inte är begränsade i båda ändarna; om variabeln tar många olika värden kan diskretiteten ha relativt liten betydelse så länge modellens beskrivning av medelvärdet och variansen är rimlig.
Här är ett exempel som det vore helt rimligt att använda linjär regression på:
Även om det i någon tunn remsa av x-värden bara finns några få y-värden som sannolikt kommer att observeras (kanske cirka 10 för intervall med bredd 1), kan förväntningarna uppskattas väl och till och med standardfel och p-värden och konfidensintervall kommer alla att vara mer eller mindre rimliga i detta speciella fall. Prediktionsintervall tenderar att fungera något mindre bra (eftersom icke-normaliteten tenderar att ha en mer direkt inverkan i så fall)
-
Om du vill utföra hypoteser eller beräkna förtroende- eller förutsägelsesintervall, antar de vanliga procedurerna ett normalitetstillstånd. Under vissa omständigheter kan det betyda. Det är dock möjligt att dra slutsatser utan att göra det speciella antagandet.
Jag kan inte kommentera, så jag svarar: i vanlig linjär regression behöver svarsvariabeln not för att vara kontinuerlig, ditt antagande är inte:
$$ y = β_0 + β_1x $$
men är:
$$ E [y] = β_0 + β_1x. $$
Vanlig linjär regression härrör från minimering av kvadratrester, vilket är en metod som anses vara lämplig för kontinuerliga och diskreta variabler (se Gauss-Markof-satsen).Självklart ligger allmänt använda konfidens- eller prediktionsintervall och hypotesprov på antagandet om normal distribution, som Glen_b påpekade korrekt, men OLS-uppskattningar av parametrar gör det inte.
I linjär regression är anledningen till att vi behöver svar för att vara kontinuerlig att kamma från antagandena vi gjorde. Om den oberoende variabeln $ x $ är kontinuerlig antar vi att det linjära förhållandet mellan $ x $ och $ y $ är
$$ y = \ beta_0 + \ beta_1 x + \ epsilon $$
där de återstående $ \ epsilon $ är normala. Och formla formeln vi vet $ y $ är kontinuerlig.
Å andra sidan, i generaliserad linjär modell, kan svarsvariabeln vara diskret / kategorisk (logistisk regression). Eller räkna (Poisson-regression).
Redigera till adressmark999 och anpassa om kommentarer.
Linjär regression är en allmän benämning som får människor att använda den annorlunda. Det finns inget som hindrar oss att använda den på diskret variabel ELLER är den oberoende variabeln och den beroende variabeln inte linjär.
Om vi antar ingenting och kör linjär regression kan vi fortfarande få resultat. Och om resultaten uppfyller våra behov är hela processen OK. Men som Glan_b sa
Om du vill utföra hypotesprov eller beräkna konfidens- eller förutsägelsesintervall antar de vanliga procedurerna normalitet.
Jag har det här svaret beror på att jag antar att OP frågar linjär regression från klassisk statistikbok där vi vanligtvis har detta antagande när vi lär ut linjär regression.
Ur ett teoretiskt perspektiv är svaren ovan korrekt. I praktiken beror det dock på din datadomän och din modells förutsägelseskraft.
Ett verkligt exempel är den gamla MDS-konkursmodellen. Detta var en av de tidiga riskpoäng som användes av konsumentkreditgivare för att förutsäga sannolikheten för att en låntagare skulle förklara konkurs. Denna modell använde detaljerade uppgifter från låntagarens kreditrapport och och en binär 0/1-flagga för att indikera konkurs under prognosperioden. Sedan matade du in data i ... ja ... du gissade det.
En vanlig gammal linjär regression
Jag fick en gång möjlighet att prata med en av de personer som byggde den här modellen. Jag frågade honom om brott mot antaganden. Han förklarade att även om det helt bryter mot antagandena om rester etc. bryr han sig inte.
Visas ...
Denna 0/1 linjära regressionsmodell (när den är standardiserad / skalad till en lättläst poäng och ihopkopplad med en lämplig avskärning) validerades rent mot hållprover av data & fungerade mycket bra som en bra / dålig diskriminator för konkurs.
Modellen användes i flera år som en andra kreditpoäng för att skydda sig mot konkurs sida vid sida med FICO: s riskpoäng (som var utformad för att förutsäga 60+ dagars kreditbrott).