Fråga:
Vilken regressionsmodell är lämpligast att använda med räkningsdata?
sequence_hard
2016-03-31 13:42:02 UTC
view on stackexchange narkive permalink

Jag försöker komma lite in i statistik, men jag har fastnat med något. Mina data är som följer:

  Årsnummer_av_gener1990 11991 11993 31995 4  

Jag vill nu bygga en regressionsmodell för att kunna förutsäga antalet gener för ett visst år baserat på uppgifterna. Jag gjorde det med linjär regression tills nu, men jag har läst lite och det verkar inte vara det bästa valet för denna typ av data. Jag har läst att Poisson-regression kan vara användbart, men jag är osäker på vad jag ska använda. Så min fråga är:

Finns det en allmän regressionsmodell för denna typ av data? Om nej, vad måste jag göra för att ta reda på vilken metod som är bäst att använda (när det gäller vad jag måste ta reda på om data)?

Mitt svar här: http://stats.stackexchange.com/questions/142338/goodness-of-fit-and-which-model-to-choose-linear-regression-or-poisson/142353#142353 är mycket relevant.
Handlar det här om tidsseriedata?
Tre svar:
Stephan Kolassa
2016-03-31 13:55:56 UTC
view on stackexchange narkive permalink

Nej, det finns ingen allmän räkningsdataregressionsmodell.

(Precis som det inte finns någon allmän regressionsmodell för kontinuerlig data. En linjär modell med normalt distribuerat homoskedastiskt ljud antas oftast och monteras med vanliga minsta kvadrater. Gammaregression eller exponentiell regression används ofta för att hantera olika antaganden om felfördelning eller villkorliga heteroskedasticitetsmodeller, som ARCH eller GARCH i en tidsseriekontext , för att hantera heteroskedastiskt brus.)

Vanliga modeller inkluderar , som du skriver, eller Negativ binomial regression. Dessa modeller är tillräckligt utbredda för att hitta alla typer av programvara, handledning eller läroböcker. Jag gillar särskilt Hilbes Negativ binomial regression . Den här tidigare frågan diskuterar hur man väljer mellan olika antal datamodeller.

Om du har "många" nollor i dina data, och särskilt om du misstänker att nollor kan drivas av en annan datagenereringsprocess än icke-nollor (eller att vissa nollor kommer från en DGP och andra nollor och icke-nollor kommer från en annan DGP), -modeller kan vara användbara. Den vanligaste är nolluppblåst Poisson (ZIP) regression.

Du kan också bläddra igenom våra tidigare frågor taggade både "regression" och "count-data".


REDIGERA: @MichaelM väcker en bra poäng. Detta ser ut som tidsserier med räkningsdata. (Och de saknade uppgifterna för 1992 och 1994 föreslår för mig att det ska finnas noll i vart och ett av dessa år. Om så är fallet, inkludera det. Noll är ett giltigt nummer och det innehåller information.) Mot bakgrund av detta, jag föreslår också att du tittar igenom våra tidigare frågor taggade både "tidsserier" och "räkningsdata".

Bra, men vanliga minsta kvadrater är ett uppskattningsförfarande, inte en modell.Du vet det, men det är en vanlig förvirring, så vi borde inte skriva förlåtande det.
@NickCox: bra poäng.Jag redigerade mitt inlägg.
Tim
2016-03-31 13:56:35 UTC
view on stackexchange narkive permalink

"Standard", den mest använda och beskrivna, fördelningen av val för räkningsdata är Poisson-distributionen. Oftast illustreras det med exempel på dess första praktiska användning:

En praktisk tillämpning av denna distribution gjordes av Ladislaus Bortkiewicz 1898 när han fick i uppdrag att undersöka antalet soldater i Preussisk armé dödades av misstag av hästsparkar; detta experiment introducerade Poisson-fördelningen till området tillförlitlighetsteknik.

Poisson-fördelningen parametriseras av hastigheten $ \ lambda $ per fast tidsintervall ($ \ lambda $ är också dess medelvärde och varians) . Vid regression kan vi använda Poisson-distribution i generaliserad linjär modell med log-linjär länkfunktion

$$ E (Y | X, \ beta) = \ lambda = \ exp \ left (\ beta_0 + \ beta_1 X_1 + \ dots + \ beta_k X_k \ right) $$

som kallas Poisson-regression, eftersom vi kan anta att $ \ lambda $ är en Poisson-fördelning. Observera dock att för log-linjär regression behöver du inte göra ett sådant antagande och helt enkelt använda GLM med logglänk med icke-räknedata. När du tolkar parametrarna måste du komma ihåg att förändringar i oberoende variabler på grund av användning av loggtransform resulterar i multiplikativa förändringar i de förutspådda räkningarna.

Problemet med att använda Poisson-distribution för verkliga data är det antar att medelvärdet är lika med variansen. Brott mot detta antagande kallas överdispersion . I sådana fall kan du alltid använda kvasi-Poisson -modell, icke-Poisson log-linjär modell (för stora räkningar kan Poisson approximeras med normalfördelning), negativ binomiell regression (nära relaterad till Poisson; se Berk och MacDonald, 2008), eller andra modeller, som beskrivs av Stephan Kolassa .

För lite vänlig introduktion till Poisson-regression kan du också kolla in papper av Lavery (2010) eller Coxe , West och Aiken (2009).


Lavery, R. (2010). En animerad guide: En introduktion till Poisson-regression. NESUG-papper, sa04.

Coxe, S., West, S.G., & Aiken, L.S. (2009). Analysen av räkningsdata: En mild introduktion till Poisson-regression och dess alternativ. Tidsskrift för personlighetsbedömning, 91 (2), 121-136.

Berk, R., & MacDonald, J. M. (2008). Overdispersion and Poisson regression. Journal of Quantitative Criminology, 24 (3), 269-284.

Du sammanfogar en Poisson-distribution med hjälp av en Poisson-regression.Det är inte ett absolut krav för Poisson-regression att svaret har en Poisson-fördelning.Poisson-regression fungerar bra för en mängd olika positiva svar, inklusive uppmätta variabler också.Det är en bra idé att vara försiktig med standardfel för slutsats, men det är smidigt.Se t.ex.http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/
@NickCox rätt, men frågan handlade strikt om räkningsdata, så det finns förmodligen inget behov av att gå in på detaljer om andra användningar av Poisson-regression.
Inget behov av att gå i detalj, kom överens om;men alla anledningar att driva Poisson-regressionen lite.Dess nytta är förvånansvärt lite känd;det förtjänar att finnas i många fler mellanliggande texter åtminstone.Och, och viktigare här, håller jag inte alls med att en gång varians inte är lika med att du borde använda andra modeller;detta förvirrar två helt olika problem.
Dessutom är det faktum att Poisson-regression kan användas med uppmätta variabler relevant, som i sådana fall om medelvärdet är lika varians inte ens meningsfullt eftersom de har olika dimensioner.Sådana fall understryker således att kravet inte är något sådant.
@NickCox Jag är rädd att min kunskap om Poisson-regression är begränsad till dess "klassiska" användning och du skulle ha mycket mer att säga om det :) Men om jag hittar tid ska jag försöka utöka mitt svar för att skriva mer omallmän Poisson-regressionsmodell och dess applikationer.
En del av problemet är terminologi.Loglinjär regression skulle enligt min mening vara en bättre term än Poisson-regression, med tanke på nyckelpunkten att det att vara Poisson inte är centralt.Men om en sådan term används och förstås alls är det vanligtvis helt för modellering av räknade kategoriska data.Så terminologin är ganska fel: loglinjär bör vara Poisson och Poisson bör vara linjär.Hur som helst är kärnan i saken att $ \ exp (Xb) $ är en utmärkt port för första anrop för den genomsnittliga strukturen för icke-negativa svar i allmänhet.
@NickCox: Är det inte den verkliga poängen att $ \ exp (X \ beta) $ är ett bra första samtal för ** omfattande ** svar?Då kanske de flesta typiska positiva variablerna är omfattande?Omvänt är de mest omfattande variablerna positiva.
@kjetilbhalvorsen Jag har haft bra resultat med variabler av båda slag.
user46925
2016-04-01 02:18:58 UTC
view on stackexchange narkive permalink

Poisson eller negativ binomial är två allmänt använda modeller för att räkna data. Jag skulle välja den negativa binomialen eftersom den har bättre antaganden om varians.

Vad menar du med "bättre"?
Som det ser ut är detta mer en kommentar än ett svar.Tror du att du kan utöka det?Du borde verkligen tänka på Tims kommentar - ordet "bättre" är * väldigt * vagt
Negativa binomialmodeller (NB) hanterar data för överdisperserad (OD) räkning genom att anta att det beror på kluster.Den använder sedan en slumpmässig avlyssningsmodell med en Poisson fördelad 'inom' och en gammadistribuerad 'mellan' struktur.Vilket som är bättre beror på ditt antagande för OD.Om du antar att graden av OD varierar med klusterstorleken kan NB hjälpa till.Om du antar att du antar att OD är proportionell mot klusterstorleken, har kvasi-poisson detta antagande.OBS uppskattningar kommer att vara partiska om OD bara är Gaussiskt brus.Poisson kommer att vara mindre partisk, men standardfel kan vara för små med OD.


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...