Fråga:
Vad är skillnaden mellan generaliserade uppskattningsekvationer och GLMM?
rosser
2011-10-20 23:52:51 UTC
view on stackexchange narkive permalink

Jag kör en GEE på obalanserad data på tre nivåer med en logit-länk. Hur skiljer sig detta (när det gäller slutsatserna som jag kan dra och betydelsen av koefficienterna) från en GLM med blandade effekter (GLMM) och logit-länk?

Mer detaljer: Observationerna är enkla bernoulli-försök. De grupperas grupperade i klassrum och skolor. Använda R. Casewise utelämnande av NA. 6 prediktorer också interaktionsvillkor.

(Jag vänder inte på barn för att se om de hamnar uppåt.)

Jag är benägen att exponentiera koefficienterna till oddskvoter. Har detta samma betydelse i båda?

Det finns något som lurar bakom mig om "marginella medel" i GEE-modeller. Jag behöver den biten förklaras för mig.

Tack.

Följande CV-frågor diskuterar också detta material: [Skillnad mellan generaliserade linjära modeller och generaliserade linjära blandade modeller i SPSS] (http://stats.stackexchange.com/questions/32419/); [När ska man använda generaliserade estimeringsekvationer jämfört med modeller för blandade effekter?] (Http://stats.stackexchange.com/questions/16390/).
Ett svar:
user5594
2011-10-22 08:11:41 UTC
view on stackexchange narkive permalink

När det gäller tolkningen av koefficienterna finns det en skillnad i det binära fallet (bland andra). Vad som skiljer sig mellan GEE och GLMM är mål för slutsats: befolkningsmedelvärde eller ämnesspecifikt .

Låt oss överväga ett enkelt, existerande exempel relaterat till ditt. Du vill modellera felfrekvensen mellan pojkar och flickor i en skola. Som med de flesta (grundskolor) delas elevpopulationen i klassrum. Du observerar ett binärt svar $ Y $ från $ n_i $ barn i $ N $ klassrum (dvs. $ \ sum_ {i = 1} ^ {N} n_ {i} $ binära svar grupperade efter klassrum), där $ Y_ {ij} = 1 $ om studenten $ j $ från klassrummet $ i $ klarat och $ Y_ {ij} = 0 $ om han / hon misslyckades. Och $ x_ {ij} = 1 $ om eleven $ j $ från klassrummet $ i $ är manlig och 0 annars.

För att få in den terminologi jag använde i första stycket kan du tänka på skolan som befolkningen och klassrummen är ämnen .

Tänk först på GLMM. GLMM passar en blandad effektmodell. Modellförhållandena på den fasta designmatrisen (som i det här fallet består av avlyssning och indikator för kön) och eventuella slumpmässiga effekter bland klassrum som vi inkluderar i modellen. I vårt exempel, låt oss inkludera en slumpmässig avlyssning, $ b_i $, som tar hänsyn till grundlinjeskillnaderna i misslyckande bland klassrum. Så vi modellerar

$ \ log \ left (\ frac {P (Y_ {ij} = 1)} {P (Y_ {ij} = 0)} \ mid x_ {ij}, b_i \ höger) = \ beta_0 + \ beta_1 x_ {ij} + b_i $

Oddsförhållandet mellan risken för misslyckande i ovanstående modell skiljer sig utifrån värdet på $ b_i $ som skiljer sig mellan klassrummen. Uppskattningarna är alltså ämnesspecifika

GEE, däremot, passar en marginalmodell. Dessa modeller befolkningsgenomsnitt . Du modellerar förväntningarna endast på din fasta designmatris.

$ \ log \ left (\ frac {P (Y_ {ij} = 1)} {P (Y_ {ij} = 0) } \ mid x_ {ij} \ right) = \ beta_0 + \ beta_1 x_ {ij} $

Detta står i motsats till modeller med blandad effekt som förklaras ovan vilket villkor för både den fasta designmatrisen och de slumpmässiga effekterna. Så med den marginella modellen ovan säger du, "glöm skillnaden mellan klassrum, jag vill bara ha befolkningen (skolmässigt) misslyckande och dess koppling till kön." Du passar modellen och får ett oddsförhållande som är populationsgenomsnitt odds för misslyckande associerat med kön.

Så du kanske tycker att dina uppskattningar från din GEE-modell kan skilja sig dina uppskattningar från din GLMM-modell och det beror på att de inte uppskattar samma sak.

(När det gäller att konvertera från log-odds-förhållande till odds-förhållande genom exponentiering, ja, gör du det oavsett om det är en befolkningsnivå eller ämnesspecifik uppskattning)

Några anteckningar / litteratur:

För det linjära fallet är populationsgenomsnittet och ämnesspecifika uppskattningar desamma.

Zeger, et al . 1988 visade att för logistisk regression

$ \ beta_M \ approx \ left [\ left (\ frac {16 \ sqrt {3}} {15 \ pi} \ right) ^ 2 V +1 \ right] ^ {- 1/2} \ beta_ {RE} $

där $ \ beta_M $ är de marginella uppskattningarna, $ \ beta_ {RE} $ är de ämnesspecifika uppskattningarna och $ V $ är variansen av de slumpmässiga effekterna.

Molenberghs, Verbeke 2005 har ett helt kapitel om marginalmodeller mot slumpmässiga effekter.

Jag lärde mig om detta och relaterat material i en kurs baserad mycket på Diggle, Heagerty, Liang, Zeger 2002, en stor referens.

Mike: Är det alltför enkelt att säga att en GEE är genomsnittlig över de slumpmässiga effekterna?
@B_Miner Inte alltför enkelt alls, det är precis vad du gör :)
@Mike Wierzbicki: Trevligt och rent svar, Mike! En liten detalj som jag kan lägga till i din "Några anteckningar / litteratur": GEE och GLMM är samma i linjära fall (Gaussiskt svar, identitetslänk) bara när du anger en utbytbar korrelationsmatris för GEE.
Finns det inte en ämnesspecifik GEE också?
@MikeWierzbicki Så om jag förstår dig rätt, är en GEE inget annat än en enkel blandad effektmodell utan slumpmässiga effekter (vilket gör det till en enkel icke-linjär regressionslinje)?
@user5594 så vad betyder β1 i GLMM?


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...