Fråga:
Logistisk regression eller T-test?
Gwen
2015-06-29 06:54:38 UTC
view on stackexchange narkive permalink

En grupp personer svarar på en fråga. Svaret kan vara "ja" eller "nej". Forskaren vill veta om ålder är associerad med typen av svar.

Föreningen bedömdes genom att göra en logistisk regression där ålder är den förklarande variabeln och typ av svar (ja, nej) är den beroende variabeln. Det behandlades separat genom att beräkna medelåldern för grupperna som svarade "ja" respektive "nej" och genom att genomföra ett T test för att jämföra medel.

Båda testerna utfördes enligt råd från olika personer, och ingen av dem är säker på vilken rätt väg att gå. Med tanke på forskningsfrågan, vilket skulle vara det bättre testet?

För hypotesprovning var p-värdena inte signifikanta (regression) och signifikanta (T-test). Provet är mindre än 20 fall.

Jag är inte säker på att detta blir din verkliga fråga.Du har redan kört båda analyserna du frågar om.Jag antar att det du verkligen vill veta är något om jämförelser mellan eller förhållandet mellan dessa tester, till exempel vilket är bättre.Redigera din fråga för att åtgärda det.
Båda testerna utfördes efter råd från olika personer, och ingen av dem är säker på om detta är rätt väg att gå.Med tanke på forskningsfrågorna (är ålder associerad med typen av svar?) Vilket skulle vara det bättre testet, logistisk regression av typen av svar på ålder eller ett T-test som jämför medelåldern de personer som svarade "ja" med medelvärdetålder för de personer som svarade "nej"?
Tre svar:
whuber
2015-06-29 22:33:05 UTC
view on stackexchange narkive permalink

Båda testerna modellerar implicit åldersresponsförhållandet, men de gör det på olika sätt. Vilken som ska väljas beror på hur du väljer att modellera det förhållandet. Ditt val borde bero på en underliggande teori, om det finns en; om vilken typ av information du vill hämta från resultaten; och hur provet väljs. I det här svaret diskuteras dessa tre aspekter i ordning.


Jag kommer att beskriva t-testet och logistisk regression med hjälp av språk som antar att du studerar en väldefinierad befolkning och vill göra slutsatser från urval till denna population.

För att stödja någon form av statistisk slutsats måste vi anta att urvalet är slumpmässigt.

  • Ett t-test antar att personerna i urvalet som svarar "nej" är ett enkelt slumpmässigt urval av alla nej-respondenter i befolkningen och att personerna i urvalet som svarar "ja" är ett enkelt slumpmässigt urval av alla ja-respondenter i befolkningen .

    Ett t-test gör ytterligare tekniska antaganden om åldersfördelningarna inom var och en av de två grupperna i befolkningen. Olika versioner av t-testet finns för att hantera de troliga möjligheterna.

  • Logistisk regression förutsätter att alla människor i alla åldrar är ett enkelt slumpmässigt urval av folket i den åldern i befolkningen. De separata åldersgrupperna kan uppvisa olika "ja" -svar. Dessa hastigheter, när de uttrycks som loggodds (snarare än som raka proportioner), antas vara linjärt relaterade till ålder (eller med vissa bestämda åldersfunktioner).

    Logistisk regression utökas lätt för att tillgodose icke-linjära förhållanden mellan ålder och respons. En sådan förlängning kan användas för att utvärdera troligheten av det initiala linjära antagandet. Det är praktiskt möjligt med stora datamängder, som ger tillräckligt med detaljer för att visa icke-linjärer, men det är osannolikt att det kommer att vara till stor nytta med små datamängder. En vanlig tumregel - att regressionsmodeller ska ha tio gånger så många observationer som parametrar - antyder att väsentligen mer än 20 observationer behövs för att detektera icke-linjäritet (som behöver en tredje parameter förutom avlyssning och lutning av en linjär funktion ).

Ett t-test upptäcker om medelåldern skiljer sig mellan nej- och ja-respondenter i befolkningen. En logistisk regression uppskattar hur svarsfrekvensen varierar efter ålder. Som sådan är den mer flexibel och kan ge mer detaljerad information än t-testet är. Å andra sidan tenderar det att vara mindre kraftfullt än t-testet för det grundläggande syftet att detektera en skillnad mellan medelåldern i grupperna.

Det är möjligt för testparet att visa alla fyra kombinationer av betydelse och icke-betydelse. Två av dessa är problematiska:

  • T-testet är inte signifikant men den logistiska regressionen är. När antagandena från båda testerna är rimliga, är en sådan resultatet är praktiskt taget omöjligt, eftersom t-testet inte försöker upptäcka ett sådant specifikt förhållande som uppges av logistisk regression. Men när det förhållandet är tillräckligt olinjärt för att orsaka att de äldsta och yngsta ämnena delar en åsikt och medelålders ämnen en annan, kan utvidgningen av logistisk regression till icke-linjära relationer upptäcka och kvantifiera den situationen, som inget t-test kunde upptäcka .

  • T-testet är signifikant men den logistiska regressionen är inte, som i frågan. Detta händer ofta, speciellt när det finns en grupp yngre respondenter, en grupp äldre respondenter och få människor däremellan. Detta kan skapa en stor åtskillnad mellan svarsfrekvensen för nej- och ja-svarare. Det detekteras lätt av t-testet. Logistisk regression skulle emellertid antingen ha relativt lite detaljerad information om hur svarsfrekvensen faktiskt förändras med åldern eller annars skulle den ha otillräcklig information: fallet med "fullständig separation" där alla äldre svarar på ett sätt och alla yngre på ett annat sätt - men i så fall skulle båda testerna vanligtvis ha mycket låga p-värden.

Observera att den experimentella designen kan ogiltigförklara några av testantagandena. Till exempel, om du valde personer enligt deras ålder i en stratifierad design, blir t-testets antagande (att varje grupp återspeglar ett enkelt slumpmässigt urval av åldrar) ifrågasättande. Denna design skulle föreslå att man förlitar sig på logistisk regression. Om du istället hade två pooler, en av nej-svarare och en av ja-svarare, och valt slumpmässigt bland dem för att fastställa deras ålder, är antagandena om provtagning av logistisk regression tveksamma medan de i t-testet kommer att hålla. Den designen skulle föreslå att du använder någon form av ett t-test.

(Den andra designen kan verka dum här, men under omständigheter där "ålder" ersätts med något kännetecken som är svårt, kostsamt eller tids- konsumerar att mäta det kan vara tilltalande.)

Kommer inte det mesta av olinjäritets- och separationsproblemen att lindras genom att använda en spline på åldersvariabeln?I den frågan ber jag om ursäkt men jag kan inte se varför den "sammanslagna" designen skulle ogiltigförklara * upptäckten * av den logistiska regressionen.Visst, antagandet att slumpmässigt urval är borta men bryr vi oss med tanke på att vi gör detta designval?Hänvisar du till urvalsbias?(Designen du beskriver verkar som en fallkontrollstudie för mig men jag kan ha fel ...) (+1 uppenbarligen)
@usεr11852 Tack för dina omtänksamma kommentarer.Jag har skrivit om några avsnitt för att klargöra de punkter du tar upp.Även om åldersfördelningen kan hantera olinjäritet i logistisk regression, kan det öka möjligheten till fullständig separation.Jag är inte säker på vad du menar med "poolad design", men jag skulle vara misstänksam mot ansträngningar att tolka p-värdena för en logistisk regression där en sannolikhetsmodell inte kan motiveras (vilket är vad slumpmässig provtagning gör det möjligt för oss att göra).
Tack för dessa.Ja, jag uppskattar till fullo den punkt du säger om fullständig separation (Hauck-Donner-effekter), jag tänkte inte på dem.OK, jag förstår vad du menar nu om det om de två poolerna nu.I så fall skulle vi ha ett överenskommet observationsstudiekoncept (vi observerar / definierar de två poolerna) så vi borde leta efter sätt att kontrollera det (benägenhetspoäng etc.)
Jarle Tufto
2017-07-01 16:30:25 UTC
view on stackexchange narkive permalink

Detta svarar inte riktigt på frågan men kan fortfarande vara av något intresse. Standardantagandet för ett tvåprov $ t $ -test är att den villkorliga normalfördelningen av $ X $ givet en binär variabel $ Y $, $$ X | Y = i \ sim N (\ mu_i, \ sigma ^ 2). $$ Detta tillsammans med antagandet att $ Y \ sim \ operatorname {bernoulli} (p) $ marginellt, innebär att den villkorliga fördelningen av den binära variabeln $ Y $ givet $ X = x $ är \ begin {align} P (Y = 1 | X = x) & = \ frac {f_ {X | Y = 1} (x) P (Y = 1)} {\ sum_ {i = 0} ^ 1 f_ {X | Y = i} (x) P (Y = i) } \\ & = \ frac {pe ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_1) ^ 2}} {pe ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_1) ^ 2} + (1-p) e ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_0) ^ 2}} \\ & = \ frac1 {1+ \ frac {1-p} pe ^ {- \ frac1 {2 \ sigma ^ 2} (x- \ mu_0) ^ 2 + \ frac1 {2 \ sigma ^ 2} (x- \ mu_1) ^ 2}} \\ & = \ operatornamn {logit} ^ {- 1} (\ beta_0 + \ beta_1 x) \ end {align} det vill säga en logistisk regressionsmodell med avlyssning och lutning \ starta {align} \ beta_0 & = \ ln \ frac p {1-p} - \ frac1 {2 \ sigma ^ 2} (\ mu_1 ^ 2- \ mu_0 ^ 2) \\ \ beta_1& = \ frac1 {\ sigma ^ 2} (\ mu_1- \ mu_0). \ end {align}

Så i den meningen är de två villkorliga modellerna kompatibla.

John
2015-06-29 15:06:01 UTC
view on stackexchange narkive permalink

Det bättre testet är det som bättre behandlar din fråga. Inte heller är det bättre i ansiktet. Skillnaderna här är ekvivalenta med de som man hittar när man återgår till y på x och x på y och orsakerna till olika resultat är lika. Variansen som bedöms beror på vilken variabel som behandlas som svarsvariabel i modellen.

Din forskningsfråga är väldigt vag. Kanske om du funderade på kausalitetsriktning skulle du kunna komma till en slutsats om vilken analys du vill använda. Förorsakar ålder att människor svarar "ja" eller svarar "ja" att folk blir äldre? Det är mer troligt det förra, i vilket fall variansen i sannolikheten för ett "ja" är vad du vill modellera och därför är logistisk regression det bästa valet.

Med detta sagt bör du undersöka antaganden om testerna. Dessa finns online på wikipedia eller i dina läroböcker. Det kan mycket väl vara så att du har goda skäl att inte utföra den logistiska regressionen och när det händer kan du behöva ställa en annan fråga.

Menar du "att inte utföra den logistiska regressionen"?


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...