Båda testerna modellerar implicit åldersresponsförhållandet, men de gör det på olika sätt. Vilken som ska väljas beror på hur du väljer att modellera det förhållandet. Ditt val borde bero på en underliggande teori, om det finns en; om vilken typ av information du vill hämta från resultaten; och hur provet väljs. I det här svaret diskuteras dessa tre aspekter i ordning.
Jag kommer att beskriva t-testet och logistisk regression med hjälp av språk som antar att du studerar en väldefinierad befolkning och vill göra slutsatser från urval till denna population.
För att stödja någon form av statistisk slutsats måste vi anta att urvalet är slumpmässigt.
-
Ett t-test antar att personerna i urvalet som svarar "nej" är ett enkelt slumpmässigt urval av alla nej-respondenter i befolkningen och att personerna i urvalet som svarar "ja" är ett enkelt slumpmässigt urval av alla ja-respondenter i befolkningen .
Ett t-test gör ytterligare tekniska antaganden om åldersfördelningarna inom var och en av de två grupperna i befolkningen. Olika versioner av t-testet finns för att hantera de troliga möjligheterna.
-
Logistisk regression förutsätter att alla människor i alla åldrar är ett enkelt slumpmässigt urval av folket i den åldern i befolkningen. De separata åldersgrupperna kan uppvisa olika "ja" -svar. Dessa hastigheter, när de uttrycks som loggodds (snarare än som raka proportioner), antas vara linjärt relaterade till ålder (eller med vissa bestämda åldersfunktioner).
Logistisk regression utökas lätt för att tillgodose icke-linjära förhållanden mellan ålder och respons. En sådan förlängning kan användas för att utvärdera troligheten av det initiala linjära antagandet. Det är praktiskt möjligt med stora datamängder, som ger tillräckligt med detaljer för att visa icke-linjärer, men det är osannolikt att det kommer att vara till stor nytta med små datamängder. En vanlig tumregel - att regressionsmodeller ska ha tio gånger så många observationer som parametrar - antyder att väsentligen mer än 20 observationer behövs för att detektera icke-linjäritet (som behöver en tredje parameter förutom avlyssning och lutning av en linjär funktion ).
Ett t-test upptäcker om medelåldern skiljer sig mellan nej- och ja-respondenter i befolkningen. En logistisk regression uppskattar hur svarsfrekvensen varierar efter ålder. Som sådan är den mer flexibel och kan ge mer detaljerad information än t-testet är. Å andra sidan tenderar det att vara mindre kraftfullt än t-testet för det grundläggande syftet att detektera en skillnad mellan medelåldern i grupperna.
Det är möjligt för testparet att visa alla fyra kombinationer av betydelse och icke-betydelse. Två av dessa är problematiska:
-
T-testet är inte signifikant men den logistiska regressionen är. När antagandena från båda testerna är rimliga, är en sådan resultatet är praktiskt taget omöjligt, eftersom t-testet inte försöker upptäcka ett sådant specifikt förhållande som uppges av logistisk regression. Men när det förhållandet är tillräckligt olinjärt för att orsaka att de äldsta och yngsta ämnena delar en åsikt och medelålders ämnen en annan, kan utvidgningen av logistisk regression till icke-linjära relationer upptäcka och kvantifiera den situationen, som inget t-test kunde upptäcka .
T-testet är signifikant men den logistiska regressionen är inte, som i frågan. Detta händer ofta, speciellt när det finns en grupp yngre respondenter, en grupp äldre respondenter och få människor däremellan. Detta kan skapa en stor åtskillnad mellan svarsfrekvensen för nej- och ja-svarare. Det detekteras lätt av t-testet. Logistisk regression skulle emellertid antingen ha relativt lite detaljerad information om hur svarsfrekvensen faktiskt förändras med åldern eller annars skulle den ha otillräcklig information: fallet med "fullständig separation" där alla äldre svarar på ett sätt och alla yngre på ett annat sätt - men i så fall skulle båda testerna vanligtvis ha mycket låga p-värden.
Observera att den experimentella designen kan ogiltigförklara några av testantagandena. Till exempel, om du valde personer enligt deras ålder i en stratifierad design, blir t-testets antagande (att varje grupp återspeglar ett enkelt slumpmässigt urval av åldrar) ifrågasättande. Denna design skulle föreslå att man förlitar sig på logistisk regression. Om du istället hade två pooler, en av nej-svarare och en av ja-svarare, och valt slumpmässigt bland dem för att fastställa deras ålder, är antagandena om provtagning av logistisk regression tveksamma medan de i t-testet kommer att hålla. Den designen skulle föreslå att du använder någon form av ett t-test.
(Den andra designen kan verka dum här, men under omständigheter där "ålder" ersätts med något kännetecken som är svårt, kostsamt eller tids- konsumerar att mäta det kan vara tilltalande.)