Algoritmer för automatiskt modellval

S4M

2012-01-10 00:22:24 UTC

view on stackexchange narkive permalink

Jag skulle vilja implementera en algoritm för automatiskt modellval. Jag funderar på att göra stegvis regression men allt kommer att göra (det måste dock baseras på linjära regressioner).

Mitt problem är att jag inte kan hitta en metodik eller en öppen källkodsimplementering (jag vaknar i java). Metoden jag har i åtanke skulle vara ungefär som:

beräkna korrelationsmatrisen för alla faktorer
välj de faktorer som har låg korrelation till varandra
ta bort de faktorer som har låg t-stat
lägg till andra faktorer (fortfarande baserat på den låga korrelationsfaktorn som finns i 2.).
upprepa flera gånger tills några kriterium (t.ex. AIC) är över ett visst tröskelvärde eller kan inte eller vi kan inte hitta ett större värde.

Jag inser att det finns en R-implementering för detta (stepAIC), men jag tycker att kod ganska svår att förstå. Jag har inte heller kunnat hitta artiklar som beskriver den stegvisa regressionen.

Uppriktigt sagt, jag tror att detta är en * katastrofal * idé, nästan garanterat att leda till många falska slutsatser.

@gung: medan jag håller med om att följa resultatet av ett modellval blindt är en dålig idé, jag tror att det kan vara användbart som utgångspunkt för en analys. I mitt fall har jag flera hundra faktorer tillgängliga, och jag vill välja de 5-10 mest relevanta. Jag kan inte se hur jag skulle kunna göra det utan automatiskt modellval (som senare kommer att ändras manuellt).

* Alla * modellvalsförfaranden är föremål för de problem som jag diskuterar i mitt svar nedan. Dessutom, ju större antal möjliga faktorer du vill söka över, desto mer extrema blir problemen och ökningen är inte linjär. Även om det finns några bättre tillvägagångssätt (diskuterade av @Zach), som bör användas i kombination med korsvalidering (diskuterat av @JackTanner), är valet baserat på t, r och AIC inte bland dem. Dessutom, med hundratals faktorer kan mängden data som behövs lätt vara i miljoner. Tyvärr har du en * mycket * svår uppgift framför dig.

Vad är syftet med att göra modellval? Är det för en förutsägbar / prognosmodell eller letar du efter de viktiga variablerna? Hur stor är också datauppsättningen du använder - hur många obsevationer och hur många variabler?

Jag säger alltid se upp för automatiska algoritmer. Det hjälper alltid att inkludera kunskap om ämnet. Stegvisa procedurer har problem. Jag skulle betala för att du skulle läsa en av de många böcker som finns tillgängliga för modellval.

Vad sägs om bootStepAIC-paketet i R?

Intressanta åsikter här, men jag tycker att den negativa synen på algoritmiska modellvalsprocedurer är lite daterad.Ta till exempel det senaste arbetet av David Hendry inom ekonometrik, särskilt hans arbete med PcGive-programvaran och mättnadsmetoder.En föreläsning som ger en översikt över hans tillvägagångssätt finns [här] (https://www.youtube.com/watch?v=2zzI2fN1ebc).Som @MichaelChernick har påpekat (och Hendry skulle göra det också!), Är kunskap om ämnet (mycket) viktigt.Det är därför det finns värde hos ämnespecialister - att låta algoritmerna agera ensamma är misstaget.