Hur jämförs metoder för reglering av ås, LASSO och elasticnet? Vilka är deras respektive fördelar och nackdelar? Alla bra tekniska uppsatser eller föreläsningsanteckningar skulle också uppskattas.
Hur jämförs metoder för reglering av ås, LASSO och elasticnet? Vilka är deras respektive fördelar och nackdelar? Alla bra tekniska uppsatser eller föreläsningsanteckningar skulle också uppskattas.
I The Elements of Statistical Learning boken Hastie et al. ge en mycket insiktsfull och grundlig jämförelse av dessa krympningstekniker. Boken finns tillgänglig online ( pdf). Jämförelsen görs i avsnitt 3.4.3, sida 69.
Huvudskillnaden mellan Lasso och Ridge är strafftermen de använder. Ridge använder $ L_2 $ straffterm som begränsar storleken på koefficientvektorn. Lasso använder $ L_1 $ straff som påför sparsitet bland koefficienterna och därmed gör den monterade modellen mer tolkbar. Elasticnet introduceras som en kompromiss mellan dessa två tekniker och har en straff som är en blandning av $ L_1 $ och $ L_2 $ normer.
För att sammanfatta, här är några framträdande skillnader mellan Lasso, Ridge och Elastic-net:
Jag rekommenderade starkt att du tittar på En introduktion till statistisk inlärning bok (Tibshirani et al, 2013).
Anledningen till detta är att Elementen för statistiskt lärande är avsedd för personer med avancerad utbildning inom matematiska vetenskaper. I förordet till ISL skriver författarna:
En Introduktion till statistiskt lärande uppstod från det upplevda behovet av en bredare och mindre teknisk behandling av dessa ämnen. [...]
En introduktion till statistiskt lärande är lämplig för avancerade studenter eller magisterstudenter inom statistik eller relaterade kvantitativa områden eller för individer inom andra discipliner som vill använda statistiskt lärande verktyg för att analysera deras data.
Ovanstående svar är mycket tydliga och informativa.Jag vill lägga till en mindre poäng ur statistikperspektivet.Ta åsen regression som ett exempel.Det är en förlängning av den ordinarie minst kvadratiska regressionen för att lösa multikollinearitetsproblemen när det finns många korrelerade funktioner.Om den linjära regressionen är
Y = Xb + e
Den normala ekvationslösningen för multipel linjär regression
b = inv (X.T * X) * X.T * Y
Den normala ekvationslösningen för åsregression är
b = inv (X.T * X + k * I) * X.T * Y.
Det är en partisk uppskattning för b och vi kan alltid hitta en straffterm k som gör det genomsnittliga kvadratfelet för Ridge-regression mindre än för OLS-regression.
För LASSO och Elastic-Net kunde vi inte hitta en sådan analytisk lösning.