Ås, lasso och elastiskt nät

Fråga:

user3269

2014-04-09 19:40:52 UTC

view on stackexchange narkive permalink

Hur jämförs metoder för reglering av ås, LASSO och elasticnet? Vilka är deras respektive fördelar och nackdelar? Alla bra tekniska uppsatser eller föreläsningsanteckningar skulle också uppskattas.

Fyra svar:

MMM

2014-04-09 20:36:46 UTC

view on stackexchange narkive permalink

I The Elements of Statistical Learning boken Hastie et al. ge en mycket insiktsfull och grundlig jämförelse av dessa krympningstekniker. Boken finns tillgänglig online ( pdf). Jämförelsen görs i avsnitt 3.4.3, sida 69.

Huvudskillnaden mellan Lasso och Ridge är strafftermen de använder. Ridge använder $ L_2 $ straffterm som begränsar storleken på koefficientvektorn. Lasso använder $ L_1 $ straff som påför sparsitet bland koefficienterna och därmed gör den monterade modellen mer tolkbar. Elasticnet introduceras som en kompromiss mellan dessa två tekniker och har en straff som är en blandning av $ L_1 $ och $ L_2 $ normer.

Det är en underbar referensbok.

också för att författarna är uppfinnare av dessa tekniker!

Tack för att du gav oss en referens till den här vackra boken

Jag rekommenderar starkt avsnitt 18.4 också, sidorna 661-668.Ger mer information om lasso vs. elastiskt nät.

Länken till boken är död den 14 oktober 2016

Ny länk: http://statweb.stanford.edu/~tibs/ElemStatLearn/

@Bakaburg De är * uppfinnarna * dvs det här är inte "gamla" tekniker ??

AKAIK Tibshirani och / eller Hastie är uppfinnaren eller åtminstone en av de största förbättringarna av L1- och L2-regleringstekniker för regression, särskilt det elastiska nätet.Men kanske har jag fel :)

balaks

2016-10-14 18:22:42 UTC

view on stackexchange narkive permalink

För att sammanfatta, här är några framträdande skillnader mellan Lasso, Ridge och Elastic-net:

Lasso gör ett glest urval medan Ridge inte gör det.
När du har starkt korrelerade variabler krymper Ridge-regression de två koefficienterna mot varandra. Lasso är något likgiltig och väljer i allmänhet varandra. Beroende på sammanhang vet man inte vilken variabel som väljs. Elastic-net är en kompromiss mellan de två som försöker krympa och göra ett glest urval samtidigt.
Ridge estimators är likgiltiga med multiplikativ skalning av data. Det vill säga om både X- och Y-variabler multipliceras med konstanter, ändras inte koefficienterna för passningen för en given parameter $ \ lambda $. För Lasso är passformen dock inte oberoende av skalningen. Faktum är att parametern $ \ lambda $ måste skalas upp med multiplikatorn för att få samma resultat. Det är mer komplext för elastiskt nät.
Ridge straffar de största $ \ beta $ mer än det straffar de mindre (eftersom de är kvadratiska på straffperioden). Lasso straffar dem mer enhetligt. Detta kan eller kanske inte vara viktigt. I ett prognosproblem med en kraftfull prediktor krymper prediktorens effektivitet av Ridge jämfört med Lasso.

@ balaks för den andra punkten som du gjorde, vad betyder det för "man vet inte vilken variabel som väljs"?Menade du att LASSO är likgiltig, så det slumpmässigt väljer en så att vi inte riktigt vet vilken som är bäst?

jeza

2016-07-23 19:53:18 UTC

view on stackexchange narkive permalink

Jag rekommenderade starkt att du tittar på En introduktion till statistisk inlärning bok (Tibshirani et al, 2013).

Anledningen till detta är att Elementen för statistiskt lärande är avsedd för personer med avancerad utbildning inom matematiska vetenskaper. I förordet till ISL skriver författarna:

En Introduktion till statistiskt lärande uppstod från det upplevda behovet av en bredare och mindre teknisk behandling av dessa ämnen. [...]

En introduktion till statistiskt lärande är lämplig för avancerade studenter eller magisterstudenter inom statistik eller relaterade kvantitativa områden eller för individer inom andra discipliner som vill använda statistiskt lärande verktyg för att analysera deras data.

Kan du utarbeta varför du tyckte att den här referensen var användbar?

Det är bra att citera en bok, men markera den som en offert och inte som din egen text.Annars är det plagiering.Jag redigerade det åt dig nu.

Emma

2018-12-17 13:25:45 UTC

view on stackexchange narkive permalink

Ovanstående svar är mycket tydliga och informativa.Jag vill lägga till en mindre poäng ur statistikperspektivet.Ta åsen regression som ett exempel.Det är en förlängning av den ordinarie minst kvadratiska regressionen för att lösa multikollinearitetsproblemen när det finns många korrelerade funktioner.Om den linjära regressionen är

  Y = Xb + e

Den normala ekvationslösningen för multipel linjär regression

  b = inv (X.T * X) * X.T * Y

Den normala ekvationslösningen för åsregression är

  b = inv (X.T * X + k * I) * X.T * Y.

Det är en partisk uppskattning för b och vi kan alltid hitta en straffterm k som gör det genomsnittliga kvadratfelet för Ridge-regression mindre än för OLS-regression.

För LASSO och Elastic-Net kunde vi inte hitta en sådan analytisk lösning.

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.

about - legalese