(Varför) Är absolut förlust inte en ordentlig poängregel?

Fråga:

(Varför) Är absolut förlust inte en ordentlig poängregel?

Dave

2020-06-24 03:43:00 UTC

view on stackexchange narkive permalink

Brier-poäng är en korrekt poängregel och är, åtminstone i fallet med binär klassificering, kvadratförlust.

$$ Brier (y, \ hat {y}) = \ frac {1} {N} \ sum_ {i = 1} ^ N \ big \ vert y_i - \ hatt {y} _i \ big \ vert ^ 2 $$

Tydligen kan detta justeras för när det finns tre eller flera klasser.

I ett annat inlägg på Cross Validated nämns att absolut förlust inte är en ordentlig poängregel.

$$ absoluteLoss (y, \ hat {y}) = \ frac {1} {N} \ sum_ {i = 1} ^ N \ big \ vert y_i - \ hat {y} _i \ big \ vert $$

Det verkar vara tillräckligt lika med Brier-poäng att det ska vara en ordentlig poängregel.

Varför är absolut förlust inte en ordentlig poängregel?
Är absolut förlust en korrekt poängregel i fallet med binär klassificering som förlorar sin "riktighet" när det finns fler än två utgångskategorier?
Kan absolut förlust brytas med som Brier-poäng för att få en korrekt form när det finns mer än två klasser?

Åtminstone i binärt fall har absolut förlust en enklare tolkning än Brier-poäng eller kvadratroten av Brier-poäng genom att det säger den genomsnittliga mängden med vilken en förutsagd sannolikhet skiljer sig från det observerade resultatet, så jag skulle vilja ha ett sätt för absolut förlust att vara korrekt.

Tre svar:

doubled

2020-06-24 04:40:35 UTC

view on stackexchange narkive permalink

Låt oss först se till att vi är överens om definitioner. Tänk på en binär slumpmässig variabel $ Y \ sim \ text {Ber} (p) $ och överväg en förlustfunktion $ L (y_i | s) $ , där $ s $ är en uppskattning av $ p $ med uppgifterna. I dina exempel är $ s $ en funktion av observerade data $ y_1, \ dots, y_n $ med $ s = \ hat {p} $ . Brier-poängförlustfunktionen är $ L_b (y_i, s) = | y_i - s | ^ 2 $ , och den absoluta förlustfunktionen är $ L_a (y_i | s) = | y_i - s | $ . En förlustfunktion har en förväntad förlust $ E_Y (L (Y | s)): = R (p | s) $ . En förlustfunktion är en perper poängregel om den förväntade förlusten $ R (p | s) $ minimeras med avseende på $ s $ genom att ställa in $ s = p $ för alla $ p \ in (0,1) $ .

Ett praktiskt knep för att verifiera detta är att använda den binära karaktären av $ Y $ , som för alla förväntade förluster har vi $$ R (p | s) = pL (1 | s) + (1-p) L (0 | s) $$

Låt oss börja med att verifiera att Bier-förlustfunktionen är en korrekt poängregel. Observera att $ L_b (1 | s) = | 1-s | ^ 2 = (1-s) ^ 2 $ och $ L_b (0 | s) = s ^ 2 $ , så med hjälp av ovanstående har vi $$ R_b (p | s) = p (1-s) ^ 2 + (1-p) s ^ 2 $$

och tar derivat av den funktionen wrt till $ s $ och inställningen till $ 0 $ ger dig att valet av $ s = p $ minimerar den förväntade risken. Så Brier-poängen är verkligen en riktig poängregel.

Däremot, när vi påminner om den binära karaktären av $ Y $ , kan vi skriva den absoluta förlusten $ L_a $ span> som $$ L_a (y | s) = y (1-s) + (1-y) s $$ som $ y \ i \ {0,1 \} $ . Som sådan har vi det $$ R_a (p | s) = p (1-s) + (1-p) s = p + s - 2ps $$

Tyvärr minimeras $ R_a (p | s) $ inte av $ s = p $ , och genom att överväga kantfall kan du visa att $ R_a (p | s) $ minimeras med $ s = 1 $ när $ p>.5 $ , och av $ s = 0 $ när $ p<.5 $ och håller för val av $ s $ när $ p = .5 $ .

Så för att svara på dina frågor är absolut förlust inte en ordentlig poängregel, och det behöver inte med antalet utmatningskategorier. När det gäller huruvida det kan brottas kan jag verkligen inte tänka på ett sätt ... Jag tror att sådana försök att tänka på liknande tillvägagångssätt förmodligen leder dig till Brier-poängen :).

Edit:

Som svar på OP: s kommentar, notera att den absoluta förlustmetoden i grunden uppskattar medianen för $ Y $ , som i binär fallet förväntas antingen $ 0 $ eller $ 1 $ beroende på $ p $ . Den absoluta förlusten straffar bara inte det alternativa valet tillräckligt för att du vill välja något annat än det värde som dyker upp mest. Däremot straffar det kvadrerade felet alternativet tillräckligt för att hitta en mellanliggande väg som sammanfaller med medelvärdet $ p $ . Detta bör också markera att det inte är något fel med att använda absolut förlust som klassificerare, och du kan tänka på det relaterat till att bestämma, för ett givet problem, om du bryr dig mer om medelvärdet eller medianen. För binär data skulle jag personligen säga att medelvärdet är mer intressant (att veta medianen säger om p > .5, men att veta medelvärdet säger ett mer exakt uttalande om $ p $ ), men det beror på det. Som det andra inlägget också betonar är det inget fel med absolut förlust, det är bara inte en ordentlig poängregel.

Är intuitionen att absolut förlust inte skadar förlustvärdet allvarligt när det saknas mycket, så det gör inte att optimeringen vill gå bort från extremiteterna $ 0 $ och $ 1 $ mot de verkliga sannolikheterna?

@Dave japp, det är i grunden rätt.Jag uppdaterade mitt svar för att ta itu med frågan.

Redigeringen är till hjälp, tack.Vad sägs om klasserna inte är balanserade, samma sak eller en ny situation?

Samma exakt affär.Observera det subtila kravet att $ p \ in (0,1) $ (öppet intervall exklusive 0,1 själva).

Kanske är det dumt, eftersom $ p \ in \ {0,1 \} $ betyder att ett resultat är bokstavligen omöjligt, men vad händer om så är fallet?Är det ett praktiskt problem?

$ p = 1 $ betyder bokstavligen att den slumpmässiga variabeln är en degenererad slumpmässig variabel (en konstant), så i praktiken kommer detta aldrig upp (jag tror att de flesta begrepp fortfarande kommer att hålla .. Jag tror att $ p \ in (0,1)$ är för vissa specifika förlustfunktioner, men inte 100% säker på detta .. kanske klassificeringsförlustfunktionen blir konstig i så fall (det är en riktig poängregel som inte har en unik minimizer) ..?

Alla praktiska problem kommer att uppstå med massivt obalanserade fall (säg $ p = .99999 $), men detta är bara ett problem mer generellt med klassificeringsmetoder och uppskattning eftersom oddsen är att du inte kommer att observera $ 0 $ i så fall.Men det problemet har ingenting att göra med ordentliga poängregler eller någonting eftersom definitionen dras bort från de observerade uppgifterna genom att exakt ta förväntningar.

Thomas Lumley

2020-06-24 04:45:29 UTC

view on stackexchange narkive permalink

Ta ett enkelt exempel där $ p_i $ är kända sannolikheter och $ y_i $ är Bernoulli ( $ p_i $ ).

Vad är $ \ hat y_i $ ? Valet bästa är uppenbarligen $ \ hat y_i = p_i $ . Alternativt kan vi ta $ \ check y_i = 1 $ om $ p_i>0.5 $ och $ \ check y_i = 0 $ om $ p_i<0.5 $ .

Antag att $ p_i>0.5 $ (för enkelhetens skull).

Den förväntade Brier-förlusten av $ \ hat y_i $ är $ (1-p_i) ^ 2p_i + p_i ^ 2 (1-p_i) = 1-p_i ^ 2 $ . Den förväntade Brier-förlusten på $ \ check y_i $ är $ 0 ^ 2 \ gånger p_i + 1 ^ 2 \ gånger (1- p_i) = 1 $ , så $ \ hat y_i $ är att föredra framför $ \ kontrollera y_i $ span>.

Den förväntade absoluta förlusten av $ \ hat y_i $ är $ (1-p_i) p_i + p_i (1- p_i) = 2p_i (1-p_i) $ . Den förväntade Brier-förlusten av $ \ check y_i $ är $ 0 \ gånger p_i + 1 \ gånger (1-p_i) = 1 -p_i $ och sedan $ p_i>0.5 $ , $ 2p_i (1-p_i) > (1 -p_i) $ så $ \ check y_i $ är att föredra framför $ \ hat y_i $ .

Så att minimera absolut förlust får dig att säga att $ \ check y_i $ är bättre än true-sannolikhet $ \ hat y_i $ , vilket är vad det innebär att vara felaktig.

Observera att $ \ check y_i $ är medianen för $ Y_i | p_i $ , så det ärinte nödvändigtvis en bad-uppskattare.Och absolut fel är inte nödvändigtvis en bad-förlustfunktion.Det är bara ingen ordentlig poängregel.

Om du kommer att ha en kontinuerlig förlust som denna är korrekt måste den bestraffa stora fel mer än små fel, så det kommer inte att ha den tolkning du vill att den ska ha.

Nej, du får samma problem
Nej, du får samma problem

Har detta att göra med att medianen för en Bernoulli-distribution är antingen $ 0 $ eller $ 1 $ (eller kanske $ 1/2 $, beroende på hur vi definierar median)?

Ja, i grund och botten.

Högst upp skriver du att det bästa valet är "uppenbarligen" $ \ hat {y} _i = p_i $, och fortsätter sedan att visa att det bästa valet kan vara något helt annat.Så det är ju inte så uppenbart!Som du visar, [beror det på din förlustfunktion] (https://www.sciencedirect.com/science/article/pii/S0169207019301359?via%3Dihub).

Ja, det här är känslan av "uppenbarligen" som går med "ordentligt".

Chris Haug

2020-06-24 15:02:52 UTC

view on stackexchange narkive permalink

I en något annan riktning är ett sätt att titta på detta att överväga mer generellt den kontinuerliga rankade sannolikhetspoängen (CRPS), vilket är en korrekt poängregel.

För en förutsagd CDF $ F $ och en observation $ y $ definieras CRPS som detta:

$$ \ text {CRPS} (F, y) = \ int (F (z) -I (y \ leq z)) ^ 2dz $$

Intuitivt är det ett mått på avståndet mellan $ F $ och en perfekt förutsagd CDF som är exakt och utan osäkerhet (dvs. $ P [Y = y] = 1 $ ).

Låt oss begränsa oss till att $ y $ är antingen 0 eller 1. Om vår förutsägelse $ F $ är CDF för en Bernoulli-distribution med parameter $ \ hat {p} $ , då kan du visa ganska enkelt att:

$$ \ text {CRPS} (F, y) = (y- \ hat {p}) ^ 2 $$

Det vill säga CRPS minskar bara till Brier-poängen när observationerna är 0-1 och $ F $ är Bernoulli.

Vi vill hitta en distribution $ F $ som CRPS reducerar till absolut fel istället. En möjlighet är att ta den degenererade prognosen $ P [Y = \ hat {y}] = 1 $ . Det vill säga denna förutsägelse är att $ Y $ inte alls är slumpmässigt, och istället för att vara antingen 0 eller 1 är det alltid $ \ hat {y} $ . Sedan kan vi visa:

$$ \ text {CRPS} (F, y) = | y- \ hat {y} | $$

Som de andra svaren har visat minimeras detta antingen $ \ hat {y} = 0 $ eller $\ hat {y} = 1 $ .Detta borde inte vara särskilt förvånande;något annat värde betyder att i vår förutsägelse $ F $ är sannolikheten att antingen 0 eller 1 observeras noll, vilket inte borde ge dig en bra poäng med tanke på att viJag har antagit att det är de enda möjligheterna.

Sedan, i samband med 0-1-data, är att minimera det absoluta felet ungefär som att minimera CRPS (vilket är rätt) men över en klass av distributioner som inte innehåller Bernoulli-distributioner med $ 0 < p < 1 $ , så det är inte riktigt i allmänhet.

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 4.0-licensen som det distribueras under.

about - legalese

Loading...