Jag läste över Naive Bayes-klassificeringen idag. Jag läste under rubriken Parameteruppskattning med lägg till 1 utjämning :
Låt $ c $ hänvisa till en klass (som Positiv eller Negativ) och låt $ w $ referera till en token eller ett ord.
Maximal sannolikhetsuppskattning för $ P (w | c) $ är $$ \ frac {count (w, c)} {count (c)} = \ frac {\ text {räknar w i klass c}} {\ text {antal ord i klass c}}. $$
Denna uppskattning av $ P (w | c) $ kan vara problematisk eftersom det skulle ge oss sannolikhet $ 0 $ för dokument med okända ord. Ett vanligt sätt att lösa detta problem är att använda Laplace-utjämning.
Låt V vara uppsättningen ord i träningsuppsättningen, lägg till ett nytt element $ UNK $ (för okänd) till uppsättningen ord.
Definiera $$ P (w | c) = \ frac {\ text {count} (w , c) +1} {\ text {count} (c) + | V | + 1}, $$
där $ V $ hänvisar till ordförrådet (orden i träningssatsen).
Speciellt kommer alla okända ord att ha sannolikhet $$ \ frac {1} {\ text {count} (c) + | V | + 1}. $$
Min fråga är denna: varför bryr vi oss alls om denna Laplace-utjämning? Om dessa okända ord som vi stöter på i testuppsättningen har en sannolikhet som uppenbarligen är noll, dvs. $ \ frac {1} {\ text {count} (c) + | V | + 1} $ , vad är poängen med att inkludera dem i modellen? Varför inte bara bortse från och ta bort dem?