Här är ett enkelt leksaksexempel som illustrerar effekten av dimension i ett diskrimineringsproblem, t.ex. problemet du står inför när du vill säga om något observeras eller om bara slumpmässig effekt observeras (detta problem är en klassiker inom vetenskapen).
Heuristisk. Nyckelfrågan här är att den euklidiska normen ger samma betydelse för alla riktningar. Detta utgör en brist på tidigare, och som du säkert vet i hög dimension finns det ingen gratis lunch (dvs om du inte har någon tidigare uppfattning om vad du letar efter, så finns det ingen anledning till att lite buller inte skulle se ut som du är söker efter, detta är tautologi ...).
Jag skulle säga att det för alla problem finns en gräns för information som är nödvändig för att hitta något annat än buller. Denna gräns är på något sätt relaterad till "storleken" på det område du försöker utforska med avseende på "ljudnivån" (dvs. nivån på informativt innehåll).
I hög dimension, om du har tidigare att din signal är gles kan du ta bort (dvs straffa) icke gles vektor med ett mått som fyller utrymmet med gles vektor eller med hjälp av en tröskelvärde teknik.
Framework Anta att $ \ xi $ är en gaussisk vektor med genomsnittlig $ \ nu $ och diagonal kovarians $ \ sigma Id $ ($ \ sigma $ är känd) och att du vill testa den enkla hypotesen
$$ H_0: \; \ nu = 0, \; Vs \; H _ {\ theta}: \; \ nu = \ theta $$ (för en given $ \ theta \ i \ mathbb {R} ^ n $) $ \ theta $ är inte nödvändigtvis känd i förväg.
Testa statistik med energi . Intuitionen du verkligen har är att det är en bra idé att utvärdera normen / energin $ \ mathcal {E} _n = \ frac {1} {n} \ sum_ {i = 1} ^ n \ xi_i ^ 2 $ av dig observation $ \ xi $ för att bygga en teststatistik. Egentligen kan du konstruera en standardiserad centrerad (under $ H_0 $) version $ T_n $ av energin $ T_n = \ frac {\ sum_i \ xi_i ^ 2- \ sigma ^ 2} {\ sqrt {2n \ sigma ^ 4}} $ . Det gör en kritisk region på nivå $ \ alpha $ för formuläret $ \ {T_n \ geq v_ {1- \ alpha} \} $ för en väl vald $ v_ {1- \ alpha} $
Testets och dimensionens kraft. I det här fallet är det en enkel sannolikhetsövning att visa följande formel för kraften i ditt test:
$$ P _ {\ theta} (T \ leq v_ {1- \ alpha}) = P \ left (Z \ leq \ frac {v_ {1- \ alpha}} {\ sqrt {1 + 2 \ | \ theta \ | _2 ^ 2 / (n \ sigma ^ 2)}} - \ frac {\ | \ theta \ | ^ 2_2} {\ sqrt {2n \ sigma ^ 4 + 2 \ sigma ^ 2 \ | \ theta \ | _2 ^ 2 / (n \ sigma ^ 2)}} \ höger) $$ med $ Z $ en summa av $ n $ i slumpmässiga variabler med $ \ mathbb {E} [Z] = 0 $ och $ Var (Z) = 1 $.
Detta innebär att kraften i ditt test ökas med energin i din signal $ \ | \ theta \ | ^ 2_2 $ och minskas med $ n $. Praktiskt taget betyder det att när du ökar storleken $ n $ på ditt problem om det inte ökar signalens styrka samtidigt, lägger du till informativ information till din observation (eller så minskar du andelen användbar information i den information du har): det här är som att lägga till brus och minska testets kraft (dvs. det är mer troligt att du inte säger att något observeras medan det faktiskt finns något).
Mot ett test med en tröskelstatistik. Om du inte har mycket energi i din signal men om du känner till en linjär transformation som kan hjälpa dig att få denna energi koncentrerad till en liten del av din signal, då kan du bygga en teststatistik som bara utvärderar energin för den lilla delen av din signal. Om du i förväg visste var den är koncentrerad (till exempel visste du att det inte kan finnas höga frekvenser i din signal) kan du få en effekt i föregående test med $ n $ ersatt av ett litet antal och $ \ | \ theta \ | ^ 2_2 $ nästan samma ... Om du inte vet det i förväg måste du uppskatta det leder till välkända tröskelprov.
Observera att detta argument ligger precis till grund för många artiklar som
- A Antoniadis, F Abramovich, T Sapatinas och B Vidakovic. Wavelet-metoder för testning
i funktionell analys av variansmodeller. International Journal on Wavelets and itsapplications, 93: 1007–1021, 2004.
- M. V. Burnashef och Begmatov. På ett problem med signalavkänning som leder till stabil distribution. Teori om sannolikhet och dess tillämpningar, 35 (3): 556–560, 1990.
- Y. Baraud. Icke asymptotisk minimax-hastighet för testning vid signaldetektering. Bernoulli, 8: 577–606, 2002.
- J Fan. Test av betydelse baserat på wavelet tröskelvärde och Neymans trunkering. JASA, 91: 674–688, 1996.
- J. Fläkt och S-K Lin. Test av betydelse när data är kurvor. JASA, 93: 1007–1021, 1998.
- V. Spokoiny. Adaptativ hypotesprovning med hjälp av wavelets. Annals of Statistics, 24 (6): 2477–2498, december 1996.