Det blev lite av en chock för mig första gången jag gjorde en normalfördelning av Monte Carlo-simulering och upptäckte att medelvärdet på $ 100 $ standardavvikelser från $ 100 $ prover, alla med en provstorlek på endast $ n = 2 $, visade sig vara mycket mindre än, dvs i genomsnitt $ \ sqrt {\ frac {2} {\ pi}} $ gånger, $ \ sigma $ som används för att generera befolkningen. Detta är emellertid välkänt, om det sällan kommer ihåg, och jag visste det eller skulle inte ha gjort en simulering. Här är en simulering.
Här är ett exempel för att förutsäga 95% konfidensintervall på $ N (0,1) $ med 100, $ n = 2 $, uppskattningar av $ \ text {SD} $, och $ \ text {E} (s_ {n = 2}) = \ sqrt \ frac {\ pi} {2} \ text {SD} $.
RAND () RAND () Beräknat Beräknat N (0,1) N (0,1) SD E (s) -1,1171 -0,0627 0,7455 0,9344 1,7278 -0,8016 1,7886 2,2417 1,3705 -1,3710 1,9385 2,4295 1,5648 -0,7156 1,6125 2,0209 1,2379 0,4896 0,5291 0,63232 1,8354 1,0531 2,0425 2,5599 1,0 -0,3531 0,9794 1,2275 1,2021 -0,3631 1,1067 1,3871 1,3201 -1,1058 1,7154 2,1499 -0,4946 -1,1428 0,4583 0,5744 0,9504 -1,0300 1,4003 1,7551 -1,6001 0,5811 1,5423 1,9330 -0,5153 0,8008 0,9306 1,1663 -0,710 -061 0,6365 -0,3862 0,4528 0,5933 0,7436 -0,8531 0,1371 0,7002 0,8775 -0,8786 0,2086 0,7687 0,9635 0,631 0,7323 0,0631 0,0791 1.0368 0.3354 0.4959 0.6216 -1.0619 -1.2663 0.1445 0.1811 0.0600 -0.2569 0.2241 0.2808 -0.6840 -0.4787 0.1452 0.1820 0.2507 0.6593 0.2889 0.3620 0.1328 -0.1339 0.1886 0.2364 -0.2118 -0.0100 0.1427 0,1788 -0374 -0,1483 -1,1324 0,6959 0,8721 -1,3194 -0,3915 0,6562 0,8224 -0,8098 -2,0478 0,8754 1,0971 -0,3052 -1,1937 0,6282 0,7873 0,5170 -0,6323 0,8127 1,0186 0,6333 -1,3720 1,4180 1,7772 -1,5503 0,7194 1,6049 2,0115 1,8986 -0,7427 1,8677 2,3408 2,3656 -0,3820 1,9428 2,44350 -1,4987 0,4368 1,3686 1,7153 -0,5064 1,3950 1,3444 1,6850 1,508 0,56 0,508 0.4465 0.0300 -0.8531 0.6244 0.7826 0.4210 0.3356 0.0604 0.0757 0.0165 2.0690 1.4514 1.8190 -0.2689 1.5595 1.2929 1.6204 1.3385 0.5087 0.5868 0.7354 1.1067 0.3987 0.5006 0.6275 2.0015 -0.6360 1.8650 2.3374 -0.475 0.64 0,0543 1,2124 1,5195 0,9649 -1,2625 1,5750 1,9739 -0,3380 -0,2445 0,0652 0,0817 -0,8612 2,1156 2,261 2,6647 0,4496 -1,0538 1,0970 1,3749 -0,2007 -1,3870 0,8388 1,0513 -0,9597 0,6327 1,1260 1,4112 -2,6118 -0,150 .1813 0.7155 -0.1909 0.6409 0.8033 0.0548 -0.2159 0.1914 0.2399 -0.2775 0.4864 0.5402 0.6770 -1.2364 -.0.0736 0.8222 1.0305 -0.8868 -0.6960 0.1349 0.1691 1.2804 -0.2276 1.0664 1.3365 0.5560 -0.9552 1.064 0.64 0,5479 0,5926 0,7427 -0,9313 0,5375 1,0386 1,3018 -0,3466 -0,3809 0,0243 0,0304 0,7211 -0,1546 0,6192 0,7760 -1,4551 -0,1350 0,9334 1,1699 0,0673 0,4291 0,2559 0,3207 0,39090 -0,1510 0,33323 0,4165 -1,614,01 -1,414 0,3658 0,4585 -1,7677 -1,9776 0,1448 0,1860 -0,9519 -0,1155 0,5914 0,7412 1,1165 -0,6071 1,2188 1,5275 -1,772 0,7592 1,7935 2,2478 0,1334 -0,0458 0,1273 0,1596 0,2270 0,99698 0,5253 0,683 -0,109775 -0.0374 0.2988 0.2377 0.2980 -0.4209 0.5742 0.7037 0.8819 1.6728 -0.2046 1.3275 1.6638 1.4985 -1.625 2.2069 2.7659 0.5342 -0.5074 0.7365 0.9231 0.7119 0.8128 0.0713 0.0894 1.0165 -1.2300 1.5885 1.9909 -0.2646 1,1457 0,7990 -1,1515 1,3792 1,7286 0,0344 -0,1892 0,8188 1,0263 medelvärde E (.) SD pred E (s) pred -1,9600 -1,900 -1,649 -2,0114 2,5% teor, est 1,9600 1,9600 1,6049 2,0114 97,5% teor, est 0,3551 -0,0515 2,5% err -0.3551 0.0515 97.5% err
Dra skjutreglaget nedåt för att se totalsummorna. Nu använde jag den vanliga SD-uppskattaren för att beräkna 95% konfidensintervall runt ett medelvärde noll, och de är av med 0,3551 standardavvikelseenheter. E (s) uppskattaren är avstängd av endast 0,0515 standardavvikelseenheter. Om man uppskattar standardavvikelse, standardfel för medelvärdet eller t-statistik kan det finnas ett problem.
Mitt resonemang var som följer, befolkningens medelvärde, $ \ mu $, av två värden kan vara var som helst med avseende på $ x_1 $ och ligger definitivt inte på $ \ frac {x_1 + x_2} { 2} $, vilket senare ger en absolut minsta möjliga summa i kvadrat så att vi underskattar $ \ sigma $ väsentligen, enligt följande
wlog låt $ x_2-x_1 = d $, då är $ \ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 $ $ 2 (\ frac {d} {2}) ^ 2 = \ frac {d ^ 2} {2} $, minst möjligt resultat.
Det betyder att standardavvikelsen beräknas som
$ \ text {SD} = \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {n-1}} $,
är en partisk uppskattning av befolkningsstandardavvikelsen ($ \ sigma $). Observera, i den formeln minskar vi frihetsgraderna på $ n $ med 1 och dividerar med $ n-1 $, dvs vi gör en viss korrigering, men det är bara asymptotiskt korrekt, och $ n-3/2 $ skulle vara en bättre tumregel. För vårt exempel på $ x_2-x_1 = d $ skulle formeln $ \ text {SD} $ ge oss $ SD = \ frac {d} {\ sqrt 2} \ cirka 0,707d $, ett statistiskt osannolikt minimivärde som $ \ mu \ neq \ bar {x} $, där ett bättre förväntat värde ($ s $) skulle vara $ E (s) = \ sqrt {\ frac {\ pi} {2}} \ frac {d} {\ sqrt 2} = \ frac {\ sqrt \ pi} {2} d \ ungefär 0,886d $. För den vanliga beräkningen lider $ \ text {SD} $ för $ n<10 $ av mycket betydande underskattning som kallas litet antal förspänningar, som bara närmar sig 1% underskattning av $ \ sigma $ när $ n $ är ungefär $ 25 $. Eftersom många biologiska experiment har $ n<25 $ är detta verkligen ett problem. För $ n = 1000 $ är felet ungefär 25 delar av 100.000. Generellt innebär korrigering av litet antal bias att den opartiska uppskattningen av populationsstandardavvikelse för en normalfördelning är
$ \ text {E} (s) \, = \, \ , \ frac {\ Gamma \ left (\ frac {n-1} {2} \ right)} {\ Gamma \ left (\ frac {n} {2} \ right)} \ sqrt {\ frac {\ Sigma_ { i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {2}} > \ text {SD} = \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i - \ bar {x}) ^ 2} {n-1}} \; . $
Från Wikipedia under creative commons licensiering har man en plot av SD-underskattning av $ \ sigma $
Eftersom SD är en partisk uppskattning av populationsstandardavvikelse, kan det inte vara den minsta variansen opartiska uppskattaren MVUE för populationsstandardavvikelse såvida vi inte är nöjda med att säga att det är MVUE som $ n \ rightarrow \ infty $ , vilket jag, för en, inte är.
När det gäller icke-normala distributioner och ungefär objektiv $ SD $ läs detta.
Nu kommer frågan Q1
Kan det bevisas att $ \ text {E} (s) $ ovan är MVUE för $ \ sigma $ av en normalfördelning av provstorleken $ n $, där $ n $ är ett positivt heltal större än en?
Tips: (Men inte svaret) se Hur kan jag hitta standardavvikelsen för provets standardavvikelse från en normalfördelning?.
Nästa fråga, Q2
Skulle någon snälla förklara för mig varför vi använder $ \ text {SD} $ ändå eftersom det är tydligt partiskt och vilseledande? Det vill säga varför inte använda $ \ text {E} (s) $ för mest allt? Kompletterande, det har blivit tydligt i svaren nedan att variansen är opartisk, men dess kvadratrot är partisk. Jag skulle vilja att svar skulle ta itu med frågan när opartisk standardavvikelse ska användas.
Som det visar sig är ett partiellt svar att för att undvika partiskhet i simuleringen ovan kunde avvikelserna ha varit genomsnittliga snarare än SD-värdena. För att se effekten av detta, om vi kvadrerar SD-kolumnen ovan och medelvärdena av dessa värden får vi 0,9994, vars kvadratrot är en uppskattning av standardavvikelsen 0,9996915 och felet för vilket endast är 0,0006 för 2,5% svansen och -0.0006 för 95% svans. Observera att detta beror på att avvikelser är additiva, så att medelvärdet av dem är ett lågt felförfarande. Standardavvikelser är emellertid partiska, och i de fall där vi inte har lyxen att använda avvikelser som mellanhand behöver vi fortfarande ett litet antal korrigeringar. Även om vi kan använda varians som mellanhand, i detta fall för $ n = 100 $, föreslår den lilla urvalskorrigeringen att multiplicera kvadratroten av opartisk varians 0.9996915 med 1.002528401 för att ge 1.002219148 som en opartisk uppskattning av standardavvikelse. Så ja, vi kan fördröja med korrigering av små siffror men ska vi därför ignorera det helt?
Frågan här är när ska vi använda korrigering av litet antal, i motsats till att ignorera dess användning, och främst har vi undvikit dess användning.
Här är ett annat exempel, det minsta antalet punkter i rymden för att skapa en linjär trend som har ett fel är tre.Om vi passar dessa punkter med vanliga minsta kvadrater är resultatet för många sådana passningar ett vikat normalt restmönster om det finns icke-linjäritet och hälften normalt om det finns linjäritet.I det halvnormala fallet kräver vårt fördelningsmedelvärde korrigering av litet antal.Om vi försöker samma trick med 4 eller fler poäng kommer distributionen i allmänhet inte att vara normal eller lätt att karakterisera.Kan vi använda varians för att på något sätt kombinera dessa 3-punktsresultat?Kanske, kanske inte.Det är dock lättare att tänka sig problem när det gäller avstånd och vektorer.