Fråga:
Varför använder vi en partisk och vilseledande standardavvikelseformel för $ \ sigma $ av en normalfördelning?
Carl
2016-12-05 11:27:14 UTC
view on stackexchange narkive permalink

Det blev lite av en chock för mig första gången jag gjorde en normalfördelning av Monte Carlo-simulering och upptäckte att medelvärdet på $ 100 $ standardavvikelser från $ 100 $ prover, alla med en provstorlek på endast $ n = 2 $, visade sig vara mycket mindre än, dvs i genomsnitt $ \ sqrt {\ frac {2} {\ pi}} $ gånger, $ \ sigma $ som används för att generera befolkningen. Detta är emellertid välkänt, om det sällan kommer ihåg, och jag visste det eller skulle inte ha gjort en simulering. Här är en simulering.

Här är ett exempel för att förutsäga 95% konfidensintervall på $ N (0,1) $ med 100, $ n = 2 $, uppskattningar av $ \ text {SD} $, och $ \ text {E} (s_ {n = 2}) = \ sqrt \ frac {\ pi} {2} \ text {SD} $.

  RAND () RAND () Beräknat Beräknat N (0,1) N (0,1) SD E (s) -1,1171 -0,0627 0,7455 0,9344 1,7278 -0,8016 1,7886 2,2417 1,3705 -1,3710 1,9385 2,4295 1,5648 -0,7156 1,6125 2,0209 1,2379 0,4896 0,5291 0,63232 1,8354 1,0531 2,0425 2,5599 1,0 -0,3531 0,9794 1,2275 1,2021 -0,3631 1,1067 1,3871 1,3201 -1,1058 1,7154 2,1499 -0,4946 -1,1428 0,4583 0,5744 0,9504 -1,0300 1,4003 1,7551 -1,6001 0,5811 1,5423 1,9330 -0,5153 0,8008 0,9306 1,1663 -0,710 -061 0,6365 -0,3862 0,4528 0,5933 0,7436 -0,8531 0,1371 0,7002 0,8775 -0,8786 0,2086 0,7687 0,9635 0,631 0,7323 0,0631 0,0791 1.0368 0.3354 0.4959 0.6216 -1.0619 -1.2663 0.1445 0.1811 0.0600 -0.2569 0.2241 0.2808 -0.6840 -0.4787 0.1452 0.1820 0.2507 0.6593 0.2889 0.3620 0.1328 -0.1339 0.1886 0.2364 -0.2118 -0.0100 0.1427 0,1788 -0374 -0,1483 -1,1324 0,6959 0,8721 -1,3194 -0,3915 0,6562 0,8224 -0,8098 -2,0478 0,8754 1,0971 -0,3052 -1,1937 0,6282 0,7873
0,5170 -0,6323 0,8127 1,0186 0,6333 -1,3720 1,4180 1,7772 -1,5503 0,7194 1,6049 2,0115 1,8986 -0,7427 1,8677 2,3408 2,3656 -0,3820 1,9428 2,44350 -1,4987 0,4368 1,3686 1,7153 -0,5064 1,3950 1,3444 1,6850 1,508 0,56 0,508 0.4465 0.0300 -0.8531 0.6244 0.7826 0.4210 0.3356 0.0604 0.0757 0.0165 2.0690 1.4514 1.8190 -0.2689 1.5595 1.2929 1.6204 1.3385 0.5087 0.5868 0.7354 1.1067 0.3987 0.5006 0.6275 2.0015 -0.6360 1.8650 2.3374 -0.475 0.64 0,0543 1,2124 1,5195 0,9649 -1,2625 1,5750 1,9739 -0,3380 -0,2445 0,0652 0,0817 -0,8612 2,1156 2,261 2,6647 0,4496 -1,0538 1,0970 1,3749 -0,2007 -1,3870 0,8388 1,0513 -0,9597 0,6327 1,1260 1,4112 -2,6118 -0,150 .1813 0.7155 -0.1909 0.6409 0.8033 0.0548 -0.2159 0.1914 0.2399 -0.2775 0.4864 0.5402 0.6770 -1.2364 -.0.0736 0.8222 1.0305 -0.8868 -0.6960 0.1349 0.1691 1.2804 -0.2276 1.0664 1.3365 0.5560 -0.9552 1.064 0.64 0,5479 0,5926 0,7427 -0,9313 0,5375 1,0386 1,3018 -0,3466 -0,3809 0,0243 0,0304 0,7211 -0,1546 0,6192 0,7760 -1,4551 -0,1350 0,9334 1,1699 0,0673 0,4291 0,2559 0,3207 0,39090 -0,1510 0,33323 0,4165 -1,614,01 -1,414 0,3658 0,4585 -1,7677 -1,9776 0,1448 0,1860 -0,9519 -0,1155 0,5914 0,7412 1,1165 -0,6071 1,2188 1,5275 -1,772 0,7592 1,7935 2,2478 0,1334 -0,0458 0,1273 0,1596 0,2270 0,99698 0,5253 0,683 -0,109775
-0.0374 0.2988 0.2377 0.2980 -0.4209 0.5742 0.7037 0.8819 1.6728 -0.2046 1.3275 1.6638 1.4985 -1.625 2.2069 2.7659 0.5342 -0.5074 0.7365 0.9231 0.7119 0.8128 0.0713 0.0894 1.0165 -1.2300 1.5885 1.9909 -0.2646 1,1457 0,7990 -1,1515 1,3792 1,7286 0,0344 -0,1892 0,8188 1,0263 medelvärde E (.) SD pred E (s) pred -1,9600 -1,900 -1,649 -2,0114 2,5% teor, est 1,9600 1,9600 1,6049 2,0114 97,5% teor, est 0,3551 -0,0515 2,5% err -0.3551 0.0515 97.5% err  

Dra skjutreglaget nedåt för att se totalsummorna. Nu använde jag den vanliga SD-uppskattaren för att beräkna 95% konfidensintervall runt ett medelvärde noll, och de är av med 0,3551 standardavvikelseenheter. E (s) uppskattaren är avstängd av endast 0,0515 standardavvikelseenheter. Om man uppskattar standardavvikelse, standardfel för medelvärdet eller t-statistik kan det finnas ett problem.

Mitt resonemang var som följer, befolkningens medelvärde, $ \ mu $, av två värden kan vara var som helst med avseende på $ x_1 $ och ligger definitivt inte på $ \ frac {x_1 + x_2} { 2} $, vilket senare ger en absolut minsta möjliga summa i kvadrat så att vi underskattar $ \ sigma $ väsentligen, enligt följande

wlog låt $ x_2-x_1 = d $, då är $ \ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2 $ $ 2 (\ frac {d} {2}) ^ 2 = \ frac {d ^ 2} {2} $, minst möjligt resultat.

Det betyder att standardavvikelsen beräknas som

$ \ text {SD} = \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {n-1}} $,

är en partisk uppskattning av befolkningsstandardavvikelsen ($ \ sigma $). Observera, i den formeln minskar vi frihetsgraderna på $ n $ med 1 och dividerar med $ n-1 $, dvs vi gör en viss korrigering, men det är bara asymptotiskt korrekt, och $ n-3/2 $ skulle vara en bättre tumregel. För vårt exempel på $ x_2-x_1 = d $ skulle formeln $ \ text {SD} $ ge oss $ SD = \ frac {d} {\ sqrt 2} \ cirka 0,707d $, ett statistiskt osannolikt minimivärde som $ \ mu \ neq \ bar {x} $, där ett bättre förväntat värde ($ s $) skulle vara $ E (s) = \ sqrt {\ frac {\ pi} {2}} \ frac {d} {\ sqrt 2} = \ frac {\ sqrt \ pi} {2} d \ ungefär 0,886d $. För den vanliga beräkningen lider $ \ text {SD} $ för $ n<10 $ av mycket betydande underskattning som kallas litet antal förspänningar, som bara närmar sig 1% underskattning av $ \ sigma $ när $ n $ är ungefär $ 25 $. Eftersom många biologiska experiment har $ n<25 $ är detta verkligen ett problem. För $ n = 1000 $ är felet ungefär 25 delar av 100.000. Generellt innebär korrigering av litet antal bias att den opartiska uppskattningen av populationsstandardavvikelse för en normalfördelning är

$ \ text {E} (s) \, = \, \ , \ frac {\ Gamma \ left (\ frac {n-1} {2} \ right)} {\ Gamma \ left (\ frac {n} {2} \ right)} \ sqrt {\ frac {\ Sigma_ { i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {2}} > \ text {SD} = \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i - \ bar {x}) ^ 2} {n-1}} \; . $

Från Wikipedia under creative commons licensiering har man en plot av SD-underskattning av $ \ sigma $ <a title="By Rb88guy (Own work) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) or GFDL (http://www.gnu.org/copyleft/fdl.html)], via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File%3AStddevc4factor.jpg"><img width="512" alt="Stddevc4factor" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg"/></a>

Eftersom SD är en partisk uppskattning av populationsstandardavvikelse, kan det inte vara den minsta variansen opartiska uppskattaren MVUE för populationsstandardavvikelse såvida vi inte är nöjda med att säga att det är MVUE som $ n \ rightarrow \ infty $ , vilket jag, för en, inte är.

När det gäller icke-normala distributioner och ungefär objektiv $ SD $ läs detta.

Nu kommer frågan Q1

Kan det bevisas att $ \ text {E} (s) $ ovan är MVUE för $ \ sigma $ av en normalfördelning av provstorleken $ n $, där $ n $ är ett positivt heltal större än en?

Tips: (Men inte svaret) se Hur kan jag hitta standardavvikelsen för provets standardavvikelse från en normalfördelning?.

Nästa fråga, Q2

Skulle någon snälla förklara för mig varför vi använder $ \ text {SD} $ ändå eftersom det är tydligt partiskt och vilseledande? Det vill säga varför inte använda $ \ text {E} (s) $ för mest allt? Kompletterande, det har blivit tydligt i svaren nedan att variansen är opartisk, men dess kvadratrot är partisk. Jag skulle vilja att svar skulle ta itu med frågan när opartisk standardavvikelse ska användas.

Som det visar sig är ett partiellt svar att för att undvika partiskhet i simuleringen ovan kunde avvikelserna ha varit genomsnittliga snarare än SD-värdena. För att se effekten av detta, om vi kvadrerar SD-kolumnen ovan och medelvärdena av dessa värden får vi 0,9994, vars kvadratrot är en uppskattning av standardavvikelsen 0,9996915 och felet för vilket endast är 0,0006 för 2,5% svansen och -0.0006 för 95% svans. Observera att detta beror på att avvikelser är additiva, så att medelvärdet av dem är ett lågt felförfarande. Standardavvikelser är emellertid partiska, och i de fall där vi inte har lyxen att använda avvikelser som mellanhand behöver vi fortfarande ett litet antal korrigeringar. Även om vi kan använda varians som mellanhand, i detta fall för $ n = 100 $, föreslår den lilla urvalskorrigeringen att multiplicera kvadratroten av opartisk varians 0.9996915 med 1.002528401 för att ge 1.002219148 som en opartisk uppskattning av standardavvikelse. Så ja, vi kan fördröja med korrigering av små siffror men ska vi därför ignorera det helt?

Frågan här är när ska vi använda korrigering av litet antal, i motsats till att ignorera dess användning, och främst har vi undvikit dess användning.

Här är ett annat exempel, det minsta antalet punkter i rymden för att skapa en linjär trend som har ett fel är tre.Om vi passar dessa punkter med vanliga minsta kvadrater är resultatet för många sådana passningar ett vikat normalt restmönster om det finns icke-linjäritet och hälften normalt om det finns linjäritet.I det halvnormala fallet kräver vårt fördelningsmedelvärde korrigering av litet antal.Om vi försöker samma trick med 4 eller fler poäng kommer distributionen i allmänhet inte att vara normal eller lätt att karakterisera.Kan vi använda varians för att på något sätt kombinera dessa 3-punktsresultat?Kanske, kanske inte.Det är dock lättare att tänka sig problem när det gäller avstånd och vektorer.

Kommentarer är inte för längre diskussion;den här konversationen har [flyttats till chatt] (http://chat.stackexchange.com/rooms/49784/discussion-on-question-by-carl-why-we-are-using-a-biased-and- misvising-standard).
F1: Se Lehmann-Scheffe-satsen.
@Scortchi Hjälpsam (+1), det var det jag letade efter Q1.Om du skulle vara så snäll att köra igenom det som ett svar kan jag redigera för att lägga in Q2 för att senare tilldela belöningen.
Icke-noll förspänning av en uppskattning är inte nödvändigtvis en nackdel.Till exempel, om vi vill ha en exakt uppskattare under kvadratförlust, är vi villiga att framkalla bias så länge det minskar variansen med en tillräckligt stor mängd.Det är därför (partiska) reglerade uppskattare kan fungera bättre än den (opartiska) OLS-uppskattaren i en linjär regressionsmodell, till exempel.
@RichardHardy Föredrar att säga: (1) Bias är ett reducerat * noggrannhetspris som man kan vara villig att betala för ökad * precision. * (2) Alternativt (t.ex. för normalisering), bias av en sak (t.ex. passform) kan användas för att öka noggrannheten och precisionen för ett annat (regressionsparametermål).Frågan här är när man ska använda vad.
@Carl, bra poäng, jag använde inte rätt term där (noggrannhet vs. precision).Jag undrar vilket adjektiv som kombinerar de två, vilket betyder både exakt och exakt?Hur kan man också definiera bias av passform?
@RichardHardy Bias av passform kan vara både teoretiskt och för tillämpning på data definierade och kvantifierade som den latenta strukturen eller tendensen hos rester över deras intervall.
@Carl, är det en vanlig användning av ordet * bias *?Låt oss inte tilldela en annan mening till en redan tungt laddad term.Kanske kan en annan term passa bättre?
@RichardHardy Best estimator är en kandidat för kombinationen av noggrannhet och precision, men exakt vad det betyder i allmänhet är vagt.Visst, i specifika fall, när metod A är både mer exakt och exakt än metod B, skulle vi inte ha något problem att säga vilken som är en bättre uppskattare.Dessutom är antingen utan den andra värdelös, det vill säga noggrannhet utan precision är lika värdelös som precision utan noggrannhet.
@RichardHardy 1) Det verkar finnas ett problem med hur termen bias används, och 2) vissa saker som är partiska är inte så igenkända, medan vissa saker som anses vara opartiska är partiska.Jag misstänker också att det kan finnas ett terminologiproblem.Kanske används termen 'bias' i olika sammanhang inom olika områden, t.ex. statistik kontra fysik kontra matematik?
@Carl * många * termer används olika i olika applikationsområden.Om du skickar inlägg till en statistikgrupp och du använder ett jargonguttryck som "bias", skulle du naturligtvis antas använda den specifika betydelsen av termen särskilt för statistik.Om du menar * något * annat är det viktigt att antingen använda en annan term eller att tydligt definiera vad du menar med termen direkt vid första användningen.
@Glen_b Åh och jag gör det, jag säger aldrig "partisk" utan att säga vad, hur och varför.Jag förstår inte bias att vara jargong, innebörden antingen översätts exakt till fysik och matematik eller så är det felaktigt.
"bias" är verkligen en term av jargong - * speciella ord eller uttryck som används av ett yrke eller en grupp som är svåra för andra att förstå * verkar ganska mycket vad "bias" är.Det beror på att sådana termer har exakta, specialiserade definitioner i sina applikationsområden (inklusive matematiska definitioner) som gör dem till jargongtermer.
@Glen_b Min poäng är att "bias" är jargong som "cosinus" eller "maximal sannolikhet" är jargong.
@Carl, håller med Glen_b.Ärligt talat, för mig är diskussioner med dig ofta svårare än vanligt just för att du använder väletablerade statistiska termer för att beteckna något helt annat än de betecknar i statistik (vilket förmodligen kan vara meningsfullt i fysik).Så för enkelhets skull rekommenderar jag att du håller dig till de klassiska statistiska definitionerna och termerna när du diskuterar med statistiker (t.ex. här på Cross Validated).
@RichardHardy Lita på mig, om jag visste hur jag skulle göra det skulle jag göra det.Jag är faktiskt närmast ett taggmärke i "terminologi" och jag arbetar med att göra mitt bruk av statistiskt språk perfekt och faktiskt, om rykte per inlägg är någon indikation, får jag fler poäng för det än för någonting.
@Carl, Glad att höra.Du måste vara på rätt spår.
Fem svar:
GeoMatt22
2016-12-08 10:51:19 UTC
view on stackexchange narkive permalink

För den mer begränsade frågan

Varför används vanligtvis en partisk standardavvikelseformel?

det enkla svaret

Eftersom den associerade variansen -uppskattaren är opartisk. Det finns ingen riktig matematisk / statistisk motivering.

kan vara korrekt i många fall.

Detta är dock inte nödvändigtvis alltid fallet. Det finns åtminstone två viktiga aspekter av dessa frågor som bör förstås.

För det första är provvariansen $ s ^ 2 $ inte bara opartisk för gaussiska slumpmässiga variabler. Det är opartiskt för någon distribution med begränsad varians $ \ sigma ^ 2 $ (som diskuteras nedan, i mitt ursprungliga svar). Frågan noterar att $ s $ inte är opartisk för $ \ sigma $, och föreslår ett alternativ som är opartiskt för en Gauss slumpmässig variabel. Det är emellertid viktigt att notera att till skillnad från variansen är det för standardavvikelsen inte möjligt att ha en "distributionsfri" opartisk estimator (* se anmärkning nedan).

Andra , som nämnts i kommentaren av whuber, påverkar det faktum att $ s $ är partisk inte standardtestet. Observera först att för en Gaussisk variabel $ x $, om vi uppskattar z-poäng från ett exempel $ \ {x_i \} $ som $$ z_i = \ frac {x_i- \ mu} {\ sigma} \ approx \ frac { x_i- \ bar {x}} {s} $$ då kommer dessa att vara partiska.

Men t-statistiken används vanligtvis i samband med samplingsfördelningen på $ \ stapel {x} $. I detta fall skulle z-poängen vara $$ z _ {\ bar {x}} = \ frac {\ bar {x} - \ mu} {\ sigma _ {\ bar {x}}} \ ungefär \ frac {\ bar {x} - \ mu} {s / \ sqrt {n}} = t $$ men vi kan inte beräkna varken $ z $ eller $ t $, eftersom vi inte känner till $ \ mu $. Ändå, om $ z _ {\ bar {x}} $ -statistiken skulle vara normal, kommer $ t $ -statistiken att följa en Student-t-distribution. Detta är inte en stor approximation på $ n $. Det enda antagandet är att $ x $ -proverna är i.i.d. Gaussisk.

(Vanligtvis tillämpas t-testet bredare för eventuellt icke-Gaussiska $ x $. Detta förlitar sig på stora- $ n $, vilket enligt den centrala gränssatsen säkerställer att $ \ bar {x} $ kommer fortfarande att vara gaussisk.)


* Förtydligande om "distributionsfri opartisk uppskattning"

Med "distribution gratis", Jag menar att uppskattaren inte kan bero på någon information om populationen $ x $ förutom exemplet $ \ {x_1, \ ldots, x_n \} $. Med "opartisk" menar jag att det förväntade felet $ \ mathbb {E} [\ hat {\ theta} _n] - \ theta $ är enhetligt noll, oberoende av provstorleken $ n $. (Till skillnad från en uppskattare som bara är asymptotiskt opartisk, aka " konsekvent", för vilken förspänningen försvinner som $ n \ till \ infty $.)

I kommentarerna gavs detta som ett möjligt exempel på en "distributionsfri opartisk estimator". Sammanfattningsvis är denna uppskattare av formen $ \ hat {\ sigma} = f [s, n, \ kappa_x] $, där $ \ kappa_x $ är överskottet av kurtos på $ x $. Denna uppskattare är inte "distributionsfri", eftersom $ \ kappa_x $ beror på fördelningen av $ x $. Uppskattaren sägs uppfylla $ \ mathbb {E} [\ hat {\ sigma}] - \ sigma_x = \ mathrm {O} [\ frac {1} {n}] $, där $ \ sigma_x ^ 2 $ är avvikelse på $ x $. Därför är uppskattaren konsekvent men inte (absolut) "opartisk", eftersom $ \ mathrm {O} [\ frac {1} {n}] $ kan vara godtyckligt stor för små $ n $.


Obs: Nedan är mitt ursprungliga "svar". Härifrån handlar kommentarerna om standard "sampel" medelvärde och varians, som är "distributionsfria" opartiska uppskattare (dvs. populationen antas inte vara Gauss).

Detta är inte ett fullständigt svar utan snarare ett förtydligande om varför exempel varians -formeln ofta används.

Med tanke på slumpmässigt urval $ \ {x_1, \ ldots, x_n \} $, så länge variablerna har ett gemensamt medelvärde, kommer uppskattaren $ \ bar {x} = \ frac {1} {n} \ sum_ix_i $ att vara opartisk , dvs. $$ \ mathbb {E} [x_i] = \ mu \ innebär \ mathbb {E} [\ bar {x}] = \ mu $$

Om variablerna också har en gemensam ändlig varians, och de är okorrelerade , så är uppskattaren $ s ^ 2 = \ frac {1} {n-1} \ sum_i (x_i- \ bar {x}) ^ 2 $ kommer också att vara opartisk, dvs. $$ \ mathbb {E} [x_ix_j] - \ mu ^ 2 = \ börja {fall} \ sigma ^ 2&i = j \\ 0&i \ neq {j} \ end {cases} \ implicerar \ mathbb {E} [s ^ 2] = \ sigma ^ 2 $$ Observera att dessa bedömares opartiskhet beror endast på antagandena ovan ( och förväntans linjäritet; beviset är bara algebra). Resultatet beror inte på någon särskild distribution, såsom Gaussian. Variablerna $ x_i $ behöver inte ha en gemensam fördelning, och de behöver inte ens vara oberoende (dvs. provet behöver inte vara iid).

"Exempel på standardavvikelse" $ s $ är inte en opartisk uppskattning, $ \ mathbb {s} \ neq \ sigma $, men ändå används ofta. Min gissning är att detta helt enkelt beror på att det är kvadratroten till den opartiska provvariansen. (Utan mer sofistikerad motivering.)

I fallet med en i.i.d. Gaussiskt exempel, maximala sannolikhetsuppskattningar (MLE) för parametrarna är $ \ hat {\ mu} _ \ mathrm {MLE} = \ bar {x} $ och $ (\ hat {\ sigma} ^ 2) _ \ mathrm {MLE} = \ frac {n-1} {n} s ^ 2 $, dvs variansen dividerar med $ n $ snarare än $ n ^ 2 $. Dessutom i i.i.d. Gaussiskt fall är standardavvikelsen MLE bara kvadratroten av MLE-variansen. Dessa formler, liksom den som antyds i din fråga, beror dock på den gaussiska i.i.d. antagande.


Uppdatering: Ytterligare förtydligande om "partisk" kontra "opartisk".

Tänk på ett $ n $ -element som ovan , $ X = \ {x_1, \ ldots, x_n \} $, med summa-kvadratavvikelse $$ \ delta ^ 2_n = \ sum_i (x_i- \ bar {x}) ^ 2 $$ Med tanke på antagandena i första delen ovan har vi nödvändigtvis $$ \ mathbb {E} [\ delta ^ 2_n] = (n-1) \ sigma ^ 2 $$ så (Gaussian-) MLE-estimatorn är partisk $$ \ widehat {\ sigma ^ 2_n} = \ tfrac {1} {n} \ delta ^ 2_n \ innebär \ mathbb {E} [\ widehat {\ sigma ^ 2_n}] = \ tfrac {n-1} {n } \ sigma ^ 2 $$ medan uppskattaren "exempelvarians" är opartisk $$ s ^ 2_n = \ tfrac {1} {n-1} \ delta ^ 2_n \ antyder \ mathbb {E} [s ^ 2_n] = \ sigma ^ 2 $$

Nu är det sant att $ \ widehat {\ sigma ^ 2_n} $ blir mindre partisk när provstorleken $ n $ ökar. $ S ^ 2_n $ har dock noll bias oavsett provstorlek (så länge $ n>1 $). För båda uppskattarna kommer variansen för deras samplingsfördelning att vara noll och beror på $ n $.

Som ett exempel, nedan Matlab-koden tar hänsyn till ett experiment med $ n = 2 $ prover från en standard-normalpopulation $ z $. För att uppskatta samplingsfördelningarna för $ \ bar {x}, \ widehat {\ sigma ^ 2}, s ^ ​​2 $ upprepas experimentet $ N = 10 ^ 6 $ gånger. (Du kan klippa & och klistra in koden här för att prova själv.)

 % n = provstorlek, N = antal prover n = 2; N = 1e6;% genererar standard-normal slumpmässig # 'sz = randn (n, N); % dvs mu = 0, sigma = 1% beräkna provstatistik (Gaussian MLE) zbar = summa (z) / n; zvar_mle = summa ((z-zbar). ^ 2) / n;% beräkna ensemble statistik (sampling-pdf betyder) zbar_avg = summa (zbar) / N, zvar_mle_avg = summa (zvar_mle) / N% beräkna opartisk varianszvar_avg = zvar_mle_avg * n / (n-1)  

Typisk utgång är som

  zbar_avg = 1.4442e-04zvar_mle_avg = 0.49988 zvar_avg = 0.99977  

bekräftar att \ börjar {align} \ mathbb {E} [\ bar {z}] & \ approx \ overline {(\ bar {z})} \ approx \ mu = 0 \\\ mathbb {E} [s ^ 2] & \ approx \ overline {(s ^ 2)} \ approx \ sigma ^ 2 = 1 \\\ mathbb {E} [\ widehat {\ sigma ^ 2 }] & \ approx \ overline {(\ widehat {\ sigma ^ 2})} \ approx \ frac {n-1} {n} \ sigma ^ 2 = \ frac {1} {2} \ end {align}


Uppdatering 2: Observera i grund och botten "algebraisk" karaktär av opartiskhet.

I ovanstående numeriska demonstration approximerar koden den sanna förväntningen $ \ mathbb {E} [\,] $ med hjälp av ett ensemble-medelvärde med $ N = 10 ^ 6 $ replikationer av experimentet (dvs. var och en är ett urval av storlek$ n = 2 $).Även med detta stora antal är de typiska resultaten som citeras ovan långt ifrån exakta.

För att numeriskt visa att uppskattarna är verkligen opartiska kan vi använda ett enkelt trick för att approximera $ N \ till \ infty $ fall: lägg bara till följande rad i koden

 % optional: "whiten" data(säkerställ exakt ensemblestatistik) [U, S, V] = svd (z-medelvärde (z, 2), 'econ');z = sqrt (N) * U * V ';  

(placeras efter "generera standard-normala slumpmässiga nummer" och före "beräkna exempelstatistik")

Med den här enkla ändringen ger till och med att köra koden med $ N = 10 $ resultat som

  zbar_avg = 1.1102e-17zvar_mle_avg = 0.50000zvar_avg = 1.00000 
Opartiskhet har att göra med att "teoretiskt förväntat värde" ($ \ mathbb {E} [\,] $) är korrekt.För både $ \ bar {x} $ och $ s ^ 2 $ är uppskattningarna opartiska för alla $ n> 1 $ (eller $ \ geq $, när det gäller $ \ bar {x} $).Å andra sidan beror ** variansen ** för dessa uppskattare * starkt * på provstorleken $ n $.Tänk på det här: Säg att vi tar $ N $ -prover, var och en av storlek $ n $.Detta ger t.ex.$ \ bar {x} _1, \ ldots, \ bar {x} _N $ och $ s ^ 2_1, \ ldots, s ^ 2_N $."Ofördelad" betyder som $ N \ till \ infty $ "meta-samplet" betyder över $ \ bar {x} _i $ och $ s ^ 2_i $ konvergerar ... oberoende av $ n $.Så "stor $ N $" gräns, ja.
@Carl FYI: Jag röstar din kommentar med "flak" för moderatorns uppmärksamhet som olämpligt.Och +1 till GeoMatt22, variansen är verkligen opartisk.
@amoeba Tja, jag ska äta min hatt.Jag kvadrerade SD-värdena i varje rad och beräknade dem i genomsnitt och de blev opartiska (0,9994), medan SD-värdena själva inte gör det.Det betyder att du och GeoMatt22 har rätt, och jag har fel.
@GeoMatt22 Det verkar som variansen är opartisk men dess kvadratrot inte.Så en metod för att producera en mindre partisk SD för en serie SD-värden är bara att kvadrera dem, genomsnittliga avvikelserna och sedan ta kvadratroten.Med andra ord är ordningsföljden viktig.
@amoeba Inte förstår dig.Variansen av en $ n = 2 $ -beräkning kan vara opartisk men dess kvadratrot är starkt partisk och behöver litet antal korrigeringar, gå figur.Inte ett resultat som jag förväntade mig, men ett viktigt faktiskt ändå.Den faktoiden kan ha några långtgående konsekvenser, och det är därför jag stör det här.
Ja, det är allt rätt.Ah, jag tror att jag vid förnyad läsning förstod vad du menade i den meningen.Radera min tidigare kommentar.@Carl
@Carl: Det är i allmänhet sant att omvandling av en opartisk uppskattning av en parameter inte ger en opartisk uppskattning av den transformerade parametern förutom när transformationen är affin, efter förväntans linjäritet.Så i vilken skala är opartiskhet viktig för dig?
@Scortchi Vikten av betydelse är beroende av kontexten, så det finns inget unikt svar som jag kan erbjuda.Mycket av det jag gör ligger inom mellan 1% och 4% 1 SD totalt förökat fel, men bara för att jag gör en hel del optimering.Suboptimal metod dödar mig.Kanske hjälper tillägget jag lade till den upplagda frågan?
@GeoMatt2 Frågan handlar om standardavvikelse som är en partisk transformation av visserligen opartisk varians.Som Scortchi påpekade är det osannolikt att en icke-affin transformation, t.ex. kvadratisk rotning, av ett opartiskt mått är opartisk i allmänhet och standardavvikelse, som används för t-testning, standardfel av medelvärdet och myriad andra användningar underskattar och ärpartisk.Vilken formel som helst för standardavvikelse, t.ex.med en $ n- \ pi $ delare kommer att vara opartisk i gränsen när $ n $ går till oändligheten.Det är inte kriteriet för opartiskhet när $ n $ är ett litet heltal.Vänligen svara på frågorna.
Carl: Jag ber om ursäkt om du tycker att mitt svar var ortogonalt mot din fråga.Det var avsett att ge en rimlig förklaring till F: "varför används en förspänd standardavvikelseformel?"A: "helt enkelt för att den associerade variansuppskattaren är opartisk, mot någon verklig * matematisk / statistisk * motivering".När det gäller din kommentar beskriver vanligtvis "opartisk" en uppskattare vars förväntade värde är korrekt * oberoende * av provstorlek.Om det bara är opartiskt i gränsen för oändlig provstorlek, skulle det vanligtvis kallas "[konsekvent] (https://en.wikipedia.org/wiki/Consistent_estimator)".
@GeoMatt22 Du säger att "provvarians $ s ^ 2 $ är opartisk för alla fördelningar med begränsad varians $ σ ^ 2 $".Och ... "det är viktigt att notera att till skillnad från variansen är det för standardavvikelsen inte möjligt att ha en" distributionsfri "opartisk estimator".[This] (https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation#Other_distributions) listar emellertid en uppskattning för andra fördelningar.Dessutom bör man beräkna varians för en normal-kvadratfördelning från dess [transformerade normalfördelning] (http://stats.stackexchange.com/a/249882/99274)
Carl, för din första länk, se avsnittet ** Förtydligande om "distributionsfri opartisk uppskattning" ** lagt till mitt svar just nu (för länge för en kommentar).[BTW du borde definitivt fortsätta att syntetisera saker i ditt svar, eftersom jag håller med om att mitt är något "tangentiellt / bakgrund".]
(+1) Snyggt svar.Liten försiktighet: Att Wikipedia-avsnittet om konsistens som citeras i detta svar är lite av en röra och det parentesuttalande som görs relaterat till det är potentiellt missvisande."Konsistens" och "asymptotisk opartiskhet" är i någon mening ortogonala egenskaper hos en uppskattning.För lite mer om den punkten, se kommentarstråden till [detta svar] (http://stats.stackexchange.com/a/31038/2970).
+1 men jag tror att @Scortchi gör en väldigt viktig punkt i sitt svar som inte nämns i ditt: nämligen att även för Gaussisk befolkning har den opartiska uppskattningen av $ \ sigma $ högre förväntat fel än den standardförspända uppskattningen av $ \ sigma$ (på grund av den höga variansen hos den förra).Detta är ett starkt argument för att * inte * använder en opartisk uppskattning även om man * vet * att den underliggande fördelningen är Gaussisk.
@amoeba: Tja, jag vill inte göra en fetisch av MSE heller (på skalan $ \ sigma $ eller någon annan skala), eller jag har föreslagit att du lägger till mer förspänning och använder beräknaren $ c_1S $;)
@amoeba verkligen jag tycker Scortchis svar är överlägset det bästa.Om det inte ska accepteras bör vi alla åtminstone rösta upp det för att få ett [populistiskt] märke (http://stats.stackexchange.com/help/badges/39/populist)!Mitt "svar" är mer en löpande dagbok för den slingrande diskussionen.Scortchi adresserar faktiskt OP-frågan på ett välfokuserat sätt.
Jag kommer att tilldela det en bounty om @Carl inte gör det.
Jag tänkte mitt svar bara som ett komplement till det här och @civilstat's - bekvämlighet och konvention är inte nödvändigtvis trumfande "optimalt" när $ S $ används som en uppskattning av $ \ sigma $ eftersom en exakt uppfattning om optimalitet skulle behöva skräddarsysde specifika, praktiska kraven i varje analys.
Scortchi - Reinstate Monica
2016-12-12 22:09:52 UTC
view on stackexchange narkive permalink

Standardavvikelsen för exempel $ S = \ sqrt {\ frac {\ sum (X - \ bar {X}) ^ 2} {n-1}} $ är komplett och tillräcklig för $ \ sigma $ så uppsättningen opartiska uppskattare av $ \ sigma ^ k $ ges av

$$ \ frac {(n-1) ^ \ frac {k} {2}} {2 ^ \ frac {k} {2}} \ cdot \ frac {\ Gamma \ left (\ frac {n-1} {2} \ right)} {\ Gamma \ left (\ frac {n + k-1} {2} \ right)} \ cdot S ^ k = \ frac {S ^ k} {c_k} $$

(Se Varför är exempel på standardavvikelse en partisk uppskattning av $ \ sigma $?) är av Lehmann –Scheffé-satsen, UMVUE. Konsekventa, även om partiska, uppskattare av $ \ sigma ^ k $ kan också bildas som

$$ \ tilde {\ sigma} ^ k_j = \ left (\ frac {S ^ j} {c_j} \ höger) ^ \ frac {k} {j} $$

(de opartiska uppskattarna anges när $ j = k $). Bias för var och en ges av

$$ \ operatorname {E} \ tilde {\ sigma} ^ k_j - \ sigma ^ k = \ left (\ frac {c_k} {c_j ^ \ frac {k } {j}} -1 \ höger) \ sigma ^ k $$

& dess varians med

$$ \ operatornamn {Var} \ tilde {\ sigma} ^ {k } _j = \ operatorname {E} \ tilde {\ sigma} ^ {2k} _j - \ left (\ operatorname {E} \ tilde {\ sigma} ^ k_j \ right) ^ 2 = \ frac {c_ {2k} - c_k ^ 2} {c_j ^ \ frac {2k} {j}} \ sigma ^ {2k} $$

För de två uppskattningarna av $ \ sigma $ du har övervägt, $ \ tilde {\ sigma} ^ 1_1 = \ frac {S} {c_1} $ & $ \ tilde {\ sigma} ^ 1_2 = S $, bristen på förspänning av $ \ tilde {\ sigma} _1 $ kompenseras mer än av dess större varians jämfört med $ \ tilde {\ sigma} _2 $:

$$ \ begin {align} \ operatorname {E} \ tilde {\ sigma} _1 - \ sigma & = 0 \\\ operatorname { E} \ tilde {\ sigma} _2 - \ sigma & = (c_1 -1) \ sigma \\\ operatornamn {Var} \ tilde {\ sigma} _1 = \ operatornamn {E} \ tilde {\ sigma} ^ {2 } _1 - \ left (\ operatorname {E} \ tilde {\ sigma} ^ 1_1 \ right) ^ 2 & = \ frac {c_ {2} -c_1 ^ 2} {c_1 ^ 2} \ sigma ^ {2} = \ left (\ frac {1} {c_1 ^ 2} -1 \ höger) \ sigma ^ 2 \\\ opera tornorn {Var} \ tilde {\ sigma} _2 = \ operatorname {E} \ tilde {\ sigma} ^ {2} _1 - \ left (\ operatorname {E} \ tilde {\ sigma} _2 \ right) ^ 2 & = \ frac {c_ {2} -c_1 ^ 2} {c_2} \ sigma ^ {2} = (1-c_1 ^ 2) \ sigma ^ 2 \ end {align} $$ (Observera att $ c_2 = 1 $, eftersom $ S ^ 2 $ redan är en opartisk uppskattning av $ \ sigma ^ 2 $.)

Plot showing contributions of bias & variance to MSE at sample sizes from one to 20 for the two estimators

Det genomsnittliga kvadratfelet på $ a_k S ^ k $ som en uppskattning av $ \ sigma ^ 2 $ ges av

$$ \ begin {align} (\ operatorname {E} a_k S ^ k - \ sigma ^ k) ^ 2 + \ operatorname {E} (a_k S ^ k) ^ 2 - (\ operatorname {E} a_k S ^ k) ^ 2& = [(a_k c_k -1) ^ 2 + a_k ^ 2 c_ {2k} - a_k ^ 2 c_k ^ 2] \ sigma ^ {2k} \\ & = (a_k ^ 2 c_ {2k} -2 a_k c_k + 1) \ sigma ^ {2k} \ end {align} $ $

& minimeras därför när

$$ a_k = \ frac {c_k} {c_ {2k}} $$

, vilket möjliggör definition av en annan uppsättning av uppskattare av potentiellt intresse:

$$ \ hat {\ sigma} ^ k_j = \ left (\ frac {c_j S ^ j} {c_ {2j}} \ right) ^ \ frac {k} {j} $$

Märkligt nog, $ \ hat {\ sigma} ^ 1_1 = c_1S $, så samma konstant som delar $ S $ för att ta bort förspänning multiplicerar $ S $ för att minska MSE. Hur som helst, dessa är de enhetligt minsta varians plats-invarianta & skala-ekvivarianta uppskattarna av $ \ sigma ^ k $ (du vill inte att din uppskattning ska ändras alls om du mäter i kelvin snarare än grader Celsius, & du vill att den ska ändra med faktorn $ \ left (\ frac {9} {5} \ right) ^ k $ om du mäter i Fahrenheit).

Inget av ovanstående har någon betydelse för konstruktionen av hypoteser eller konfidensintervall (se t.ex. Varför säger detta utdrag att opartisk uppskattning av standardavvikelse vanligtvis inte är relevant?). Och $ \ tilde {\ sigma} ^ k_j $ & $ \ hat {\ sigma} ^ k_j $ avlägsnar varken uppskattare eller parameterskalor av potentiellt intresse - överväga den maximala sannolikhetsuppskattaren $ \ sqrt { \ frac {n-1} {n}} S $, eller den median-objektiva uppskattaren $ \ sqrt {\ frac {n-1} {\ chi ^ 2_ {n-1} (0,5)}} S $; eller den geometriska standardavvikelsen för en lognormal distribution $ \ mathrm {e} ^ \ sigma $. Det kan vara värt att visa några mer eller mindre populära uppskattningar gjorda av ett litet urval ($ n = 2 $) tillsammans med de övre & nedre gränserna, $ \ sqrt {\ frac {(n-1) s ^ 2} {\ chi ^ 2_ {n-1} (\ alpha)}} $ & $ \ sqrt {\ frac {(n-1) s ^ 2} {\ chi ^ 2_ {n-1} (1- \ alpha) }} $, av det lika svansade konfidensintervallet med täckning $ 1- \ alpha $:

confidence distribution for $\sigma$ showing estimates

Spännvidden mellan de mest avvikande uppskattningarna är försumbar jämfört med bredden på alla konfidensintervall som har anständig täckning. (95% CI, till exempel, är $ (0,45s, 31,9s) $.) Det är ingen mening att vara snygg över egenskaperna hos en punktuppskattare såvida du inte är beredd att vara ganska tydlig om vad du vill att du vill använd den för - tydligast kan du definiera en anpassad förlustfunktion för ett visst program. En anledning till att du kanske föredrar en exakt (eller nästan) opartisk uppskattning är att du kommer att använda den i efterföljande beräkningar under vilka du inte vill att förspänningen ska ackumuleras: din illustration av genomsnittliga förspända uppskattningar av standardavvikelse är ett enkelt exempel på sådana (ett mer komplext exempel kan vara att använda dem som ett svar i en linjär regression). I princip bör en heltäckande modell undanröja behovet av opartiska uppskattningar som ett mellansteg, men det kan vara betydligt svårare att specificera &-passform.

† Värdet på $ \ sigma $ som gör de observerade data mest sannolika har en överklagande som en uppskattning oberoende av övervägande av dess provfördelning.

civilstat
2016-12-11 08:37:29 UTC
view on stackexchange narkive permalink

F2: Skulle någon snälla förklara för mig varför vi använder SD ändå, eftersom det är tydligt partiskt och vilseledande?

Detta kom upp som ett bortfall i kommentarer, men jag tror att det upprepas eftersom det är kärnan i svaret:

Exempelvariansformeln är opartisk, och avvikelser är additiva . Så om du förväntar dig att göra några (affina) omvandlingar är detta en allvarlig statistisk anledning till varför du bör insistera på en "trevlig" variansuppskattare över en "trevlig" SD-uppskattning.

I en idealisk värld är de skulle vara likvärdigt. Men det är inte sant i detta universum. Du måste välja en, så du kan lika gärna välja den som låter dig kombinera information på vägen.

Jämföra två exempelmedel? Variansen av deras skillnad är summan av deras avvikelser.
Gör en linjär kontrast med flera termer? Få dess varians genom att ta en linjär kombination av deras avvikelser.
Ser du på regressionslinjepassningar? Få deras varians med hjälp av varians-kovariansmatrisen för dina uppskattade beta-koefficienter.
Använda F-test, eller t-test, eller t-baserade konfidensintervall? F-testet kräver avvikelser direkt; och t-testet motsvarar exakt kvadratroten av ett F-test.

I vart och ett av dessa vanliga scenarier, om du börjar med opartiska avvikelser, förblir du opartisk hela vägen (om inte din sista steget konverteras till SD för rapportering).
Om du skulle börja med opartiska SD skulle varken dina mellansteg eller slutresultatet vara opartiskt ändå .

Avvikelse är inte en avståndsmätning, och standardavvikelse är.Ja, vektoravstånd läggs till med kvadrater, men den primära mätningen är avstånd.Frågan var vad skulle du använda korrigerat avstånd för, och inte varför ska vi ignorera avstånd som om det inte fanns.
Jag antar att jag argumenterar för att "den primära mätningen är avstånd" inte nödvändigtvis är sant. 1) Har du en metod för att arbeta med opartiska avvikelser;kombinera dem;ta den slutliga resulterande variansen;och skala om sin sqrt för att få en opartisk SD?Bra, gör sedan det.Om inte... 2) Vad ska du * göra * med en SD från ett litet urval?Rapportera det på egen hand?Bättre att bara plotta datapunkterna direkt, inte sammanfatta spridningen.Och hur kommer människor att tolka det, annat än som en input till SE och därmed CI?Det är meningsfullt som en ingång till CI, men då föredrar jag den t-baserade CI (med vanlig SD).
Jag tror inte att många kliniska studier eller kommersiella program med $ n <25 $ skulle använda standardfel av medelvärdet beräknat från ett litet urval korrigerad standardavvikelse vilket leder till ett falskt intryck av hur små dessa fel är.Jag tycker att även den ena frågan, även om den är den enda, borde ignoreras.
"så du kan lika gärna välja den som låter dig kombinera information på vägen" och "den primära mätningen är avstånd" är inte nödvändigtvis sant.Bonden Jo's hus är 640 tunnland längs vägen?Man använder rätt mätning korrekt för varje situation, eller man har en högre tolerans för falskt vittne än jag. Min enda fråga här är när man ska använda vad, och svaret på det är inte "aldrig".
Tja, +1 i alla fall, svaret är inte dåligt.
Carl
2016-12-08 12:49:39 UTC
view on stackexchange narkive permalink

Det här inlägget är i översiktsform.

(1) Att ta en kvadratrot är inte en affin transformation (Credit @Scortchi.)

(2) $ {\ rm var} (s) = {\ rm E} (s ^ 2) - {\ rm E} (s) ^ 2 $, alltså $ {\ rm E} (s) = \ sqrt {{\ rm E} (s ^ 2) - {\ rm var} (s)} \ neq {\ sqrt {\ rm var (s)}} $

(3) $ {\ rm var} (s) = \ frac {\ Sigma_ { i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {n-1} $, medan $ \ text {E} (s) \, = \, \, \ frac { \ Gamma \ left (\ frac {n-1} {2} \ right)} {\ Gamma \ left (\ frac {n} {2} \ right)} \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {2}} $ $ \ neq \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {n-1}} = {\ sqrt {\ rm var (s)}} $

(4) Vi kan alltså inte ersätta $ {\ sqrt {\ rm var (s)}} $ för $ \ text {E} (s) $, för $ n $ liten, eftersom kvadratroten inte är affin.

(5) $ {\ rm var} (s) $ och $ \ text {E} (s) $ är opartiska (Credit @ GeoMatt22 respektive @Macro).

(6) För icke-normala distributioner är $ \ bar {x} $ ibland (a) odefinierad (t.ex. Cauchy, Pareto med liten $ \ alpha $) och (b) inte UMVUE (t.ex. Cauchy ($ \ rightarrow $ Student's- $ t $ with $ df = 1 $), Pareto, Uniform, beta). Ännu vanligare kan varians vara odefinierad, t.ex. Student- $ t $ med $ 1 \ leq df \ leq2 $. Då kan man konstatera att $ \ text {var} (s) $ inte är UMVUE för den allmänna fallfördelningen. Således finns det ingen särskild skyldighet att införa en ungefärlig korrigering av litet antal för standardavvikelse, som sannolikt har liknande begränsningar till $ \ sqrt {\ text {var} (s)} $, men som dessutom är mindre partisk, $ \ hat \ sigma = \ sqrt {\ frac {1} {n - 1.5 - \ tfrac14 \ gamma_2} \ sum_ {i = 1} ^ n (x_i - \ bar {x}) ^ 2} $,

där $ \ gamma_2 $ är överskott av kurtos. På samma sätt, när vi undersöker en normal kvadratfördelning (en Chi-kvadrat med $ df = 1 $ transform), kan vi bli frestade att ta dess kvadratrot och använda de resulterande normalfördelningsegenskaperna. I allmänhet kan normalfördelningen bero på omvandlingar av andra fördelningar och det kan vara lämpligt att undersöka egenskaperna hos den normala fördelningen så att begränsningen av litet antal korrigeringar till det normala fallet inte är så allvarlig en begränsning som man kan antar först.

För normalfördelningsfallet:

A1: Av Lehmann-Scheffes teorem $ {\ rm var} (s) $ och $ \ text {E} (s) $ är UMVUE (Credit @Scortchi).

A2: (Redigerad för att justera för kommentarer nedan .) För $ n \ leq 25 $, bör vi använda $ \ text {E} (s) $ för standardavvikelse, standardfel, konfidensintervall för medelvärdet och fördelningen, och valfritt för z-statistik. För $ t $ -test skulle vi inte använda den opartiska beräknaren eftersom $ \ frac {\ bar X - \ mu} {\ sqrt {\ text {var} (n) / n}} $ själv är student- $ t $ distribuerad med $ n-1 $ frihetsgrader (Credit @ whuber och @ GeoMatt22). För z-statistik approximeras vanligtvis $ \ sigma $ med $ n $ large för vilken $ \ text {E} (s) - \ sqrt {\ text {var} (n)} $ är liten, men för vilken $ \ texten {E} (s) $ verkar vara mer matematiskt lämplig (Credit @whuber och @ GeoMatt22).

** A2 är felaktig: ** efter det att receptet skulle bevisa ogiltiga tester.Som jag kommenterade frågan, kanske för subtilt: konsultera alla teoretiska redogörelser för ett klassiskt test, som t-testet, för att se varför en bias-korrigering är irrelevant.
@whuber Jag tar ditt ord för detta för nu, eftersom du sällan är felaktig.Men jag kommer att undersöka det vidare, om jag inte av någon annan anledning helt enkelt inte förstår hur det du säger kan vara korrekt.
Det finns ett starkt meta-argument som visar varför bias-korrigering för statistiska tester är en röd sill: om det var felaktigt att inte inkludera en bias-korrigeringsfaktor *, skulle den faktorn redan inkluderas i standardtabeller * för Student t-fördelningen, Fdistribution osv. För att uttrycka det på ett annat sätt: om jag har fel i det här har alla gjort fel när det gäller statistiska tester under det senaste århundradet.
@whuber Jag förstår det meta-argumentet.Men utan att göra en simulering för att bekräfta det tror jag bara inte på det.Min metatanke är att standardtabellerna använder faktiska befolkningsvärden, inte provvärden.
Se [Varför säger detta utdrag att opartisk uppskattning av standardavvikelse vanligtvis inte är relevant?] (Http://stats.stackexchange.com/q/33235/17230).Det kan vara till hjälp när man skriver formeln för t-statistiken att komma ihåg förekomsten av en uppskattning av befolkningsstandardavvikelsen i nämnaren, men det är allt som finns till det.
Är jag den enda som är förvirrad av notationen här?Varför använda $ \ operatorname {E} (s) $ för att stå för $ \ frac {\ Gamma \ left (\ frac {n-1} {2} \ right)} {\ Gamma \ left (\ frac {n} {2} \ höger)} \ sqrt {\ frac {\ Sigma_ {i = 1} ^ {n} (x_i- \ bar {x}) ^ 2} {2}} $, den opartiska uppskattningen av standardavvikelse?Vad är $ s $?
@Scortchi notationen uppenbarligen uppstått som ett försök att ärva det som används i [länkat inlägg] (http://stats.stackexchange.com/a/27984/99274).Det är $ s $ provvariansen, och $ E (s) $ är det förväntade värdet på $ s $ för ett Gaussiskt prov.I den här frågan valdes "$ E (s) $" för att vara en ny uppskattare härledd från det ursprungliga inlägget (dvs något som $ \ hat {\ sigma} \ equiv s / \ alpha $ där $ \ alpha \ equiv\ mathbb {E} [s] / \ sigma $).Om vi kommer fram till ett tillfredsställande svar för denna fråga, skulle det troligen vara nödvändigt att städa frågan och svaret :)
$ s $ är typiskt för standardavvikelse.Jag antar att man borde använda $ \ hat {\ sigma} $ eller något sådant någonstans.Fortsätt och redigera texterna om du vill, jag är en nybörjare för statistisk notering, om inte för betydelsen av siffror.
Carl: Jag lade till en anteckning i mitt svar med min tidigare kommentar och försökte också komma på whubers punkt.Om du kontrollerar Wikipedia-länkarna bör de ge referenser för mer information.Grundpoängen är att standardstatistiska tester ** redan tar hänsyn till ** bias.
@GeoMatt22 Det är precis vad whuber sa, jag förstod det, jag förstår bara inte hur det skulle kunna vara sant.Det finns problemet att ersätta en felaktig underskattning av populationsstandardavvikelse i en formel som kalibrerades för sanna befolkningsstandardavvikelser.
Här är din simulering.Den matar ut ett histogram av t-statistik, med eller utan en bias-korrigering för nämnaren, och överlagrar Student t-fördelningen.Korrigeringen är giltig om histogrammet och den teoretiska kurvan överensstämmer.`n <- 4; n.sim <- 1e5; korrigering <- exp (lgamma ((n-1) / 2) - lgamma (n / 2) - log (2 / (n-1)) / 2); #korrigering <- 1; x <- applicera (matris (rnorm (n * n.sim), n), 2, funktion (y) sqrt (n) * medelvärde (y) / (sd (y) / korrigering)); x <- x [abs (x) <7]; h <- hist (x, raster = 100); k <- längd (x); kurva (k * median (diff (h $ bryter)) * dt (x, n-1), add = TRUE, col = "Red", n = 201); "
@whuber Jag använder Mathematica, även om jag har en kopia av R på min dator, men jag förstår poängen.
@GeoMatt22 $ \ frac {\ bar X - \ mu} {\ sigma / \ sqrt n} \ leftarrow \ frac {\ bar X - \ mu} {S / \ sqrt n} $, om det här har en student- $ t $distribution med $ n-1 $ frihetsgrader?
@whuber OK, jag köper ditt argument för t-testet, hur är det med z-testet?
Z-testet förutsätter att nämnaren är en korrekt uppskattning av $ \ sigma $.Det är känt att det är en approximation som bara är asymptotiskt korrekt.Om du vill korrigera det, * använd * inte förspänningen för SD-uppskattaren - använd bara ett t-test.Det är vad t-testet uppfanns för.
@whuber Jag kan komma ihåg en situation där endast z-testet var tillämpligt.Om det du säger aldrig använder z-testet, tror jag (inte säker) som gör vissa problem svåråtkomliga.
Jag säger inte att aldrig använda ett z-test.Bara för att något är en approximation betyder det inte att det ska undvikas.Det skulle dock vara överflödigt att diskutera frågan, för det har diskuterats så omfattande under de senaste 100 åren: de flesta början av statistiktexter kommer att ge användbara råd.
Carl: För ett $ z $ -test, säg att du uppskattar $ \ mu \ approx \ bar {x} $ med provstorlek $ n $, men felet $ \ sigma $ domineras av mätinstrumentet, som tidigare kalibrerades tilluppskatta $ \ sigma \ approx s_m $, men där $ m $ är ** mycket ** större än $ n $.
@GeoMatt22 Vid kalibrering av $ \ sigma $ för första gången, vilket inte är atypiskt, skulle det därför vara bättre att använda den opartiska beräkningen, såvida inte den avsedda användningen är för $ t $ -testning.Jag har fortfarande ett problem med självkonsistens för $ t $ -statistikavvikelse eftersom standardavvikelse är en absolut avståndsmätning, att ha den förändringen mellan en normalfördelning och en Student-t-fördelning är intressant.
Ja.Jag hänvisade till ett fall där du kan använda en mätanordning (t.ex. skala, termometer) och innan du skaffade enheten kalibrerade enhetstillverkaren den mot en [standard] (https://en.wikipedia.org/wiki/ Standard_ (metrologi)) med t.ex.$ m = 10 ^ 3 $ och rapporterade $ s_m \ approx \ sigma $.Säg att du jämför $ n = 2 $ vikter för ett ämne och vill säga om någon skillnad beror på mätfel.Då kan "$ \ sigma $" anses vara "effektivt känt".(Precis som ett "till exempel" där ett $ z $ -test kanske skulle kunna användas.)
@GeoMatt22 Jag har bara någonsin varit upphovsmannen till mina egna kalibreringar för nya metoder (tidskriftsartiklar), så mitt intresse kan verka som nit-picking, men kommer med territoriet.Försöker inte vara svårt, bara famlar efter svar.
Carl, inget problem.Jag tror att alla "klassiska signifikansprov" inte har några problem ... så länge befolkningen är gaussisk.Så mer sannolikt misslyckande är att för "liten $ n $" har den centrala gränssatsen inte startat, så det Gaussiska antagandet bryts lättare (t.ex. $ \ bar {x} _n $ är * asymptotiskt * normalt för icke-Gaussiska $ x $, men om $ n = 2 $ kan det inte vara till hjälp!)
Den grundläggande punkten här är att man inte ska genomsnittliga standardavvikelser, de lägger till med rotens medelkvadrat.Och om man bara har två datapunkter kommer variansen att vara OK, men standardavvikelsen kommer att underskattas och markant på det.
Neil G
2016-12-14 21:31:04 UTC
view on stackexchange narkive permalink

Jag vill lägga till det Bayesiska svaret i denna diskussion.Bara för att ditt antagande är att data genereras enligt något normalt med okänt medelvärde och varians betyder det inte att du ska sammanfatta dina data med hjälp av ett medelvärde och en varians.Hela detta problem kan undvikas om du ritar modellen, som kommer att ha en bakre förutsägelse som är en treparameters icke-central skalad studentens T-fördelning.De tre parametrarna är summan av proverna, summan av de kvadrerade proverna och antalet prover.(Eller någon karta över dessa.)

Jag gillar för övrigt civilstatens svar eftersom det lyfter fram vår önskan att kombinera information.De tre tillräckliga statistiken ovan är ännu bättre än de två som ges i frågan (eller av civilstatens svar).Två uppsättningar av denna statistik kan enkelt kombineras, och de ger den bästa bakre förutsägelsen med tanke på antagandet om normalitet.

Hur beräknar man då ett opartiskt standardfel av medelvärdet utifrån de tre tillräckliga statistiken?
@carl Du kan enkelt beräkna det eftersom du har antalet sampel $ n $, du kan multiplicera den okorrigerade variansen med $ \ frac {n} {n-1} $.Men du vill verkligen inte göra det.Det motsvarar att förvandla dina tre parametrar till en bäst anpassad normalfördelning till dina begränsade data.Det är mycket bättre att använda dina tre parametrar för att passa den verkliga bakre förutsägelsen: den icke-centrala skalade T-fördelningen.Alla frågor du kan ha (percentiler etc.) besvaras bättre av denna T-distribution.I själva verket är T-tester bara sunt förnuft som ställs om denna fördelning.
Hur kan man sedan skapa en riktig normalfördelnings RV från Monte Carlo-simuleringar och återställa den sanna distributionen med endast Student- $ t $ distributionsparametrar?Saknar jag något här?
@Carl Den tillräckliga statistiken jag beskrev var medelvärdet, andra ögonblicket och antalet prover.Din MLE för det ursprungliga normala är medelvärdet och variansen (vilket är lika med det andra ögonblicket minus det kvadratiska medelvärdet).Antalet prover är användbart när du vill göra förutsägelser om framtida observationer (för vilka du behöver den bakre prediktiva fördelningen).
Även om ett Bayesianskt perspektiv är ett välkommet tillskott, tycker jag att det är lite svårt att följa: jag hade förväntat mig en diskussion om att konstruera en poängskattning från den bakre densiteten på $ \ sigma $.Det verkar som att du snarare ifrågasätter behovet av en poänguppskattning: det här är något som är väl värt att ta upp, men inte unikt Bayesian.(BTW du måste också förklara priors.)


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...