I mina klasser använder jag en "enkel" situation som kan hjälpa dig att undra och kanske utveckla en magkänsla för vad en grad av frihet kan betyda.
Det är typ av en "Forrest Gump" inställning till ämnet, men det är värt att försöka.
Tänk på att du har 10 oberoende observationer $ X_1, X_2, \ ldots, X_ {10} \ sim N (\ mu, \ sigma ^ 2) $ som kom direkt från en normal befolkning vars medelvärde $ \ mu $ och varians $ \ sigma ^ 2 $ är okända.
Dina observationer ger dig information om både $ \ mu $ och $ \ sigma ^ 2 $. När allt kommer omkring tenderar dina observationer att spridas kring ett centralt värde, som borde vara nära det faktiska och okända värdet på $ \ mu $ och, om $ \ mu $ är mycket högt eller mycket lågt, kan du förvänta dig för att se dina observationer samlas kring ett mycket högt eller mycket lågt värde respektive. En bra "ersättning" för $ \ mu $ (i avsaknad av kunskap om dess faktiska värde) är $ \ bar X $, genomsnittet för din observation.
Dessutom, om dina observationer ligger mycket nära varandra, är det en indikation på att du kan förvänta dig att $ \ sigma ^ 2 $ måste vara liten och på samma sätt om $ \ sigma ^ 2 $ är mycket stora, då kan du förvänta dig att se väldigt olika värden för $ X_1 $ till $ X_ {10} $.
Om du skulle satsa veckans lön som skulle vara de faktiska värdena på $ \ mu $ och $ \ sigma ^ 2 $, måste du välja ett par värden där du skulle satsa dina pengar. Låt oss inte tänka på något så dramatiskt som att förlora din lönecheck om du inte gissar $ \ mu $ korrekt tills dess 200: e decimalposition. Nej. Låt oss tänka på ett slags prisvärt system att ju närmare du gissar $ \ mu $ och $ \ sigma ^ 2 $ desto mer blir du belönad.
På något sätt blir du bättre, mer informerad och mer artig gissa för $ \ mu $ s värde kan vara $ \ bar X $. I den meningen uppskattar du att $ \ mu $ måste vara något värde runt $ \ bar X $. På samma sätt är en bra "ersättning" för $ \ sigma ^ 2 $ (inte nödvändigt för tillfället) $ S ^ 2 $, din provvarians, vilket gör en bra uppskattning för $ \ sigma $.
Om du skulle tro att dessa ersättare är de faktiska värdena på $ \ mu $ och $ \ sigma 2 $, skulle du förmodligen ha fel, för mycket smal är chansen att du var så lycklig att dina observationer samordnade sig till ge dig gåvan att $ \ bar X $ är lika med $ \ mu $ och $ S ^ 2 $ lika med $ \ sigma ^ 2 $. Nej, förmodligen hände det inte.
Men du kan vara på olika nivåer av fel, varierande från lite fel till riktigt, riktigt, riktigt olyckligt fel (aka, " Hejdå, lönecheck, vi ses nästa vecka! ").
Okej, låt oss säga att du tog $ \ bar X $ som din gissning för $ \ mu $. Tänk bara på två scenarier: $ S ^ 2 = 2 $ och $ S ^ 2 = 20 000 000 $. I det första sitter dina observationer vackert och nära varandra. I det senare varierar dina observationer vilt. I vilket scenario bör du vara mer bekymrad över dina potentiella förluster? Om du tänkte på den andra har du rätt. Att ha en uppskattning om $ \ sigma ^ 2 $ ändrar ditt förtroende för din insats mycket rimligt, för ju större $ \ sigma ^ 2 $ är, desto bredare kan du förvänta dig att $ \ bar X $ varierar.
Men utöver information om $ \ mu $ och $ \ sigma ^ 2 $, har dina observationer också en viss mängd helt ren slumpmässig fluktuering som inte är informativ varken om $ \ mu $ eller om $ \ sigma ^ 2 $.
Hur kan du lägga märke till det?
Tja, låt oss för argumentets skull anta att det finns en Gud och att han har tillräckligt med ledig tid för att ge sig själv lättsinnet att berätta för dig specifikt de verkliga (och hittills okända) värdena för både $ \ mu $ och $ \ sigma $.
Och här är den irriterande plot twist av denna lysergiska berättelse: Han berättar det för dig efter du satsade. Kanske för att upplysa dig, kanske för att förbereda dig, kanske för att håna dig. Hur kunde du veta det?
Det gör informationen om $ \ mu $ och $ \ sigma ^ 2 $ i dina observationer ganska värdelös nu. Dina observations centrala position $ \ bar X $ och varians $ S ^ 2 $ är inte längre till någon hjälp för att komma närmare de faktiska värdena på $ \ mu $ och $ \ sigma ^ 2 $, för du känner dem redan.
En av fördelarna med din goda bekantskap med Gud är att du faktiskt vet hur mycket du misslyckades med att gissa korrekt $ \ mu $ genom att använda $ \ bar X $, det vill säga $ (\ bar X - \ mu) $ ditt uppskattningsfel.
Tja, eftersom $ X_i \ sim N (\ mu, \ sigma ^ 2) $, sedan $ \ bar X \ sim N (\ mu, \ sigma ^ 2 / 10) $ (lita på mig att om du vill), också $ (\ bar X - \ mu) \ sim N (0, \ sigma ^ 2/10) $ (ok, lita på mig också det) och, slutligen $$ \ frac {\ bar X - \ mu} {\ sigma / \ sqrt {10}} \ sim N (0,1) $$ (gissa vad? lita på mig också den), som bär absolut ingen information om $ \ mu $ eller $ \ sigma ^ 2 $.
Vet du vad? Om du tog någon av dina enskilda observationer som en gissning för $ \ mu $, skulle ditt uppskattningsfel $ (X_i- \ mu) $ fördelas som $ N (0, \ sigma ^ 2) $. Tja, mellan att uppskatta $ \ mu $ med $ \ bar X $ och alla $ X_i $, skulle det vara bättre att välja $ \ bar X $ eftersom $ Var (\ bar X) = \ sigma ^ 2/10 < \ sigma ^ 2 = Var (X_i) $, så $ \ bar X $ var mindre benägen att avvika från $ \ mu $ än en enskild $ X_i $.
Hur som helst, $ (X_i- \ mu) / \ sigma \ sim N (0,1) $ är också absolut inte informativt om varken $ \ mu $ eller $ \ sigma ^ 2 $.
"Kommer den här berättelsen någonsin att sluta?" du kanske tänker. Du kanske också tänker "Finns det mer slumpmässiga fluktuationer som inte är informativa om $ \ mu $ och $ \ sigma ^ 2 $?".
[Jag föredrar att tro att du tänker på det senare .]
Ja, det finns!
Kvadraten för ditt uppskattningsfel för $ \ mu $ med $ X_i $ dividerat med $ \ sigma $, $$ \ frac {(X_i - \ mu) ^ 2} {\ sigma ^ 2} = \ left (\ frac {X_i- \ mu} {\ sigma} \ höger) ^ 2 \ sim \ chi ^ 2 $$
har en Chi-kvadratfördelning, som är fördelningen av kvadraten $ Z ^ 2 $ av en normal Normal $ Z \ sim N (0,1) $, vilket jag är säker på att du märkte har absolut ingen information om varken $ \ mu $ eller $ \ sigma ^ 2 $, men förmedlar information om variabiliteten du kan förvänta dig att möta.
Det är en mycket välkänd distribution som uppstår naturligt från själva scenariot för ditt spelproblem för varje enskild av dina tio observationer och även från ditt medelvärde: $$ \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2/10} = \ left (\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}} \ höger) ^ 2 = \ vänster (N (0,1) \ höger) ^ 2 \ sim \ chi ^ 2 $$ och även från samlingen av dina tio observations variationer: $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2/10} = \ sum_ {i = 1} ^ {10} \ left (\ frac {X_i - \ mu} {\ sigma / \ sqrt {10}} \ höger) ^ 2 = \ sum_ {i = 1} ^ {10} \ vänster (N (0,1) \ höger) ^ 2 = \ sum_ {i = 1} ^ {10} \ chi ^ 2. $$ Nu har den sista killen ingen Chi-kvadratfördelning, för han är summan av tio av dessa Chi-kvadratfördelningar, alla oberoende av varandra ( becau se så är $ X_1, \ ldots, X_ {10} $). Var och en av dessa enskilda Chi-kvadratfördelning är ett bidrag till mängden slumpmässig variabilitet du kan förvänta dig att möta, med ungefär samma mängd bidrag till summan.
Värdet för varje bidrag är inte matematiskt lika med de andra nio, men alla har samma förväntade beteende i distributionen. I den meningen är de på något sätt symmetriska.
Var och en av dessa Chi-kvadrater är ett bidrag till mängden ren, slumpmässig variation som du kan förvänta dig i den summan.
Om du hade 100 observationer, skulle summan ovan förväntas vara större bara för att den har fler källor till föroreningar .
Var och en av dessa "källor till bidrag" med samma beteende kan vara kallas frihetsgrad .
Ta nu ett eller två steg tillbaka, läs igenom de föregående styckena om det behövs för att tillgodose den plötsliga ankomsten av din eftersträvade grad av frihet .
Japp, varje grad av frihet kan betraktas som en variabilitetsenhet som obligatoriskt förväntas inträffa och som inte leder till att gissningen av $ \ mu $ eller $ \ sigma ^ 2 $ förbättras.
Saken är att du börjar räkna med beteendet hos de tio motsvarande variationskällorna. Om du hade 100 observationer skulle du ha 100 oberoende källor med strikt slumpmässig fluktuering till den summan.
Den summan av tio Chi-rutor kallas Chi-kvadratfördelningar med 10 frihetsgrader från och med nu och skriven $ \ chi ^ 2_ {10} $. Vi kan beskriva vad vi kan förvänta oss av det med utgångspunkt från dess sannolikhetsdensitetsfunktion, som matematiskt kan härledas från densiteten från den enskilda Chi-kvadratfördelningen (framöver kallas Chi-kvadratfördelning med en frihetsgrad och skriven $ \ chi ^ 2_1 $), som matematiskt kan härledas från densiteten hos normalfördelningen.
"Så vad?" --- du kanske tänker --- "Det är bara till nytta om Gud tog sig tid att berätta för mig värdena $ \ mu $ och $ \ sigma ^ 2 $, av allt han kunde berätta för mig!"
Om Gud den Allsmäktige var för upptagen för att berätta värdena $ \ mu $ och $ \ sigma ^ 2 $, skulle du fortfarande ha de 10 källorna, de 10 frihetsgraderna.
Saker börjar bli konstiga (Hahahaha; bara nu!) när du gör uppror mot Gud och försöker komma överens helt själv utan att förvänta dig att han ska vara nedlåtande.
Du har $ \ bar X $ och $ S ^ 2 $, uppskattare för $ \ mu $ och $ \ sigma ^ 2 $. Du kan hitta vägen till en säkrare satsning.
Du kan överväga att beräkna summan ovan med $ \ bar X $ och $ S ^ 2 $ på platserna $ \ mu $ och $ \ sigma ^ 2 $: $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {S ^ 2/10} = \ sum_ {i = 1} ^ {10} \ vänster ( \ frac {X_i- \ bar X} {S / \ sqrt {10}} \ höger) ^ 2, $$ men det är inte detsamma som den ursprungliga summan.
"Varför inte?" Termen inuti kvadraten för båda summorna är väldigt olika. Det är till exempel osannolikt men möjligt att alla dina observationer blir större än $ \ mu $, i vilket fall $ (X_i- \ mu) > 0 $, vilket innebär $ \ sum_ {i = 1} ^ {10} (X_i- \ mu) > 0 $, men i sin tur $ \ sum_ {i = 1} ^ {10} (X_i- \ bar X) = 0 $, eftersom $ \ sum_ {i = 1} ^ { 10} X_i-10 \ bar X = 10 \ bar X - 10 \ bar X = 0 $.
Värre, du kan enkelt bevisa (Hahahaha; rätt!) att $ \ sum_ {i = 1} ^ {10} (X_i- \ bar X) ^ 2 \ le \ sum_ {i = 1} ^ {10} (X_i- \ mu) ^ 2 $ med strikt ojämlikhet när minst två observationer är olika (vilket inte är ovanligt).
"Men vänta! Det finns mer!" $$ \ frac { X_i- \ bar X} {S / \ sqrt {10}} $$ har ingen normal normalfördelning, $$ \ frac {(X_i- \ bar X) ^ 2} {S ^ 2/10} $$ fungerar inte har inte Chi-kvadratfördelning med en grad av frihet, $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {S ^ 2/10} $$ gör inte ' t har Chi-kvadratfördelning med 10 frihetsgrader $$ \ frac {\ bar X- \ mu} {S / \ sqrt {10}} $$ har ingen normal normalfördelning.
" Var det allt för ingenting? "
Inget sätt. Nu kommer magin! Observera att $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {[ X_i- \ mu + \ mu- \ bar X] ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {[(X_i- \ mu) - (\ bar X- \ mu )] ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2-2 (X_i- \ mu) (\ bar X- \ mu) + (\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2 - (\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2} - \ sum_ {i = 1} ^ {10 } \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2 } -10 \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2} - \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2/10} $$ eller, ekvivalent, $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i - \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {\ sigma ^ 2} + \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2/10}. $$ Nu kommer vi tillbaka till de kända ansikten.
Den första termen har Chi-kvadratfördelning med 10 frihetsgrader och den sista termen har Chi-kvadratfördelning med en grad av frihet (!).
Vi delar helt enkelt en Chi-kvadrat med 10 oberoende lika beteende källor till variabilitet i två delar, båda positiva: en del är en Chi-kvadrat med en variabelkälla och den andra kan vi bevisa (språng av tro? vinna av WO?) för att också vara ett Chi-kvadrat med 9 (= 10-1) oberoende likvärdiga variationskällor, med båda delarna oberoende av varandra.
Detta är redan en god nyhet, eftersom nu har vi dess distribution.
Ack, den använder $ \ sigma ^ 2 $, som vi inte har tillgång till (kom ihåg att Gud roar sig själv när han tittar på vår kamp).
Tja, $$ S ^ 2 = \ frac {1} {10-1} \ sum_ {i = 1} ^ {10} (X_i- \ bar X) ^ 2, $$ så $$ \ sum_ {i = 1 } ^ {10} \ frac {(X_i- \ bar X) ^ 2} {\ sigma ^ 2} = \ frac {\ sum_ {i = 1} ^ {10} (X_i- \ bar X) ^ 2} { \ sigma ^ 2} = \ frac {(10-1) S ^ 2} {\ sigma ^ 2} \ sim \ chi ^ 2 _ {(10-1)} $$ därför $$ \ frac {\ bar X- \ mu} {S / \ sqrt {10}} = \ frac {\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}}} {\ frac {S} {\ sigma}} = \ frac {\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}}} {\ sqrt {\ frac {S ^ 2} {\ sigma ^ 2}}} = \ frac {\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}}} {\ sqrt {\ frac {\ frac {(10-1) S ^ 2} {\ sigma ^ 2}} {(10-1)}}} = \ frac {N (0,1)} {\ sqrt {\ frac {\ chi ^ 2 _ {(10-1)}} {(10-1)}}, $$ som är en distribution som inte är standardnormalen, men vars densitet kan härledas från densiteterna för standardnormalen och Chi- kvadrat med $ (10-1) $ frihetsgrader.
En mycket, mycket smart kille gjorde den matematiken [^ 1] i början av 1900-talet och, som en oavsiktlig konsekvens, gjorde han sin chef den absoluta världsledaren inom branschen Stout öl. Jag pratar om William Sealy Gosset (aka Student; ja, that Student, från $ t $ -fördelningen) och Saint James's Gate Brewery (aka Guinness Brewery), som jag är en hängiven.
[^ 1]: @whuber berättade i kommentarerna nedan att Gosset inte gjorde matte, utan gissade istället! Jag vet verkligen inte vilken bedrift som är mer förvånande för den tiden.
Det, min kära vän, är ursprunget till $ t $ -fördelningen med $ (10-1) $ frihetsgrader. Förhållandet mellan en standardnorm och en kvadratrot av en oberoende Chi-kvadrat dividerat med dess frihetsgrader, som i en oförutsägbar tidvatten slutar med att beskriva det förväntade beteendet för det uppskattningsfel du genomgår när du använder provgenomsnittet $ \ bar X $ för att uppskatta $ \ mu $ och använda $ S ^ 2 $ för att uppskatta variabiliteten för $ \ bar X $.
Där går du. Med väldigt många tekniska detaljer som sveps grovt bakom mattan, men inte enbart beroende på Guds ingripande för att farligt satsa hela din lönecheck.