Fråga:
Hur förstår man grader av frihet?
ilya
2010-07-28 17:48:14 UTC
view on stackexchange narkive permalink

Jag gillar verkligen första meningen från The Little Handbook of Statistical Practice. Degrees of Freedom Chapter

En av de frågor en instrumentare fruktar mest från en matematiskt osofistikerad publik är, "Vad är exakt grader av frihet?"

Jag tror att du kan få riktigt bra förståelse om grader av frihet från att läsa detta kapitel.

Det skulle vara trevligt att ha en förklaring till * varför * grader av frihet är viktigt snarare än bara vad det är. Att till exempel visa att uppskattningen av varians med 1 / n är partisk men att använda 1 / (n-1) ger en opartisk uppskattning.
Fjorton svar:
Tim
2011-10-13 01:16:52 UTC
view on stackexchange narkive permalink

Från Wikipedia finns tre tolkningar av statistikens frihetsgrader:

I statistiken är antalet frihetsgrader antalet värden i den slutliga beräkningen av en statistik som är fri att variera .

Uppskattningar av statistiska parametrar kan baseras på olika mängder information eller data. Antalet oberoende bitar av information som går in i uppskattningen av en parameter kallas frihetsgraderna (df). I allmänhet är frihetsgraden för en uppskattning av en parameter lika med antalet oberoende poäng som går in i uppskattningen minus antalet parametrar som används som mellansteg i uppskattningen av själva parametern (som i provvariansen är en, eftersom medelvärdet för provet är det enda mellansteget).

Matematiskt är frihetsgrader dimensionen för domänen för slumpmässig vektor eller i huvudsak antalet "fria" komponenter: hur många komponenter som behöver vara kända innan vektorn är helt bestämd .

djärva ord är det jag inte riktigt förstår. Om möjligt kommer vissa matematiska formuleringar att hjälpa till att klargöra konceptet.

Går de tre tolkningarna också överens med varandra?

Se även denna fråga ["Vilka är frihetsgrader?"] (Http://stats.stackexchange.com/questions/884/what-are-degrees-of-freedom)
Kolla in denna [förklaring] (http://www.statsdirect.com/help/basics/degrees_of_freedom.htm)
whuber
2011-10-18 01:26:56 UTC
view on stackexchange narkive permalink

Detta är en subtil fråga. Det tar en tankeväckande person inte att förstå dessa citat! Även om de är suggestiva, visar det sig att ingen av dem är exakt eller i allmänhet korrekt. Jag har inte tid (och det finns inte plats här) för att ge en fullständig redogörelse, men jag skulle vilja dela en strategi och en insikt som den föreslår.

Var gör begreppet frihetsgrader (DF) uppstår? De sammanhang där det finns i elementära behandlingar är:

  • Student-t-testet och dess varianter som Welch- eller Satterthwaite-lösningarna på Behrens-Fisher-problemet (där två populationer har olika varians).

  • Chi-kvadratfördelningen (definierad som en summa av kvadrater av oberoende standardnormaler), vilket är inblandat i samplingsfördelningen av variansen.

  • F-testet (av förhållanden av uppskattade avvikelser).

  • Chi-kvadrat-testet , som omfattar dess användning i (a) testning för oberoende i beredskapstabeller och ( b) testning av fördelningsuppskattningarnas goda passform.

I själva verket kör dessa tester ett spektrum från att vara exakt (Student t-test och F-test för normala variabler) till att vara bra approximationer (Student t-test och Welch / Satterthwaite tester för inte alltför dåligt skev data) till att baseras på asymptotiska approximationer ( Chi-kvadrat-testet). En intressant aspekt av några av dessa är uppkomsten av icke-integrerade "frihetsgrader" (Welch / Satterthwaite-testerna och, som vi kommer att se, Chi-squared-testet). Detta är av särskilt intresse eftersom det är den första antydan att DF inte är något av det som påstås om det.

Vi kan omedelbart ta bort några av påståendena i frågan. Eftersom "slutlig beräkning av en statistik" inte är väldefinierad (det beror tydligen på vilken algoritm man använder för beräkningen) , det kan inte vara mer än ett vagt förslag och det är värt ingen ytterligare kritik. På samma sätt är varken "antalet oberoende poäng som går in i uppskattningen" eller "antalet parametrar som används som mellansteg" väldefinierade.

"Oberoende information som går in i [en ] uppskattning " är svår att hantera, eftersom det finns två olika men nära relaterade sinnen av" oberoende "som kan vara relevanta här. En är oberoende av slumpmässiga variabler; den andra är funktionell oberoende. Som ett exempel på den senare, antar att vi samlar in morfometriska mätningar av ämnen - säg, för enkelhetens skull, de tre sidlängderna $ X $, $ Y $, $ Z $, ytarealer $ S = 2 (XY + YZ + ZX) $, och volymer $ V = XYZ $ för en uppsättning träklossar. De tre sidlängderna kan betraktas som oberoende slumpmässiga variabler, men alla fem variablerna är beroende RV. De fem är också funktionellt beroende eftersom koddomänen ( inte "domänen"!) För den vektorvärderade slumpmässiga variabeln $ (X, Y , Z, S, V) $ spårar ut ett tredimensionellt grenrör i $ \ mathbb {R} ^ 5 $. (Således, lokalt, när som helst $ \ omega \ i \ mathbb {R} ^ 5 $, finns det två funktioner $ f_ \ omega $ och $ g_ \ omega $ för vilka $ f_ \ omega (X (\ psi), \ ldots, V (\ psi)) = 0 $ och $ g_ \ omega (X (\ psi), \ ldots, V (\ psi)) = 0 $ för poäng $ \ psi $ "nära" $ \ omega $ och derivat av $ f $ och $ g $ utvärderade till $ \ omega $ är linjärt oberoende.) Men - här är kickern - för många sannolikhetsmått på blocken, delmängder av variablerna som $ (X, S, V) $ är beroende som slumpmässiga variabler men funktionellt oberoende.

Efter att ha larmats av dessa potentiella tvetydigheter, låt oss hålla upp Chi-kvadratens godhet av passningstest för undersökning eftersom (a) det är enkelt, (b) det är en av de vanligaste situationerna verkligen behöver veta om DF för att få p-värdet rätt och (c) det används ofta felaktigt. Här är en kort sammanfattning av den minst kontroversiella tillämpningen av detta test:

  • Du har en samling datavärden $ (x_1, \ ldots, x_n) $, betraktas som ett exempel på en population.

  • Du har uppskattat några parametrar $ \ theta_1, \ ldots, \ theta_p $ för en distribution. Till exempel uppskattade du medelvärdet $ \ theta_1 $ och standardavvikelsen $ \ theta_2 = \ theta_p $ för en normalfördelning, och antar att befolkningen normalt är distribuerad men inte vet (innan du erhåller data) vad $ \ theta_1 $ eller $ \ theta_2 $ kan vara.

  • I förväg skapade du en uppsättning $ k $ "soptunnor" för data. (Det kan vara problematiskt när soptunnorna bestäms av data, även om detta ofta görs.) Med hjälp av soptunnorna reduceras data till antalet räkningar i varje fack. Förutse vad de sanna värdena på $ (\ theta) $ kan vara, du har ordnat det så (förhoppningsvis) får varje fack ungefär samma antal. (Lika sannolikhetsbinning försäkrar att chi-kvadratfördelningen verkligen är en bra approximation till den verkliga fördelningen av den chi-kvadratiska statistiken som ska beskrivas.)

  • Du har mycket av data - tillräckligt för att försäkra att nästan alla soptunnor borde ha 5 eller högre. (Vi hoppas att detta möjliggör att samplingsfördelningen av statistiken $ \ chi ^ 2 $ kan approximeras tillräckligt med någon $ \ chi ^ 2 $-distribution.)

Med hjälp av parameteruppskattningarna kan du beräkna det förväntade antalet i varje fack. Statistiken Chi-kvadrat är summan av förhållandena

$$ \ frac {(\ text {observerad} - \ text {förväntad}) ^ 2} {\ text {förväntad}}. $$

Detta, enligt många myndigheter, borde ha (till en mycket nära approximation) en Chi-kvadratfördelning. Men det finns en hel familj av sådana distributioner. De differentieras med en parameter $ \ nu $ som ofta kallas "frihetsgrader." Standardresonemanget om hur man bestämmer $ \ nu $ fungerar så här

Jag har $ k $ -antal. Det är $ k $ bitar av data. Men det finns ( funktionella ) förhållanden mellan dem. Till att börja med vet jag i förväg att summan av räkningarna måste vara lika med $ n $. Det är ett förhållande. Jag beräknade två (eller $ p $, i allmänhet) parametrar från data. Det är ytterligare två (eller $ p $) ytterligare relationer, vilket ger $ p + 1 $ totala relationer. Om vi ​​antar att de (parametrarna) är alla ( funktionellt ) oberoende, lämnar det bara $ kp-1 $ ( funktionellt ) oberoende "frihetsgrader": det är värdet att använda för $ \ nu $.

Problemet med detta resonemang (vilket är den typ av beräkning citaten i frågan antyder) är att det är fel förutom när vissa speciella ytterligare villkor gäller. Dessutom har dessa villkor ingenting att göra med oberoende (funktionell eller statistisk), med antal "komponenter" i data, med siffror av parametrar eller med något annat som hänvisas till i den ursprungliga frågan.

Låt mig visa dig ett exempel. (För att göra det så tydligt som möjligt använder jag ett litet antal soptunnor, men det är inte nödvändigt.) Låt oss generera 20 oberoende och identiskt fördelade (iid) standardnormala variabler och uppskatta deras medel- och standardavvikelse med de vanliga formlerna ( medelvärde = summa / antal, etc .). För att testa passformen skapar du fyra soptunnor med klipppunkter vid kvartilerna i en standardnorm: -0,675, 0, +0,657 och använder soptunnorna för att skapa en Chi-kvadratstatistik. Upprepa som tålamod tillåter; Jag hade tid att göra 10 000 repetitioner.

Standardvisdomen om DF säger att vi har fyra lagerplatser och 1 + 2 = 3 begränsningar, vilket innebär att fördelningen av dessa 10 000 Chi-kvadratstatistik ska följa en Chi-kvadratfördelning med 1 DF. Här är histogrammet:

Figure 1

Den mörkblå linjen visar PDF för en $ \ chi ^ 2 (1) $ distribution - den vi trodde skulle fungera-- medan den mörka röda linjen visar en $ \ chi ^ 2 (2) $-distribution (vilket skulle vara en bra gissning om någon skulle säga att $ \ nu = 1 $ är felaktig). Varken passar data.

Du kan förvänta dig att problemet beror på den lilla storleken på datamängderna ($ n $ = 20) eller kanske den lilla storleken på numret av soptunnor. Problemet kvarstår emellertid även med mycket stora datamängder och större antal lagerplatser: det är inte bara ett misslyckande att nå en asymptotisk approximation.

  1. Du måste använda maximal sannolikhet uppskattning av parametrarna. (Detta krav kan i praktiken överträffas något.)

  2. Du måste basera den uppskattningen på räkningarna, inte på de faktiska uppgifterna! (Detta är avgörande.)

Figure 2

Det röda histogrammet visar chi-kvadratstatistiken för 10 000 separata efter dessa krav. Visst nog följer den synligt kurvan $ \ chi ^ 2 (1) $ (med ett acceptabelt antal samplingsfel), som vi ursprungligen hade hoppats.

Poängen med denna jämförelse - som jag hoppas att du har sett komma - är att rätt DF att använda för beräkning av p-värden beror på många saker annat än mått på grenrör, räknas av funktionella förhållanden eller geometrin hos normala variabler. Det finns en subtil, delikat interaktion mellan vissa funktionella beroenden, som finns i matematiska förhållanden mellan kvantiteter och fördelningar av data, deras statistik och beräkningarna som bildas av dem. Följaktligen kan det inte vara så att DF kan förklaras på ett tillfredsställande sätt i termer av geometri hos multivariata normalfördelningar, eller i termer av funktionellt oberoende, eller som räkningar av parametrar eller något annat av denna typ.

Vi får då se att "frihetsgrader" bara är en heuristisk som antyder vad provfördelningen av a (t, Chi -kvadrat, eller F) statistik borde vara, men det är inte dispositivt. Att tro att det är dispositivt leder till allvarliga fel. (Till exempel är toppträff på Google när du söker "chi squared goodness of fit" en webbsida från ett Ivy League-universitet som får det mesta av detta helt fel! i synnerhet visar en simulering baserad på dess instruktioner att det chi-kvadratvärde det rekommenderar att ha 7 DF faktiskt har 9 DF.)

Med denna mer nyanserade förståelse är det värt att läsa om Wikipedia-artikeln i fråga: i sina detaljer blir det rätt och pekar på var DF-heuristiken tenderar att fungera och var den antingen är en approximation eller inte alls.


En bra redogörelse för det illustrerade fenomenet här (oväntat hög DF i Chi-kvadrat GOF-tester) visas i Volym II i Kendall & Stuart, 5: e upplagan. Jag är tacksam för den möjlighet som denna fråga ger mig att leda mig tillbaka till denna underbara text, som är full av sådana användbara analyser.


Edit (Jan 2017)

Här är R -kod för att producera figuren efter "Standardvisheten om DF ..."

  # # Simulera data, en iteration per kolumn av `x '. # N <- 20n.sim <- 1e4bins <- qnorm (seq (0, 1, 1/4)) x <- matrix (rnorm (n * n.sim ), nrow = n) ## Beräkna statistik. # m <- colMeans (x) s <- applicera (svep (x, 2, m), 2, sd) räknar <- applicera (matris (som nummer (klipp ( x, soptunnor)), nrow = n), 2, tabulera, nbins = 4) förväntningar <- mapply (funktion (m, s) n * diff (pnorm (soptunnor, m, s)), m, s) chisquared < - colSums ((räknar - förväntningar) ^ 2 / förväntningar) ## Plothistogram över medel, avvikelser och chi-kvadratstatistik. De första två bekräftar att allt fungerar som förväntat. # Mfrow <- par ("mfrow") par (mfrow = c (1,3)) red <- "# a04040" # Avsedd att visa korrekta fördelningarblå <- "# 404090 "# För att visa den förmodade chi-kvadratiska distributionhist (m, freq = FALSE) -kurvan (dnorm (x, sd = 1 / sqrt (n)), lägg till = SANT, kol = röd, lwd = 2) hist (s ^ 2 , freq = FALSE) kurva (dchisq (x * (n-1), df = n-1) * (n-1), add = TRUE, col = red, lwd = 2) hist (chisquared, freq = FALSE, raster = seq (0, tak (max (chisquared)), 1/4), xlim = c (0, 13), ylim = c (0, 0.55), col = "# c0c0ff", border = "# 404040" ) kurva (ifelse (x < = 0, Inf, dchisq (x, df = 2)), add = TRUE, col = red, lwd = 2) curve (ifelse (x < = 0, Inf, dchisq (x, df = 1)), lägg till = SANT, kol = blå, lwd = 2) par (mfrow = mfrow)  
Det här är ett fantastiskt svar. Du vinner på internet för detta.
Bra svar! Jag reproducerar bara $ \ chi ^ 2 $ -simuleringen i R. 1: a delen är inte ett problem, men jag har fastnat med den 2: a delen: Har du pekare till där jag kan lära mig att uppskatta $ \ mu $ och $ \ sigma $ på ett sätt som uppfyller de två villkoren (ML och baserat på räkningar)? Tack!
@caracal: som ni vet är ML-metoder för originaldata rutinmässiga och utbredda: för normalfördelningen är till exempel MLE på $ \ mu $ provmedlet och MLE på $ \ sigma $ är kvadratroten av provet standardavvikelse (* utan * den vanliga biaskorrektionen). För att få uppskattningar baserade på räkningar beräknade jag sannolikhetsfunktionen för räkningarna - detta kräver beräkningsvärden för CDF vid klipppunkterna, tar deras loggar, multiplicerar med räkningarna och lägger till - och optimerade den med generisk optimeringsprogramvara.
@caracal Du behöver förmodligen inte längre det, men ett exempel på `R`-kod för ML-anpassning av binnedata visas nu i en relaterad fråga: http://stats.stackexchange.com/a/34894.
Tack för att jag bekräftade att jag inte förstod den djupare innebörden av DF wrt. statistik. Jag försökte läsa upp detta många gånger, och det gav mig ingen mening.
Varför har chi-kvadratstatistiken nio grader av frihet i det fall du citerar?(Är det bara att en simulering ger en distribution som ser närmare nio än sju ut?)
@Scortchi Den baseras på simuleringsresultaten.
"Problemet med detta resonemang (som är den typ av beräkning som citaten i frågan antyder) är att det är fel förutom när vissa speciella ytterligare villkor gäller."Jag har nu (nästan) gått igenom två terminer i en linjär modellsekvens, och jag förstår grader av frihet för att vara matrisen i "mitten" av kvadratformen.Vilka är dessa "ytterligare villkor"?
@Clarinetist Huvudpoängen med mitt svar är att föreslå att det du har lärt dig bygger på en förvirring av två begrepp i DF.Även om den förvirringen inte orsakar några problem för vanliga minsta kvadrater Normal-teorimodeller, leder det till fel även under enkla, vanliga omständigheter som analyser av beredskapstabeller.Denna matrisrankning ger * funktionell * DF.I en linjär modell med minsta kvadrater händer det * att ge rätt DF för vissa typer av tester, såsom F-tester.För chi-kvadrat-testet räknas de speciella villkoren senare i svaret som punkterna (1) och (2).
@whuber Har du något emot att dela din kod för att producera första och andra resultatet?Jag försöker upprepa dina resultat men till ingen nytta.
@Ken T Det är ganska omfattande kod, allt i * Mathematica * 9. Skulle det vara till nytta?
@Ken Jag har lagt upp en `R`-version av simuleringen i slutet av detta svar.
@whuber tack så mycket!Du är en så generös man.Jag ska studera hårt på detta!
aL3xa
2010-07-28 17:49:32 UTC
view on stackexchange narkive permalink

Eller helt enkelt: antalet element i en numerisk matris som du får ändra så att statistikvärdet förblir oförändrat.

  # till exempel om: x + y + z = 10  

du kan ändra till exempel x och y slumpmässigt, men du kan inte ändra z (du kan, men inte slumpmässigt, därför är du inte fri att ändra det - se Harveys kommentar), för du kommer att ändra statistikens värde (Σ = 10) . Så i det här fallet df = 2.

Det är inte riktigt korrekt att säga "du kan inte ändra z". I själva verket måste du ändra z för att göra summan lika med 10. Men du har inget val (ingen frihet) om vad den förändras till. Du kan ändra två värden, men inte det tredje.
NRH
2011-10-13 03:26:55 UTC
view on stackexchange narkive permalink

Konceptet är inte alls svårt att göra matematik exakt med tanke på lite allmän kunskap om $ n $ -dimensionell euklidisk geometri, delytor och ortogonala projektioner.

Om $ P $ är en ortogonal projektion från $ \ mathbb {R} ^ n $ till ett $ p $ -dimensionellt delområde $ L $ och $ x $ är en godtycklig $ n $ -vektor då är $ Px $ i $ L $, $ x - Px $ och $ Px $ är ortogonala och $ x - Px \ i L ^ {\ perp} $ är i det ortogonala komplementet på $ L $. Dimensionen för detta ortogonala komplement, $ L ^ {\ perp} $, är $ n-p $. Om $ x $ är fritt att variera i ett $ n $ -dimensionellt utrymme är $ x - Px $ fritt att variera i ett $ n-p $ dimensionellt utrymme. Av den anledningen säger vi att $ x - Px $ har $ np $ frihetsgrader .

Dessa överväganden är viktiga för statistiken, för om $ X $ är en $ n $ - dimensionell slumpmässig vektor och $ L $ är en modell för dess medelvärde, det vill säga medelvektorn $ E (X) $ är i $ L $, då kallar vi $ X-PX $ vektorn för rester , och vi använder resterna för att uppskatta variansen. Restenvektorn har $ n-p $ frihetsgrader, det vill säga den är begränsad till ett delområde av dimensionen $ n-p $.

Om koordinaterna för $ X $ är oberoende och normalt fördelade med samma varians $ \ sigma ^ 2 $ då

  • Vektorerna $ PX $ och $ X - PX $ är oberoende.
  • Om $ E (X) \ i L $ är fördelningen av den kvadrerade normen för vektorn av resterna $ || X - PX || ^ 2 $ en $ \ chi ^ 2 $ -distribution med skalparameter $ \ sigma ^ 2 $ och en annan parameter som råkar vara frihetsgraderna $ np $.

Skiss av bevis på dessa fakta ges nedan. De två resultaten är centrala för vidareutvecklingen av den statistiska teorin baserat på normalfördelningen. Observera också att det är därför som $ \ chi ^ 2 $ -fördelningen har den parametrisering som den har. Det är också en $ \ Gamma $ -distribution med skalparameter $ 2 \ sigma ^ 2 $ och formparameter $ (np) / 2 $, men i sammanhanget ovan är det naturligt att parametrera i termer av frihetsgrader.

Jag måste erkänna att jag inte tycker att några av de stycken som citeras i Wikipedia-artikeln är särskilt upplysande, men de är inte riktigt felaktiga eller motstridiga heller. De säger i en exakt och i allmän löst bemärkelse att när vi beräknar uppskattningen av variansparametern, men gör det baserat på rester, baserar vi beräkningen på en vektor som bara är fri att variera i ett utrymme med dimension $ np $.

Utöver teorin om linjära normala modeller kan användningen av begreppet frihetsgrader vara förvirrande. Det används till exempel vid parametriseringen av $ \ chi ^ 2 $ -fördelningen, oavsett om det finns en hänvisning till något som kan ha någon grad av frihet. När vi överväger statistisk analys av kategoriska data kan det finnas en viss förvirring om huruvida de "oberoende bitarna" ska räknas före eller efter en tabell. Dessutom är det inte uppenbart hur begränsningar, även för normala modeller, som inte är begränsningar i underområdet, kan utvidgas. Olika förslag finns vanligtvis under namnet effektiva grader av frihet.

Innan andra användningsområden och betydelser av grader av frihet övervägs kommer jag starkt att rekommendera att bli säker på det i kontext för linjära normala modeller. En referens som handlar om denna modellklass är En första kurs i linjär modellteori, och det finns ytterligare referenser i bokens förord ​​till andra klassiska böcker om linjära modeller.

Bevis på resultaten ovan: Låt $ \ xi = E (X) $, notera att variansmatrisen är $ \ sigma ^ 2 I $ och välj en ortonormal bas $ z_1, \ ldots, z_p $ på $ L $ och på en ortonormal basis $ z_ {p + 1}, \ ldots, z_n $ på $ L ^ {\ perp} $. Då är $ z_1, \ ldots, z_n $ en ortonormal grund för $ \ mathbb {R} ^ n $. Låt $ \ tilde {X} $ beteckna $ n $ -vektorn för koefficienterna på $ X $ på denna grund, det vill säga $$ \ tilde {X} _i = z_i ^ T X. $$ Detta kan också skrivas som $ \ tilde {X} = Z ^ T X $ där $ Z $ är den ortogonala matrisen med $ z_i $ i kolumnerna. Då måste vi använda att $ \ tilde {X} $ har en normalfördelning med medelvärdet $ Z ^ T \ xi $ och eftersom $ Z $ är ortogonalt, variansmatris $ \ sigma ^ 2 I $. Detta följer av generella linjära transformationsresultat för normalfördelningen. Grunden valdes så att koefficienterna för $ PX $ är $ \ tilde {X} _i $ för $ i = 1, \ ldots, p $ och koefficienterna för $ X - PX $ är $ \ tilde {X} _i $ för $ i = p + 1, \ ldots, n $. Eftersom koefficienterna är okorrelerade och gemensamt normala är de oberoende, och detta innebär att $$ PX = \ sum_ {i = 1} ^ p \ tilde {X} _i z_i $$ och $$ X - PX = \ sum_ {i = p + 1} ^ n \ tilde {X} _i z_i $$ är oberoende. Dessutom $$ || X - PX || ^ 2 = \ sum_ {i = p + 1} ^ n \ tilde {X} _i ^ 2. $$ Om $ \ xi \ i L $ då $ E (\ tilde {X} _i) = z_i ^ T \ xi = 0 $ för $ i = p +1, \ ldots, n $ för då $ z_i \ i L ^ {\ perp} $ och därmed $ z_i \ perp \ xi $. I detta fall är $ || X - PX || ^ 2 $ summan av $ np $ oberoende $ N (0, \ sigma ^ 2) $ - distribuerade slumpmässiga variabler, vars distribution per definition är en $ \ chi ^ 2 $ -distribution med skalparameter $ \ sigma ^ 2 $ och $ np $ frihetsgrader.

NRH, tack! (1) Varför måste $ E (X) $ vara inom $ L $? (2) Varför $ PX $ och $ X − PX $ är oberoende? (3) Är dof i slumpmässigt variabelt sammanhang definierat från dof i dess deterministiska fall? Är till exempel orsaken till $ || X − PX || ^ 2 $ har dof $ n-p $ eftersom det är sant när $ X $ är en deterministisk variabel istället för en slumpmässig variabel? (4) Finns det referenser (böcker, artiklar eller länkar) som har samma / liknande åsikt som din?
@Tim, $ PX $ och $ X-PX $ är oberoende eftersom de är normala och okorrelerade.
@Tim, Jag har omformulerat svaret lite och gett ett bevis på de angivna resultaten. Medelvärdet måste vara i $ L $ för att bevisa resultatet om $ \ chi ^ 2 $ -fördelningen. Det är ett modellantagande. I litteraturen bör du leta efter linjära normala modeller eller allmänna linjära modeller, men just nu kan jag bara komma ihåg några gamla, opublicerade föreläsningsanteckningar. Jag kommer att se om jag kan hitta en lämplig referens.
Underbart svar. Tack för insikten. En fråga: Jag har förlorat vad du menade med frasen "medelvektorn $ EX $ är i $ L $". Kan du förklara? Försöker du definiera $ E $? att definiera $ L $? något annat? Kanske försöker den här meningen att göra för mycket eller vara för kort för mig. Kan du utarbeta vad som är definitionen av $ E $ i det sammanhang du nämner: är det bara $ E (x_1, x_2, \ dots, x_n) = (x_1 + x_2 + \ dots + x_n) / n $? Kan du utarbeta vad som är $ L $ i detta sammanhang (med normala id-koordinater)? Är det bara $ L = \ mathbb {R} $?
@D.W. $ E $ är förväntningsoperatören. Så $ E (X) $ är vektorn för koordinatvisa förväntningar på $ X $. Underområdet $ L $ är valfritt $ p $ -dimensionellt delområde på $ \ mathbb {R} ^ n $. Det är ett utrymme på $ n $ -vektorer och verkligen inte $ \ mathbb {R} $, men det kan mycket väl vara endimensionellt. Det enklaste exemplet är kanske när det spänns av $ \ mathbf {1} $ - vektorn med en alls $ n $ -koordinater. Detta är modellen för alla koordinater på $ X $ med samma medelvärde, men många mer komplicerade modeller är möjliga.
@NRH, Kan du rekommendera en bok om n-dimensionell euklidisk geometri? Tack!
@CravingSpirit, vad du behöver är en bok om linjär algebra som täcker inre produkter och ortogonala projektioner. Se t.ex. [Linjär algebra gjort rätt] (http://linear.axler.net/), kapitel 6.
För en linjär mjukare modell har jag också sett df definierad som spår av hattmatrisen.Kan du förklara hur detta relaterar till ditt svar?
@user1559897 För en linjär modell är hattmatrisen en ortogonal projektion, och spåret är dimensionen på det utrymme den är en projektion på.Detta tal är $ p $ i beteckningen av svaret, och är därmed frihetsgraderna för projiceringen och inte den kvarvarande.Spåret av hattmatrisen för en linjär mjukare kan ersätta $ p $ i vissa formler, t.ex.[Mallows $ C_P $] (https://goo.gl/zmDHcf), men är inte direkt ett berättigat substitut i andra fall, t.ex.uppskattning av varians.Se avsnitt 3.5 i [Generaliserade tillsatsmodeller] (https://goo.gl/V2mnt1) för hela historien.
Biostat
2011-10-13 01:41:04 UTC
view on stackexchange narkive permalink

Det skiljer sig egentligen inte från hur termen "frihetsgrader" fungerar inom något annat område. Antag till exempel att du har fyra variabler: längden, bredden, arean och omkretsen av en rektangel. Vet du verkligen fyra saker? Nej, för det finns bara två grader av frihet. Om du vet längden och bredden kan du härleda området och omkretsen. Om du känner till längden och området kan du härleda bredden och omkretsen. Om du känner till området och omkretsen kan du härleda längden och bredden (upp till rotation). Om du har alla fyra kan du antingen säga att systemet är konsekvent (alla variablerna överensstämmer med varandra) eller inkonsekvent (ingen rektangel kan faktiskt uppfylla alla villkor). En fyrkant är en rektangel med en frihetsgrad borttagen; om du känner till någon sida av en kvadrat eller dess omkrets eller dess område kan du härleda alla de andra eftersom det bara finns en grad av frihet.

I statistiken blir det mer otydligt, men tanken är fortfarande det samma. Om all information som du använder som ingång för en funktion är oberoende variabler, har du lika många frihetsgrader som du har ingångar. Men om de har beroende på något sätt, så att om du hade n - k-ingångar kunde du räkna ut de återstående k, så har du faktiskt bara n - k frihetsgrader. Och ibland måste du ta hänsyn till det, för att inte övertyga dig själv om att uppgifterna är mer tillförlitliga eller har mer förutsägbar kraft än vad de verkligen gör, genom att räkna fler datapunkter än vad du verkligen har oberoende bitar av data.

(Hämtat från ett inlägg på http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3.)

Dessutom försöker alla tre definitioner nästan att ge samma budskap.

I grund och botten rätt, men jag är orolig för att mellersta stycket kan läsas på ett sätt som förväxlar korrelation, oberoende (av slumpmässiga variabler) och funktionellt oberoende (av ett flertal parametrar). Skillnaden mellan korrelation och oberoende är särskilt viktig att upprätthålla.
@whuber: är det bra nu?
Det är korrekt, men hur det använder termer kan förvirra vissa människor. Det skiljer fortfarande inte uttryckligen beroende av slumpmässiga variabler från funktionellt beroende. Till exempel kommer de två variablerna i en (icke-degenererad) bivariat normalfördelning med icke-noll korrelation att vara beroende (som slumpmässiga variabler) men de erbjuder fortfarande två frihetsgrader.
biostat, tack! Jag undrar om det är möjligt att formulera de tre tolkningarna av WIkipedia i matematik? Det kommer att göra saker tydliga.
@Tim, Jag tror att det är gjort nu. Se mitt svar.
Baserat på det här svaret, kan vi anta att data som inte är iid har mindre än `n` frihetsgrader (givet att vi har` n` datapunkter)?
Det här kopierades från [ett reddit-inlägg som jag gjorde 2009] (http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3).
Vårt hjälpcenter ger tydlig vägledning om hur [referensmaterial skrivet av andra] (http://stats.stackexchange.com/help/referencing), så jag hoppas att OP kommer tillbaka till det här inlägget för att vidta lämpliga åtgärder och delta i konstruktiva interaktioner (vi har dock inte sett honom på ett tag).
Antoni Parellada
2015-08-10 01:47:05 UTC
view on stackexchange narkive permalink

Wikipedia hävdar att frihetsgrader för en slumpmässig vektor kan tolkas som dimensionerna för vektordelområdet. Jag vill gå steg för steg, mycket i grund och botten genom detta som ett partiellt svar och utarbeta Wikipedia-posten.

Det föreslagna exemplet är att en slumpmässig vektor motsvarar mätningarna av en kontinuerlig variabel för olika ämnen, uttryckta som en vektor som sträcker sig från ursprunget $ [a \, b \, c] ^ T $. Dess ortogonala projektion på vektorn $ [1 \, 1 \, 1] ^ T $ resulterar i en vektor som är lika med projiceringen av vektorn för mätningsmedel ($ \ bar {x} = 1/3 (a + b + c $ $, dvs $ [\ bar x \, \ bar x \, \ bar x] ^ T $, prickad med $ \ vec {1} $ vektorn, $ [1 \, 1 \, 1] ^ T $ Denna projicering på det delutrymme som spänns av vektorn till en har $ 1 \, \ text {frihetsgrad} $. resterande -vektorn (avståndet från medelvärdet) är den minsta kvadraterna som projicerar på $ (n - 1) $ - dimensionellt ortogonalt komplement i detta delutrymme och har $ n - 1 \, \ text { frihetsgrader} $, $ n $ är det totala antalet komponenter i vektorn (i vårt fall $ 3 $ eftersom vi är i $ \ mathbb {R} ^ 3 $ i exemplet). Detta kan enkelt bevisas genom att erhålla punktprodukt av $ [\ bar {x} \, \ bar {x} \, \ bar {x}] ^ T $ med skillnaden mellan $ [a \, b \, c] ^ T $ och $ [\ bar {x} \, \ bar {x} \, \ bar {x}] ^ T $:

$$ [\ bar {x} \, \ bar {x} \, \ bar {x }] \, \ börja {bmatrix} a- \ bar {x} \\ b- \ bar {x} \\ c- \ bar {x} \ end {bmatrix} = $$

$ $ = \ bigg [\ tiny \ frac {(a + b + c)} {3} \, \ bigg (a- \ frac {(a + b + c)} {3} \ bigg) \ bigg] + \ bigg [\ tiny \ frac {(a + b + c)} {3} \, \ bigg (b- \ frac {(a + b + c)} {3} \ bigg) \ bigg] + \ bigg [\ liten \ frac {(a + b + c)} {3} \, \ bigg (c- \ frac {(a + b + c)} {3} \ bigg) \ bigg] $$

$$ = \ liten \ frac {(a + b + c)} {3} \ bigg [\ bigg (\ liten a- \ frac {(a + b + c)} {3} \ bigg) + \ bigg (b- \ frac {(a + b + c)} {3} \ bigg) + \ bigg (c- \ frac {(a + b + c)} {3} \ bigg) \ bigg] $$

$$ = \ liten \ frac {(a + b + c)} {3} \ bigg [\ liten \ frac {1} {3} \ bigg (\ liten 3a- (a + b + c) + 3b- (a + b + c) + 3c- (a + b + c) \ bigg) \ bigg] $ $

$$ = \ tiny \ frac {(a + b + c)} {3} \ bigg [\ tiny \ frac {1} {3} (3a-3a + 3b-3b + 3c- 3c) \ bigg] \ large = 0 $$.

Och denna relation sträcker sig till vilken punkt som helst i ett plan som är ortogonalt till $ [\ bar {x} \, \ bar {x} \, \ bar {x}] ^ T $. Detta koncept är viktigt för att förstå varför $ \ frac 1 {\ sigma ^ 2} \ Big ((X_1- \ bar X) ^ 2 + \ cdots + (X_n - \ bar X) ^ 2 \ Big) \ sim \ chi ^ 2_ {n-1} $, ett steg i härledningen av t-distributionen ( här och här).

Låt oss ta poängen $ [35 \, 50 \, 80] ^ T $, motsvarande tre observationer. Medelvärdet är $ 55 $, och vektorn $ [55 \, \, 55 \, \, 55] ^ T $ är den normala (ortogonala) till ett plan, $ 55x + 55y + 55z = D $. Koppla in punktkoordinaterna till planekvationen, $ D = -9075 $.

Nu kan vi välja vilken annan punkt som helst i detta plan, och medelvärdet av dess koordinater kommer att vara $ 55 $, motsvarande geometriskt till dess projektion på vektorn $ [1 \, \, 1 \, \, 1] ^ T $. Därför kan vi för varje medelvärde (i vårt exempel $ 55 $) välja ett oändligt antal par koordinater i $ \ mathbb {R} ^ 2 $ utan begränsning ($ 2 \, \ text {grader av frihet} $); ändå, eftersom planet är i $ \ mathbb {R} ^ 3 $, kommer den tredje koordinaten att bestämmas av ekvationen av planet (eller geometriskt punktens ortogonala projektion mot $ [55 \, \, 55 \, \, 55] ^ T $.

Här visas tre punkter (i vitt) som ligger på planet (ceruleanblått) ortogonalt till $ [55 \, \, 55 \, \, 55] ^ T $ (pil): $ [35 \, \, 50 \, \, 80] ^ T $, $ [80 \, \, 80 \, \, 5] $ och $ [90 \, \, 15 \, \, 60] $ alla i planet (delutrymme med $ 2 \, \ text {df} $), och sedan med ett medelvärde för deras komponenter på $ 55 $, och en ortogonal projektion till $ [1 \, \, 1 \, \, 1] ^ T $ (delutrymme med $ 1 \, \ text {df} $) lika med $ [55 \, \, 55 \, \, 55] ^ T $:

Marcelo Ventura
2016-02-02 13:25:44 UTC
view on stackexchange narkive permalink

I mina klasser använder jag en "enkel" situation som kan hjälpa dig att undra och kanske utveckla en magkänsla för vad en grad av frihet kan betyda.

Det är typ av en "Forrest Gump" inställning till ämnet, men det är värt att försöka.

Tänk på att du har 10 oberoende observationer $ X_1, X_2, \ ldots, X_ {10} \ sim N (\ mu, \ sigma ^ 2) $ som kom direkt från en normal befolkning vars medelvärde $ \ mu $ och varians $ \ sigma ^ 2 $ är okända.

Dina observationer ger dig information om både $ \ mu $ och $ \ sigma ^ 2 $. När allt kommer omkring tenderar dina observationer att spridas kring ett centralt värde, som borde vara nära det faktiska och okända värdet på $ \ mu $ och, om $ \ mu $ är mycket högt eller mycket lågt, kan du förvänta dig för att se dina observationer samlas kring ett mycket högt eller mycket lågt värde respektive. En bra "ersättning" för $ \ mu $ (i avsaknad av kunskap om dess faktiska värde) är $ \ bar X $, genomsnittet för din observation.

Dessutom, om dina observationer ligger mycket nära varandra, är det en indikation på att du kan förvänta dig att $ \ sigma ^ 2 $ måste vara liten och på samma sätt om $ \ sigma ^ 2 $ är mycket stora, då kan du förvänta dig att se väldigt olika värden för $ X_1 $ till $ X_ {10} $.

Om du skulle satsa veckans lön som skulle vara de faktiska värdena på $ \ mu $ och $ \ sigma ^ 2 $, måste du välja ett par värden där du skulle satsa dina pengar. Låt oss inte tänka på något så dramatiskt som att förlora din lönecheck om du inte gissar $ \ mu $ korrekt tills dess 200: e decimalposition. Nej. Låt oss tänka på ett slags prisvärt system att ju närmare du gissar $ \ mu $ och $ \ sigma ^ 2 $ desto mer blir du belönad.

På något sätt blir du bättre, mer informerad och mer artig gissa för $ \ mu $ s värde kan vara $ \ bar X $. I den meningen uppskattar du att $ \ mu $ måste vara något värde runt $ \ bar X $. På samma sätt är en bra "ersättning" för $ \ sigma ^ 2 $ (inte nödvändigt för tillfället) $ S ^ 2 $, din provvarians, vilket gör en bra uppskattning för $ \ sigma $.

Om du skulle tro att dessa ersättare är de faktiska värdena på $ \ mu $ och $ \ sigma 2 $, skulle du förmodligen ha fel, för mycket smal är chansen att du var så lycklig att dina observationer samordnade sig till ge dig gåvan att $ \ bar X $ är lika med $ \ mu $ och $ S ^ 2 $ lika med $ \ sigma ^ 2 $. Nej, förmodligen hände det inte.

Men du kan vara på olika nivåer av fel, varierande från lite fel till riktigt, riktigt, riktigt olyckligt fel (aka, " Hejdå, lönecheck, vi ses nästa vecka! ").

Okej, låt oss säga att du tog $ \ bar X $ som din gissning för $ \ mu $. Tänk bara på två scenarier: $ S ^ 2 = 2 $ och $ S ^ 2 = 20 000 000 $. I det första sitter dina observationer vackert och nära varandra. I det senare varierar dina observationer vilt. I vilket scenario bör du vara mer bekymrad över dina potentiella förluster? Om du tänkte på den andra har du rätt. Att ha en uppskattning om $ \ sigma ^ 2 $ ändrar ditt förtroende för din insats mycket rimligt, för ju större $ \ sigma ^ 2 $ är, desto bredare kan du förvänta dig att $ \ bar X $ varierar.

Men utöver information om $ \ mu $ och $ \ sigma ^ 2 $, har dina observationer också en viss mängd helt ren slumpmässig fluktuering som inte är informativ varken om $ \ mu $ eller om $ \ sigma ^ 2 $.

Hur kan du lägga märke till det?

Tja, låt oss för argumentets skull anta att det finns en Gud och att han har tillräckligt med ledig tid för att ge sig själv lättsinnet att berätta för dig specifikt de verkliga (och hittills okända) värdena för både $ \ mu $ och $ \ sigma $.

Och här är den irriterande plot twist av denna lysergiska berättelse: Han berättar det för dig efter du satsade. Kanske för att upplysa dig, kanske för att förbereda dig, kanske för att håna dig. Hur kunde du veta det?

Det gör informationen om $ \ mu $ och $ \ sigma ^ 2 $ i dina observationer ganska värdelös nu. Dina observations centrala position $ \ bar X $ och varians $ S ^ 2 $ är inte längre till någon hjälp för att komma närmare de faktiska värdena på $ \ mu $ och $ \ sigma ^ 2 $, för du känner dem redan.

En av fördelarna med din goda bekantskap med Gud är att du faktiskt vet hur mycket du misslyckades med att gissa korrekt $ \ mu $ genom att använda $ \ bar X $, det vill säga $ (\ bar X - \ mu) $ ditt uppskattningsfel.

Tja, eftersom $ X_i \ sim N (\ mu, \ sigma ^ 2) $, sedan $ \ bar X \ sim N (\ mu, \ sigma ^ 2 / 10) $ (lita på mig att om du vill), också $ (\ bar X - \ mu) \ sim N (0, \ sigma ^ 2/10) $ (ok, lita på mig också det) och, slutligen $$ \ frac {\ bar X - \ mu} {\ sigma / \ sqrt {10}} \ sim N (0,1) $$ (gissa vad? lita på mig också den), som bär absolut ingen information om $ \ mu $ eller $ \ sigma ^ 2 $.

Vet du vad? Om du tog någon av dina enskilda observationer som en gissning för $ \ mu $, skulle ditt uppskattningsfel $ (X_i- \ mu) $ fördelas som $ N (0, \ sigma ^ 2) $. Tja, mellan att uppskatta $ \ mu $ med $ \ bar X $ och alla $ X_i $, skulle det vara bättre att välja $ \ bar X $ eftersom $ Var (\ bar X) = \ sigma ^ 2/10 < \ sigma ^ 2 = Var (X_i) $, så $ \ bar X $ var mindre benägen att avvika från $ \ mu $ än en enskild $ X_i $.

Hur som helst, $ (X_i- \ mu) / \ sigma \ sim N (0,1) $ är också absolut inte informativt om varken $ \ mu $ eller $ \ sigma ^ 2 $.

"Kommer den här berättelsen någonsin att sluta?" du kanske tänker. Du kanske också tänker "Finns det mer slumpmässiga fluktuationer som inte är informativa om $ \ mu $ och $ \ sigma ^ 2 $?".

[Jag föredrar att tro att du tänker på det senare .]

Ja, det finns!

Kvadraten för ditt uppskattningsfel för $ \ mu $ med $ X_i $ dividerat med $ \ sigma $, $$ \ frac {(X_i - \ mu) ^ 2} {\ sigma ^ 2} = \ left (\ frac {X_i- \ mu} {\ sigma} \ höger) ^ 2 \ sim \ chi ^ 2 $$ har en Chi-kvadratfördelning, som är fördelningen av kvadraten $ Z ^ 2 $ av en normal Normal $ Z \ sim N (0,1) $, vilket jag är säker på att du märkte har absolut ingen information om varken $ \ mu $ eller $ \ sigma ^ 2 $, men förmedlar information om variabiliteten du kan förvänta dig att möta.

Det är en mycket välkänd distribution som uppstår naturligt från själva scenariot för ditt spelproblem för varje enskild av dina tio observationer och även från ditt medelvärde: $$ \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2/10} = \ left (\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}} \ höger) ^ 2 = \ vänster (N (0,1) \ höger) ^ 2 \ sim \ chi ^ 2 $$ och även från samlingen av dina tio observations variationer: $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2/10} = \ sum_ {i = 1} ^ {10} \ left (\ frac {X_i - \ mu} {\ sigma / \ sqrt {10}} \ höger) ^ 2 = \ sum_ {i = 1} ^ {10} \ vänster (N (0,1) \ höger) ^ 2 = \ sum_ {i = 1} ^ {10} \ chi ^ 2. $$ Nu har den sista killen ingen Chi-kvadratfördelning, för han är summan av tio av dessa Chi-kvadratfördelningar, alla oberoende av varandra ( becau se så är $ X_1, \ ldots, X_ {10} $). Var och en av dessa enskilda Chi-kvadratfördelning är ett bidrag till mängden slumpmässig variabilitet du kan förvänta dig att möta, med ungefär samma mängd bidrag till summan.

Värdet för varje bidrag är inte matematiskt lika med de andra nio, men alla har samma förväntade beteende i distributionen. I den meningen är de på något sätt symmetriska.

Var och en av dessa Chi-kvadrater är ett bidrag till mängden ren, slumpmässig variation som du kan förvänta dig i den summan.

Om du hade 100 observationer, skulle summan ovan förväntas vara större bara för att den har fler källor till föroreningar .

Var och en av dessa "källor till bidrag" med samma beteende kan vara kallas frihetsgrad .

Ta nu ett eller två steg tillbaka, läs igenom de föregående styckena om det behövs för att tillgodose den plötsliga ankomsten av din eftersträvade grad av frihet .

Japp, varje grad av frihet kan betraktas som en variabilitetsenhet som obligatoriskt förväntas inträffa och som inte leder till att gissningen av $ \ mu $ eller $ \ sigma ^ 2 $ förbättras.

Saken är att du börjar räkna med beteendet hos de tio motsvarande variationskällorna. Om du hade 100 observationer skulle du ha 100 oberoende källor med strikt slumpmässig fluktuering till den summan.

Den summan av tio Chi-rutor kallas Chi-kvadratfördelningar med 10 frihetsgrader från och med nu och skriven $ \ chi ^ 2_ {10} $. Vi kan beskriva vad vi kan förvänta oss av det med utgångspunkt från dess sannolikhetsdensitetsfunktion, som matematiskt kan härledas från densiteten från den enskilda Chi-kvadratfördelningen (framöver kallas Chi-kvadratfördelning med en frihetsgrad och skriven $ \ chi ^ 2_1 $), som matematiskt kan härledas från densiteten hos normalfördelningen.

"Så vad?" --- du kanske tänker --- "Det är bara till nytta om Gud tog sig tid att berätta för mig värdena $ \ mu $ och $ \ sigma ^ 2 $, av allt han kunde berätta för mig!"

Om Gud den Allsmäktige var för upptagen för att berätta värdena $ \ mu $ och $ \ sigma ^ 2 $, skulle du fortfarande ha de 10 källorna, de 10 frihetsgraderna.

Saker börjar bli konstiga (Hahahaha; bara nu!) när du gör uppror mot Gud och försöker komma överens helt själv utan att förvänta dig att han ska vara nedlåtande.

Du har $ \ bar X $ och $ S ^ 2 $, uppskattare för $ \ mu $ och $ \ sigma ^ 2 $. Du kan hitta vägen till en säkrare satsning.

Du kan överväga att beräkna summan ovan med $ \ bar X $ och $ S ^ 2 $ på platserna $ \ mu $ och $ \ sigma ^ 2 $: $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {S ^ 2/10} = \ sum_ {i = 1} ^ {10} \ vänster ( \ frac {X_i- \ bar X} {S / \ sqrt {10}} \ höger) ^ 2, $$ men det är inte detsamma som den ursprungliga summan.

"Varför inte?" Termen inuti kvadraten för båda summorna är väldigt olika. Det är till exempel osannolikt men möjligt att alla dina observationer blir större än $ \ mu $, i vilket fall $ (X_i- \ mu) > 0 $, vilket innebär $ \ sum_ {i = 1} ^ {10} (X_i- \ mu) > 0 $, men i sin tur $ \ sum_ {i = 1} ^ {10} (X_i- \ bar X) = 0 $, eftersom $ \ sum_ {i = 1} ^ { 10} X_i-10 \ bar X = 10 \ bar X - 10 \ bar X = 0 $.

Värre, du kan enkelt bevisa (Hahahaha; rätt!) att $ \ sum_ {i = 1} ^ {10} (X_i- \ bar X) ^ 2 \ le \ sum_ {i = 1} ^ {10} (X_i- \ mu) ^ 2 $ med strikt ojämlikhet när minst två observationer är olika (vilket inte är ovanligt).

"Men vänta! Det finns mer!" $$ \ frac { X_i- \ bar X} {S / \ sqrt {10}} $$ har ingen normal normalfördelning, $$ \ frac {(X_i- \ bar X) ^ 2} {S ^ 2/10} $$ fungerar inte har inte Chi-kvadratfördelning med en grad av frihet, $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {S ^ 2/10} $$ gör inte ' t har Chi-kvadratfördelning med 10 frihetsgrader $$ \ frac {\ bar X- \ mu} {S / \ sqrt {10}} $$ har ingen normal normalfördelning.

" Var det allt för ingenting? "

Inget sätt. Nu kommer magin! Observera att $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {[ X_i- \ mu + \ mu- \ bar X] ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {[(X_i- \ mu) - (\ bar X- \ mu )] ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2-2 (X_i- \ mu) (\ bar X- \ mu) + (\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2 - (\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2} - \ sum_ {i = 1} ^ {10 } \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2 } -10 \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ mu) ^ 2} {\ sigma ^ 2} - \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2/10} $$ eller, ekvivalent, $$ \ sum_ {i = 1} ^ {10} \ frac {(X_i - \ mu) ^ 2} {\ sigma ^ 2} = \ sum_ {i = 1} ^ {10} \ frac {(X_i- \ bar X) ^ 2} {\ sigma ^ 2} + \ frac {(\ bar X- \ mu) ^ 2} {\ sigma ^ 2/10}. $$ Nu kommer vi tillbaka till de kända ansikten.

Den första termen har Chi-kvadratfördelning med 10 frihetsgrader och den sista termen har Chi-kvadratfördelning med en grad av frihet (!).

Vi delar helt enkelt en Chi-kvadrat med 10 oberoende lika beteende källor till variabilitet i två delar, båda positiva: en del är en Chi-kvadrat med en variabelkälla och den andra kan vi bevisa (språng av tro? vinna av WO?) för att också vara ett Chi-kvadrat med 9 (= 10-1) oberoende likvärdiga variationskällor, med båda delarna oberoende av varandra.

Detta är redan en god nyhet, eftersom nu har vi dess distribution.

Ack, den använder $ \ sigma ^ 2 $, som vi inte har tillgång till (kom ihåg att Gud roar sig själv när han tittar på vår kamp).

Tja, $$ S ^ 2 = \ frac {1} {10-1} \ sum_ {i = 1} ^ {10} (X_i- \ bar X) ^ 2, $$ så $$ \ sum_ {i = 1 } ^ {10} \ frac {(X_i- \ bar X) ^ 2} {\ sigma ^ 2} = \ frac {\ sum_ {i = 1} ^ {10} (X_i- \ bar X) ^ 2} { \ sigma ^ 2} = \ frac {(10-1) S ^ 2} {\ sigma ^ 2} \ sim \ chi ^ 2 _ {(10-1)} $$ därför $$ \ frac {\ bar X- \ mu} {S / \ sqrt {10}} = \ frac {\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}}} {\ frac {S} {\ sigma}} = \ frac {\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}}} {\ sqrt {\ frac {S ^ 2} {\ sigma ^ 2}}} = \ frac {\ frac {\ bar X- \ mu} {\ sigma / \ sqrt {10}}} {\ sqrt {\ frac {\ frac {(10-1) S ^ 2} {\ sigma ^ 2}} {(10-1)}}} = \ frac {N (0,1)} {\ sqrt {\ frac {\ chi ^ 2 _ {(10-1)}} {(10-1)}}, $$ som är en distribution som inte är standardnormalen, men vars densitet kan härledas från densiteterna för standardnormalen och Chi- kvadrat med $ (10-1) $ frihetsgrader.

En mycket, mycket smart kille gjorde den matematiken [^ 1] i början av 1900-talet och, som en oavsiktlig konsekvens, gjorde han sin chef den absoluta världsledaren inom branschen Stout öl. Jag pratar om William Sealy Gosset (aka Student; ja, that Student, från $ t $ -fördelningen) och Saint James's Gate Brewery (aka Guinness Brewery), som jag är en hängiven.

[^ 1]: @whuber berättade i kommentarerna nedan att Gosset inte gjorde matte, utan gissade istället! Jag vet verkligen inte vilken bedrift som är mer förvånande för den tiden.

Det, min kära vän, är ursprunget till $ t $ -fördelningen med $ (10-1) $ frihetsgrader. Förhållandet mellan en standardnorm och en kvadratrot av en oberoende Chi-kvadrat dividerat med dess frihetsgrader, som i en oförutsägbar tidvatten slutar med att beskriva det förväntade beteendet för det uppskattningsfel du genomgår när du använder provgenomsnittet $ \ bar X $ för att uppskatta $ \ mu $ och använda $ S ^ 2 $ för att uppskatta variabiliteten för $ \ bar X $.

Där går du. Med väldigt många tekniska detaljer som sveps grovt bakom mattan, men inte enbart beroende på Guds ingripande för att farligt satsa hela din lönecheck.

Tack för ett sådant försök!Jag erkänner att jag tyckte att din förklaring var mindre övertygande.Det verkar för grundaren vid denna viktiga korsning: "Var och en av de" bidragskällorna "med samma beteende kan kallas grad av frihet."Om du istället hade summerat $ 10 $ oberoende * normala * variabler snarare än $ 10 $ oberoende chi-kvadrerade variabler, skulle du sluta med - * en * normal variabel.På något sätt sväljs "frihetsgraderna" helt.Uppenbarligen finns det något speciellt med chi-kvadrat du ännu inte har beskrivit.BTW, Gosset gjorde inte matte: han gissade!
Tack så mycket för din utvärdering, @whuber!Det är fantastiskt hur många stavfel dyker upp när du har glömt vad du skrev.Om din utvärdering tänkte jag bara illustrera ett annat sätt att tänka - lite mindre matematiskt i någon mening.Jag förstår inte helt vad du menade med _Om du istället hade sammanställt 10 oberoende normala variabler snarare än 10 oberoende chi-kvadratvariabler, skulle du sluta med - en normal variabel_ - som jag gissade för att hålla din nyckelpunkt.Jag kommer att försöka utarbeta mer om det och hoppas kunna förbättra inlägget.
Ben
2020-04-15 09:33:54 UTC
view on stackexchange narkive permalink

Denna speciella fråga är ganska frustrerande för studenter på statistikkurser, eftersom de ofta inte kan få ett direkt svar på exakt vad en grad av frihet definieras som. Jag kommer att försöka rensa det här uppe. Anta att vi har en slumpmässig vektor $ \ mathbf {x} \ in \ mathbb {R} ^ n $ och vi bildar en ny slumpmässig vektor $ \ mathbf {t} = T (\ mathbf {x}) $ via den linjära funktionen $ T $ . Formellt är frihetsgraderna för $ \ mathbf {t} $ dimensionen på utrymmet för tillåtna värden för denna vektor, vilket är:

$$ DF \ equiv \ dim \ mathscr {T} \ equiv \ dim \ {\ mathbf {t} = T (\ mathbf {x}) | \ mathbf {x} \ in \ mathbb {R} ^ n \}. $$

Den initiala slumpmässiga vektorn $ \ mathbf {x} $ har ett tillåtet utrymme med dimension $ n $ span > så det har $ n $ frihetsgrader. Ofta minskar funktionen $ T $ dimensionen av det tillåtna utrymmet för resultat, och så $ \ mathbf {t} $ kan ha en lägre frihetsgrad än $ \ mathbf {x} $ . Till exempel, i ett svar på en relaterad fråga kan du se denna formella definition av frihetsgraderna som används för att förklara Bessels korrigering i exemplets variansformel. I det specifika fallet leder en transformationsvektor som har $ n-1 $ frihetsgrader (dvs. , det är en vektor i ett tillåtet utrymme med dimension $ n-1 $ ).

När du tillämpar den här formella definitionen på statistiska problem, kommer du vanligtvis att upptäcka att en enda "begränsning" på den slumpmässiga vektorn (via en linjär ekvation på den vektorn) minskar dimensionen på dess tillåtna värden med en, ochminskar därmed frihetsgraderna med en.Som sådan kommer du att upptäcka att ovanstående formella definition överensstämmer med de informella förklaringar du har fått.

I grundkurser i statistik hittar du i allmänhet mycket handsvängande och informell förklaring av frihetsgrader, ofta via analogier eller exempel.Anledningen till detta är att den formella definitionen kräver en förståelse för vektoralgebra och geometri av vektorrymden, vilket kan saknas i inledande statistikkurser på grundnivå.

Abdoul Haki
2019-06-26 10:09:33 UTC
view on stackexchange narkive permalink

Du kan se graden av frihet som antalet observationer minus antalet nödvändiga relationer mellan dessa observationer.Exempelvis om du har $ n $ exempel på oberoende normalfördelningsobservationer $ X_1, \ dots, X_n $ .Den slumpmässiga variabeln $ \ sum_ {i = 1} ^ n (X_i- \ overline {X} _n) ^ 2 \ sim \ mathcal {X} ^ 2_ {n-1} $, där $ \ overline {X} _n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i $ .Graden av frihet här är $ n-1 $ eftersom det är en nödvändig relation mellan dessa observationer $ (\ overline {X} _n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i) $ .

Mer information finns i detta

Isabella Ghement
2018-04-08 00:47:44 UTC
view on stackexchange narkive permalink

En intuitiv förklaring av grader av frihet är att de representerar antalet oberoende bitar av information som finns i data för att uppskatta en parameter (dvs. okänd mängd) av intresse .

Som ett exempel, i en enkel linjär regressionsmodell av formen:

$$ Y_i = \ beta_0 + \ beta_1 \ cdot X_i + \ epsilon_i, \ quad i = 1, \ ldots, n $$

där $ \ epsilon_i $ representerar oberoende normalt distribuerade feltermer med medelvärde 0 och standardavvikelse $ \ sigma $ använder vi 1 frihetsgrad för att uppskatta avlyssningen $ \ beta_0 $ och 1 frihetsgrad för att uppskatta lutningen $ \ beta_1 $ . Eftersom vi började med $ n $ observationer och använde 2 frihetsgrader (dvs. två oberoende bitar av information) sitter vi kvar med $ n-2 $ frihetsgrader (dvs. $ n-2 $ oberoende information) tillgängliga för uppskattning av felstandardavvikelsen $ \ sigma $ .

Tack så mycket för dina ändringar av mitt svar, @COOLSerdash!
Ben
2020-04-15 19:47:27 UTC
view on stackexchange narkive permalink

Den tydligaste "formella" definitionen av frihetsgrader är att det är dimensionen på utrymmet för tillåtna värden för en slumpmässig vektor. Detta uppstår i allmänhet i ett sammanhang där vi har en exempelvektor $ \ mathbf {x} \ i \ mathbb {R} ^ n $ och vi bildar en ny slumpmässig vektor $ \ mathbf {t} = T (\ mathbf {x}) $ via den linjära funktionen $ T $ . Formellt är frihetsgraderna för $ \ mathbf {t} $ dimensionen på utrymmet för tillåtna värden för denna vektor, vilket är:

$$ DF \ equiv \ dim \ mathscr {T} \ equiv \ dim \ {\ mathbf {t} = T (\ mathbf {x}) | \ mathbf {x} \ in \ mathbb {R} ^ n \}. $$

Om vi ​​representerar denna linjära transformation med matristransformationen $ T (\ mathbf {x}) = \ mathbf {T} \ mathbf {x} $ så har:

$$ \ begin {aligned} DF & = \ dim \ {\ mathbf {t} = T (\ mathbf {x}) | \ mathbf {x} \ in \ mathbb {R} ^ n \} \\ [6pt] & = \ dim \ {\ mathbf {T} \ mathbf {x} | \ mathbf {x} \ in \ mathbb {R} ^ n \} \\ [6pt] & = \ text {rank} \ \ mathbf {T} \\ [6pt] & = n - \ text {Ker} \ \ mathbf {T}, \\ [6pt] \ end {align} $$

där det sista steget följer av rang-ogiltighetssatsen. Det betyder att när vi omvandlar $ \ mathbf {x} $ med den linjära transformationen $ T $ förlorar vi frihetsgrader lika med kärnan (nullspace) för $ \ mathbf {T} $ . I statistiska problem finns det ett nära samband mellan egenvärdena för $ \ mathbf {T} $ och förlusten av frihetsgrader från transformationen. Ofta är förlusten av frihetsgrader ekvivalent med antalet noll egenvärden i transformationsmatrisen $ \ mathbf {T} $ .

Till exempel ser vi i detta svar att Bessels korrigering till provvariansen, justering för frihetsgraderna hos vektorn för avvikelser från medelvärdet, är nära relaterad till egenvärdena förcentreringsmatrisen.Ett identiskt resultat uppträder i högre dimensioner i linjär regressionsanalys.I andra statistiska problem uppstår liknande förhållanden mellan transformationsmatrisens egenvärden och förlusten av frihetsgrader.

Ovanstående resultat formaliserar också beteckningen att man förlorar en grad av frihet för varje "begränsning" som läggs på den observerbara vektorn av intresse.I enkla univariata samplingsproblem förlorar man alltså en grad av frihet från att uppskatta medelvärdet när man tittar på provvariansen.I linjära regressionsmodeller förlorar man en frihetsgrad för varje modellkoefficient som uppskattades när man tittar på MSE.

user3644640
2017-01-02 21:52:21 UTC
view on stackexchange narkive permalink

För mig var den första förklaringen jag förstod:

Om du vet något statistiskt värde som medelvärde eller variation, hur många variabler av data du behöver veta innan du kan veta värdet på varjevariabel?

Detta är detsamma som aL3xa sa, men utan att ge någon datapunkt en speciell roll och nära det tredje fallet som ges i svaret.På detta sätt skulle samma exempel vara:

Om du känner till medelvärdet för data måste du känna till värdena för alla utom en datapunkt, för att känna till värdet till alla datapunkter.

Variabler -> observationer
Carl
2017-08-13 23:51:26 UTC
view on stackexchange narkive permalink

Tänk på det här. Avvikelser är additiva när de är oberoende. Antag till exempel att vi kastar dart mot ett bräde och vi mäter standardavvikelserna för $ x $ och $ y $ förskjutningar från den exakta mitten på brädet. Sedan $ V_ {x, y} = V_x + V_y $. Men, $ V_x = SD_x ^ 2 $ om vi tar kvadratroten av formeln $ V_ {x, y} $, får vi avståndsformeln för ortogonala koordinater, $ SD_ {x, y} = \ sqrt {SD_x ^ 2 + SD_y ^ 2} $. Nu behöver vi bara visa att standardavvikelse är ett representativt mått på förskjutning bort från centrum av darttavlan. Eftersom $ SD_x = \ sqrt {\ dfrac {\ sum_ {i = 1} ^ n (x_i- \ bar {x}) ^ 2} {n-1}} $ har vi ett klart sätt att diskutera df. Observera att när $ n = 1 $, då $ x_1- \ bar {x} = 0 $ och förhållandet $ \ dfrac {\ sum_ {i = 1} ^ n (x_i- \ bar {x}) ^ 2} { n-1} \ rightarrow \ dfrac {0} {0} $. Med andra ord finns det ingen avvikelse mellan en pils $ x $ -koordinat och sig själv. Första gången vi har en avvikelse är $ n = 2 $ och det finns bara en av dem, en duplikat. Den dubbla avvikelsen är det kvadratiska avståndet mellan $ x_1 $ eller $ x_2 $ och $ \ bar {x} = \ dfrac {x_1 + x_2} {2} $ eftersom $ \ bar {x} $ är mittpunkten mellan eller genomsnittet av $ x_1 $ och $ x_2 $. I allmänhet tar vi bort $ n $ 1 eftersom $ \ bar {x} $ är beroende av alla $ n $ av dessa avstånd. Nu representerar $ n-1 $ frihetsgraderna eftersom det normaliseras för att antalet unika resultat ger ett förväntat kvadratavstånd. uppdelat i summan av dessa kvadratiska avstånd.

Haotian Chen
2020-04-15 13:37:31 UTC
view on stackexchange narkive permalink

Effektivt antal slumpmässiga variabler.



Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...