Skillnad mellan konfidensintervall och prediktionsintervall

Fråga:

Skillnad mellan konfidensintervall och prediktionsintervall

question

2011-10-04 23:35:50 UTC

view on stackexchange narkive permalink

För ett förutsägningsintervall i linjär regression använder du fortfarande $ \ hat {E} [Y | x] = \ hat {\ beta_0} + \ hat {\ beta} _ {1} x $ för att generera intervallet. Du använder också detta för att generera ett konfidensintervall på $ E [Y | x_0] $. Vad är skillnaden mellan de två?

$ \ hat {E} [Y | x] = \ hat {\ beta_0} + \ hat {\ beta} _ {1} x $ "genererar inte intervallet".

Jag ser ingen anledning till skillnaden mellan de två metoderna i något av svaren ovan.Regressionsresultat uppskattas vanligtvis baserat på parametriska studentens t-fördelningsparametrar och vanligtvis regression, särskilt från dåligt matchade till dataregressionsmodellerna, leder till rester som inte studeras, t.ex. skev men särskilt med tunga svansar som vanligtvis (om inte alltid) görparametriska mått på dataspridning större än motsvarande förväntade uppmätta kvantiteter.En tumregel som jag har funnit användbar: Om jag ser rester med outliers, långa svansar och u

Relaterat: [Erhålla en formel för förutsägelsegränser i en linjär modell] (http://stats.stackexchange.com/q/9131/17230).

Sex svar:

Charlie

2011-10-05 00:36:59 UTC

view on stackexchange narkive permalink

Din fråga är inte riktigt korrekt. Ett konfidensintervall ger ett intervall för $ \ text {E} [y \ mid x] $, som du säger. Ett förutsägningsintervall ger ett intervall för $ y $ själv. Naturligtvis är vår bästa gissning för $ y $ $ \ text {E} [y \ mid x] $, så intervallen kommer båda att vara centrerade kring samma värde, $ x \ hat {\ beta} $.

Som @Greg säger kommer standardfelen att vara olika --- vi antar att det förväntade värdet på $ \ text {E} [y \ mid x] $ mer exakt än vi uppskattar $ y $ sig. Uppskattning av $ y $ kräver inkludering av variansen som kommer från den sanna feltermen.

För att illustrera skillnaden, föreställ dig att vi kan få perfekta uppskattningar av våra $ \ beta $ koefficienter. Då skulle vår uppskattning av $ \ text {E} [y \ mid x] $ vara perfekt. Men vi skulle fortfarande inte vara säkra på vad $ y $ själv var eftersom det finns en riktig felterm som vi måste tänka på. Vårt "förtroendeintervall" skulle bara vara en punkt eftersom vi uppskattar $ \ text {E} [y \ mid x] $ exakt rätt, men vårt förutsägelsesintervall skulle vara bredare eftersom vi tar hänsyn till den sanna felterm.

Därför blir ett förutsägningsintervall bredare än ett konfidensintervall.

jpgard

2017-04-01 20:31:07 UTC

view on stackexchange narkive permalink

Den ena är en förutsägelse av en framtida observation, och den andra är ett förutsagt medelrespons. Jag kommer att ge ett mer detaljerat svar för att förhoppningsvis förklara skillnaden och varifrån den kommer, liksom hur denna skillnad manifesterar sig i bredare intervall för förutsägelse än för förtroende.

Det här exemplet kan illustrera skillnaden mellan förtroende och förutsägelseintervall: antag att vi har en regressionsmodell som förutsäger huspriset baserat på antal sovrum, storlek osv. Det finns två typer av förutsägelser vi kan göra för en given $ x_0 $:

Vi kan förutsäga priset för ett specifikt nytt hus som kommer på marknaden med egenskaper $ x_0 $ ( "vad är det förutspådda priset för detta hus $ x_0 $?" ). Dess sanna pris är $$ y = x_0 ^ T \ beta + \ epsilon $$. Eftersom $ E (\ epsilon) = 0 $ kommer det förutspådda priset att vara $$ \ hat {y} = x_0 ^ T \ hat {\ beta} $$ Vid bedömningen av variansen av denna förutsägelse måste vi inkludera vår osäkerhet om $ \ hat {\ beta} $, liksom vår osäkerhet om vår förutsägelse (felet i vår förutsägelse) och så måste inkludera variansen av $ \ epsilon $ (felet i vår förutsägelse). Detta kallas vanligtvis prediction of a future value.
Vi kan också förutsäga genomsnittspriset för ett hus med egenskaper $ x_0 $ ( "vad skulle vara genomsnittspriset för ett hus med egenskaper $ x_0 $?" ). Poänguppskattningen är fortfarande $$ \ hat {y} = x_0 ^ T \ hat {\ beta} $$, men nu behöver endast variansen i $ \ hat {\ beta} $ redovisas. Detta kallas vanligtvis prediction of the mean response.

De flesta gånger är vad vi verkligen vill ha det första fallet. Vi vet att $$ var (x_0 ^ T \ hat {\ beta}) = x_0 ^ T (X ^ TX) ^ {- 1} x_0 \ sigma ^ 2 $$

Detta är variansen för vårt medelsvar (fall 2).Men för en förutsägelse av en framtida observation (fall 1), kom ihåg att vi behöver variansen av $ x_0 ^ T \ hat {\ beta} + \ epsilon $;$ \ epsilon $ har varians $ \ sigma ^ 2 $ och antas vara oberoende av $ \ hat {\ beta} $.Med en enkel algebra resulterar detta i följande konfidensintervall:

CI för ett framtida svar för $ x_0 $: $$ \ hat {y} _0 \ pm t_ {np} ^ {(\ alpha / 2)} \ hat {\ sigma} \ sqrt {x_0^ T (X ^ TX) ^ {- 1} x_0 + 1} $$
CI för det medelsvar som ges $ x_0 $: $$ \ hat {y} _0 \ pm t_ {np} ^ {(\ alpha / 2)} \ hat {\ sigma} \ sqrt {x_0 ^T (X ^ TX) ^ {- 1} x_0} $$

Där $ t_ {n-p} ^ {\ alpha / 2} $ är en t-statistik med $ n-p $ frihetsgrader vid kvantiteten $ \ alpha / 2 $.

Detta förhoppningsvis gör det lite tydligare varför förutsägelsesintervallet alltid är bredare och vad den underliggande skillnaden mellan de två intervallen är.Detta exempel anpassades från Faraway, Linear Models with R, Sec.4.1.

Det är trevligt att se en gammal tråd avsevärt förbättrad av ett tydligt och tankeväckande svar.Välkommen till vår sida!

Borde inte detta vara ... x0 + 1 / n +1 (för prognosintervallet (1)), och ... x0 + 1 / n (för konfidensintervallet (2) _ http://www2.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf http://www.real-statistics.com/regression/confidence-and-prediction-intervals/

@jpgard Är den formella skillnaden följaktligen bara resultatet av E (eps) = 0?

Om jag förstår din fråga @Pugl, är den formella skillnaden här att epsilon bara är förknippat med en förutsägelse för en enskild observation, inte med förutsägelse av det genomsnittliga svaret.

Det är bra tack @jpgard

Hmm Jag tror att det kan finnas ett problem med variansen för (1).Du anger att vi behöver variansen för $ x_0 ^ T \ hat {\ beta} + \ epsilon $.Borde det inte finnas en restkomponent här också?

är den återstående.

Greg Snow

2011-10-04 23:53:32 UTC

view on stackexchange narkive permalink

Skillnaden mellan ett prediktionsintervall och ett konfidensintervall är standardfelet.

Standardfelet för ett konfidensintervall på medelvärdet tar hänsyn till osäkerheten på grund av provtagningen. Linjen du beräknade från ditt urval kommer att skilja sig från linjen som skulle ha beräknats om du hade hela populationen, standardfelet tar hänsyn till denna osäkerhet.

Standardfelet för ett förutsägningsintervall på en individuell observation tar hänsyn till osäkerheten på grund av provtagning som ovan, men tar också hänsyn till individernas variabilitet kring det förutsagda medelvärdet. Standardfelet för prediktionsintervallet kommer att vara bredare än för konfidensintervallet och följaktligen kommer prediktionsintervallet att vara bredare än konfidensintervallet.

vonjd

2014-04-17 11:56:03 UTC

view on stackexchange narkive permalink

Jag tyckte att följande förklaring var till hjälp:

Konfidensintervall berätta om hur bra du har bestämt medelvärdet. Antag att data verkligen samplas slumpmässigt från en Gaussisk distribution. Om du gör detta många gånger och beräknar ett konfidensintervall för medelvärdet från varje prov, kan du förvänta dig att cirka 95% av dessa intervall ska inkludera det verkliga värdet av populationsmedelvärdet. Nyckelpunkten är att konfidensintervallet berättar om den sannolika platsen för den sanna befolkningsparametern.

Förutsägningsintervall berätta var du kan förvänta dig att nästa datapunkt samplas. Antag att data verkligen samplas slumpmässigt från en Gaussisk distribution. Samla in ett urval av data och beräkna ett förutsägningsintervall. Pröva sedan ytterligare ett värde från befolkningen. Om du gör detta många gånger kan du förvänta dig att nästa värde ligger inom det förutsägningsintervallet i 95% av proverna. Nyckelpunkten är att prediktionsintervallet berättar om fördelningen av värden, inte osäkerheten vid bestämning av populationen betyda.

Förutsägningsintervall måste ta hänsyn till både osäkerheten i att känna till populationsvärde, plus dataspridning. Så ett förutsägelsesintervall är alltid bredare än ett konfidensintervall.

Källa: http://www.graphpad.com/support/faqid/1506/

Vad menar du med "dataspridning" här?

@tel: Uppenbarligen variansen

Pablo Casas

2015-11-21 03:43:42 UTC

view on stackexchange narkive permalink

Kort svar:

Ett förutsägelsesintervall är ett intervall associerat med en slumpmässig variabel som ännu inte ska observeras (prognos).

Ett konfidensintervall är ett intervall som är associerat med en parameter och är ett frekventistiskt koncept.

Kontrollera hela svaret här från Rob Hyndman , skaparen av prognospaketet i R.

Serhii Kushchenko

2019-08-23 11:48:42 UTC

view on stackexchange narkive permalink

Detta svar är för de läsare som inte helt kunde förstå de tidigare svaren. Låt oss diskutera ett specifikt exempel. Antag att du försöker förutse folkets vikt utifrån deras längd, kön (man, kvinna) och kost (standard, lågkolhydrat, vegetarisk). För närvarande finns det mer än 8 miljarder människor på jorden. Naturligtvis kan du hitta tusentals människor med samma höjd och andra två parametrar men olika vikt. Deras vikter skiljer sig väldigt mycket för att vissa av dem har fetma och andra kan drabbas av svält. De flesta av dessa människor kommer att vara någonstans i mitten.

En uppgift är att förutsäga medelvikt för alla människor som har samma värden för alla tre förklarande variabler. Här använder vi konfidensintervallet. Ett annat problem är att förutsäga vikten för någon specifik person. Och vi känner inte till den individens levnadsförhållanden. Här måste prediktionsintervallet användas. Den är centrerad runt samma punkt, men den måste vara mycket bredare än konfidensintervallet.

Tack för det goda exemplet.Så i ditt exempel för det första fallet har vi en osäkerhet eftersom vi fortfarande bara har ett urval av hela befolkningen, så är osäkerheten vi har här mellan det uppskattade medelvärdet och det verkliga genomsnittet av befolkningen?I det andra fallet har vi samplingsvarians liksom restfelet?

Jag är inte säker på ditt andra fall.Vilket intervall som ska användas beror på målet.

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.

about - legalese

Loading...