Fråga:
Kan ett matematiskt ljudförutsägningsintervall ha en negativ nedre gräns?
user42835
2014-04-03 22:59:29 UTC
view on stackexchange narkive permalink

Jag har använt R för att skapa ett 95% förutsägningsintervall för antalet endemiska arter på en ö.
Min nedre gräns är negativ - är det matematiskt sundt?

I den linjära modellen som används i prognosintervallet är de data som används: Area Yta på ön, hektar DiscSC Avstånd från Santa Cruz, kilometer Höjd Höjning av högre punkt i meter och den är kodad som sådan:

  vald. modell <- lm (ES ~ Area + Elevation + DistSC + I (Elevation ^ 2) + (Elevation: DistSC) + (A‌ rea: Elevation)) 

och stegvis regression utfördes för att hitta den här "bästa" modellen

Jag är inte helt säker på hur ett förutsägningsintervall fungerar. Jag vill bara se till att det är OK. Uppenbarligen är ett negativt antal arter felaktigt, men jag vet att det tar hänsyn till osäkerheten i medelvärdet såväl som dataspridningen.

Kan du förklara mer om din analys? Vilken typ av data används för förutsägelse - normal, räkningar, sannolikheter, kategoriska ...? Hur gjorde du analysen - regression, anova - något mer komplicerat? Det är svårt att veta vad man ska säga utan den typen av information.
I den linjära modellen som används i prediktionsintervallet är de data som används: Area Yta på ön, hektar DiscSC Avstånd från Santa Cruz, kilometrar Höjd Höjd av högre punkt i meter och den är kodad som sådan:> vald. Modell <-lm (ES ~ Area + Elevation + DistSC + I (Elevation ^ 2) + (Elevation: DistSC) + (Area: Elevation)) och stegvis regression utfördes för att hitta denna "bästa" modell
Det finns inget problematiskt med en negativ nedre gräns för en icke-negativ variabel ur matematisk synvinkel. Den viktiga frågan är om detta är ett bevis på att det förutspådda intervallförfarandet kan vara dåligt i allmänhet eller olämpligt för detta fenomen i synnerhet. Har du utfört den vanliga regressionsdiagnosen, inklusive godhet av passform och fördelningsutvärdering av resterna?
Jag har inte utfört diagnosen för just den här linjära modellen. Jag behöver inte gå så mycket i detalj för denna fråga om mitt arbete; Jag blev bara chockad över att se en negativ nedre gräns. Om det inte är något problematiskt i matematisk mening är jag ganska säker på att min kodning är korrekt och jag kan räkna det som svarat.
Matematiskt är det möjligt - men en annan typ av modellering (till exempel Poisson-regression) skulle undvika den negativa nedre gränsen och kan vara mer lämplig för dina data.
De få sekunder som det tar att utfärda kommandot `plot (selected.model)` och titta på utdata är då värt din tid.
Du monterade en modell som kan vara negativ; om du gör det borde du inte bli förvånad när det genererar ett intervall som gör det. Att montera en modell som är mer lämplig för dina data / situation kan hjälpa.
Ett liknande vanligt problem är när variabler som inte är normalt fördelade antas vara normalt fördelade - till exempel höjd. Normalfördelningen stöds på $ [- \ infty, + \ infty] $; men hur kan en person ha negativ höjd? Det här är okej, för i normalfallet är normalfördelningen en * tillräckligt bra approximation *, och negativ höjd kommer att vara mycket osannolik. Så din situation är inte nödvändigtvis dålig, såvida den inte förutsäger negativa värden för realistiska, relevanta insatser (där den verkligen inte borde ge ett så surrealistiskt resultat).
det finns en underbar artikel av Brad Efron om Bayesian vs. deterministisk statistik där han ger ett exempel från partikelfysik om detta ämne
Två svar:
Stephan Kolassa
2014-04-03 23:31:55 UTC
view on stackexchange narkive permalink

Matematik är verklighetsagnostiker. Så ditt negativa lägre prediktionsband kan säkert vara matematiskt ljud.

Jag skulle dock hävda att detta är en bra indikation på att du använder fel matematik, t.ex. Kvadrater (som förutsätter en normalfördelning av fel) med räkningsdata (där en normalfördelning inte är meningsfull). Jag föreslår att du använder Poisson-regression eller någon liknande metod som är mer lämplig för räkningsdata.

Jag tror att tillämpade forskare och statistiker är överens om att tillåta negativa förutsagda räkningar är * osund * i praktiken.
AdamO
2014-04-03 23:33:20 UTC
view on stackexchange narkive permalink

Det föreslår för mig att du inte har använt någon analytisk metod med en lämplig omvandling av resultatet. Med räkningsdata modellerar till exempel populära linjära modeller (särskilt Poisson-regression eller negativ binomiell regression) processens logg som en linjär funktion av prediktorer. Då måste alla förutsagda värden som härrör från en sådan modell exponentieras och därmed positiva.

På samma sätt, när du använder funktionen predict.glm med se.fit inställd på TRUE för dessa modeller, beräkna symmetriska prediktionsintervall för räkningar på log-skala . Att exponentiera dessa värden på nytt säkerställer att du har intervall som inte inkluderar 0. Du kommer att märka att de exponentierade förutsägelserna är desamma som du skulle få genom att ställa in type = 'response' i förutsägningsfunktionen. Att be om båda type = 'response', se.fit = TRUE kommer emellertid att förvirra R eftersom länkomvandlingen för GLM innebär att du har icke-symmetriska intervall (SE för FIT beräknas på transformerad utgångsskala).

Det finns additiva räknemodeller, precis som det finns additiva riskmodeller för binära slutpunkter, men jag tror att resultaten kan vara svåra att tolka och de beter sig ohållbart för förutsägelser nära gränsvärdena av supporten (0 för räkningsdata). Som sådan skulle jag vara tveksam om inte bara dina negativa förutsägelser utan alla andra förutsägelser från din modell.



Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...