Kan ett matematiskt ljudförutsägningsintervall ha en negativ nedre gräns?

user42835

2014-04-03 22:59:29 UTC

view on stackexchange narkive permalink

Jag har använt R för att skapa ett 95% förutsägningsintervall för antalet endemiska arter på en ö.
Min nedre gräns är negativ - är det matematiskt sundt?

I den linjära modellen som används i prognosintervallet är de data som används: Area Yta på ön, hektar DiscSC Avstånd från Santa Cruz, kilometer Höjd Höjning av högre punkt i meter och den är kodad som sådan:

  vald. modell <- lm (ES ~ Area + Elevation + DistSC + I (Elevation ^ 2) + (Elevation: DistSC) + (A‌ rea: Elevation))

och stegvis regression utfördes för att hitta den här "bästa" modellen

Jag är inte helt säker på hur ett förutsägningsintervall fungerar. Jag vill bara se till att det är OK. Uppenbarligen är ett negativt antal arter felaktigt, men jag vet att det tar hänsyn till osäkerheten i medelvärdet såväl som dataspridningen.

Kan du förklara mer om din analys? Vilken typ av data används för förutsägelse - normal, räkningar, sannolikheter, kategoriska ...? Hur gjorde du analysen - regression, anova - något mer komplicerat? Det är svårt att veta vad man ska säga utan den typen av information.

I den linjära modellen som används i prediktionsintervallet är de data som används: Area Yta på ön, hektar DiscSC Avstånd från Santa Cruz, kilometrar Höjd Höjd av högre punkt i meter och den är kodad som sådan:> vald. Modell <-lm (ES ~ Area + Elevation + DistSC + I (Elevation ^ 2) + (Elevation: DistSC) + (Area: Elevation)) och stegvis regression utfördes för att hitta denna "bästa" modell

Det finns inget problematiskt med en negativ nedre gräns för en icke-negativ variabel ur matematisk synvinkel. Den viktiga frågan är om detta är ett bevis på att det förutspådda intervallförfarandet kan vara dåligt i allmänhet eller olämpligt för detta fenomen i synnerhet. Har du utfört den vanliga regressionsdiagnosen, inklusive godhet av passform och fördelningsutvärdering av resterna?

Jag har inte utfört diagnosen för just den här linjära modellen. Jag behöver inte gå så mycket i detalj för denna fråga om mitt arbete; Jag blev bara chockad över att se en negativ nedre gräns. Om det inte är något problematiskt i matematisk mening är jag ganska säker på att min kodning är korrekt och jag kan räkna det som svarat.

Matematiskt är det möjligt - men en annan typ av modellering (till exempel Poisson-regression) skulle undvika den negativa nedre gränsen och kan vara mer lämplig för dina data.

De få sekunder som det tar att utfärda kommandot `plot (selected.model)` och titta på utdata är då värt din tid.

Du monterade en modell som kan vara negativ; om du gör det borde du inte bli förvånad när det genererar ett intervall som gör det. Att montera en modell som är mer lämplig för dina data / situation kan hjälpa.

Ett liknande vanligt problem är när variabler som inte är normalt fördelade antas vara normalt fördelade - till exempel höjd. Normalfördelningen stöds på $ [- \ infty, + \ infty] $; men hur kan en person ha negativ höjd? Det här är okej, för i normalfallet är normalfördelningen en * tillräckligt bra approximation *, och negativ höjd kommer att vara mycket osannolik. Så din situation är inte nödvändigtvis dålig, såvida den inte förutsäger negativa värden för realistiska, relevanta insatser (där den verkligen inte borde ge ett så surrealistiskt resultat).

det finns en underbar artikel av Brad Efron om Bayesian vs. deterministisk statistik där han ger ett exempel från partikelfysik om detta ämne