Hur tolkas koefficienter från en polynommodellpassning?

user13907

2014-05-01 16:18:27 UTC

view on stackexchange narkive permalink

Jag försöker skapa en andra ordnings polynompassning till vissa data jag har. Låt oss säga att jag plottar denna passform med ggplot():

  ggplot (data, aes (foo, bar)) + geom_point () + geom_smooth (method = "lm ", formel = y ~ poly (x, 2))

Jag får:

plot of parabolic fit with confidence band on scatterplot

Så, en andra ordning passar fungerar ganska bra. Jag beräknar det med R:

  sammanfattning (lm (data $ bar ~ poly (data $ foo, 2)))

Och jag får:

  lm (formel = data $ bar ~ poly (data $ foo, 2)) # ... # Koefficienter: # Estimate Std. Fel t värde Pr (> | t |) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly (data $ foo, 2) 1 -0.122391 0.096225 -1.272 0.206 # poly (data $ foo, 2) 2 1.575391 0.096225 16.372 <2e-16 *** # ....

Nu antar jag att formeln för min passform är:

$$ \ text {bar} = 3.268 - 0.122 \ cdot \ text {foo} + 1.575 \ cdot \ text {foo} ^ 2 $$

Men det ger mig bara fel värden. Till exempel, med $ \ text {foo} $ som 3 skulle jag förvänta mig att $ \ text {bar} $ skulle bli något runt 3.15. Att infoga i ovanstående formel får jag dock:

$$ \ text {bar} = 3.268 - 0.122 \ cdot 3 + 1.575 \ cdot 3 ^ 2 = 17.077 $$

Vad ger ? Tolkar jag felaktigt koefficienterna för modellen?

Denna fråga besvaras i flera trådar som kan hittas genom att söka på vår webbplats efter [ortogonal polynom] (http://stats.stackexchange.com/search?q=orthogonal+polynomial+ [r])

@whuber Om jag hade vetat att problemet var med "ortogonala polynom" skulle jag förmodligen ha hittat ett svar. Men om du inte vet vad du ska söka efter är det lite svårt.

Du kan också hitta svar genom att söka på [poly] (http://stats.stackexchange.com/search?q=poly+ [r]), som framträder tydligt i din kod. Jag lägger sådan information i kommentarer av två skäl: (1) länkarna kan hjälpa framtida läsare såväl som dig själv och (2) de kan hjälpa dig att visa hur du använder vårt (något idiosynkratiska) söksystem.

Du lade upp en fråga om din användning av `poly` utan att skriva`? Poly` i R först? Det står '** Beräkna ortogonala polynom **' högst upp med stora vänliga bokstäver.

@Glen_b Ja, ja, jag * skrev in '? Poly' för att förstå syntaxen. Visserligen har jag bara lite kunskap om begreppen bakom det. Jag visste inte att det fanns något annat (eller en så stor skillnad mellan "normala" polynomier och ortogonala polynomier), och exemplen jag såg på nätet använde alla "poly ()" för montering, speciellt med "ggplot" - så varför * skulle jag inte * bara använda det och vara förvirrad om resultatet var "fel"? Tänk på att jag inte är skicklig i matematik - jag använder bara det jag har sett andra gör och försöker förstå det.

Jag tror att jag förstår det - du hade sett termen men förstod inte att $ x $ och $ x ^ 2 $ (säg) vanligtvis inte var ortogonala.

# Detta program skrivet som svar på en korsvaliderad fråga # http://stats.stackexchange.com/questions/95939/# # Det är en undersökning av varför resultatet från lm (y_x + I (x ^ 2 )) # ser så annorlunda ut än resultatet från lm (y ~ poly (x, 2)) bibliotek (ggplot2) epsilon <- 0,25 * rnorm (100) x <- seq (från = 1, till = 5, längd. ut = 100) y <- 4 - 0,6 * x + 0,1 * x ^ 2 + epsilon # Minimum är vid x = 3, det förväntade y-värdet är4 - 0,6 * 3 + 0,1 * 3 ^ 2ggplot (data = NULL, aes ( x, y)) + geom_point () + geom_smooth (metod = "lm", formel = y ~ poly (x, 2)) sammanfattning (lm (y ~ x + I (x ^ 2))) # Ser rättighetsmätning (lm (y ~ poly (x, 2))) # Ser ut som sopor # Vad hände? # Hur ser x och x ^ 2 ut: huvud (cbind (x, x ^ 2)) # Hur ser poly (x, 2) ser ut som: head (poly (x, 2))

Ring : lm (formel = y ~ x + I (x ^ 2)) Rester: Min 1Q Median 3Q Max -0,53815 -0,13465 -0,01262 0,15369 0,61645 Koefficienter: Uppskattning Std. Fel t värde Pr (> | t |) (Intercept) 3.92734 0.15376 25.542 < 2e-16 *** x -0.53929 0.11221 -4.806 5.62e-06 *** I (x ^ 2) 0.09029 0.01843 4.900 3.84e-06 * ** --- Signif. koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Restfel kvarvarande: 0,2241 på 97 frihetsgrader Flera R-kvadrat: 0,1985, Justerat R-kvadrat: 0,182 F-statistik: 12.01 på 2 och 97 DF, p-värde: 2.181e-05

Samtal: lm (formel = y ~ poly (x, 2)) Rester: Min 1Q Median 3Q Max -0.53815 -0.13465 -0.01262 0.15369 0.61645 Koefficienter: Uppskattning Std. Fel t värde Pr (> | t |) (Intercept) 3.24489 0.02241 144.765 < 2e-16 *** poly (x, 2) 1 0.02853 0.22415 0.127 0.899 poly (x, 2) 2 1.09835 0.22415 4.900 3.84e-06 ** * --- Signif. koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Restfel kvarvarande: 0,2241 på 97 frihetsgrader Flera R-kvadrat: 0,1985, Justerat R-kvadrat: 0,182 F-statistik: 12.01 på 2 och 97 DF, p-värde: 2.181e-05

Samtal: lm (formel = y ~ poly (x, 2, rå = SANT)) Rester: Min 1Q Median 3Q Max -0,53815 -0,13465 -0,01262 0,15369 0,61645 Koefficienter: Uppskattning Std. Fel t värde Pr (> | t |) (Intercept) 3.92734 0.15376 25.542 < 2e-16 *** poly (x, 2, raw = TRUE) 1 -0.53929 0.11221 -4.806 5.62e-06 *** poly (x, 2, rå = SANT) 2 0,09029 0,01843 4,900 3,84e-06 *** --- Signif. koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Restfel kvarvarande: 0,2241 på 97 frihetsgrader Flera R-kvadrat: 0,1985, Justerat R-kvadrat: 0,182 F-statistik: 12.01 på 2 och 97 DF, p-värde: 2.181e-05

-bibliotek (ggplot2) # ställ in fröet så att resultaten kan reproduceras. set.seed (3) #### simulera lite data #### # epsilon = slumpmässigt feluttryck epsilon <- 0,25 * rnorm (100) # x-värden är bara en sekvens från 1 till 5 x <- seq (från = 1, till = 5, längd ut = 100) # y är en polynomfunktion av x (plus något fel) y <- 4 - 0,6 * x + 0,1 * x ^ 2 + epsilon # Minimum är vid x = 3, det förväntade y-värdet finns 4 - 0,6 * 3 + 0,1 * 3 ^ 2 # visualisera data (med en polynom-anpassad linje) ggplot (data = NULL, aes (x, y)) + geom_point () + geom_smooth (metod = "lm", formel = y ~ poly (x, 2))

#### Modellera data #### # först försöker vi modellera data med bara jag () modI <- lm (y ~ x + I (x ^ 2)) # modellöversikten ser rätt ut sammanfattning (modI) # nästa försöker vi med poly () modp <- lm (y ~ poly (x, 2)) # modellöversikten ser konstig ut sammanfattning (modp) #### gör förutsägelser vid x = 3 baserat på varje modell #### # förutsäga y med modI # allt vi behöver göra är att ta modellkoefficienterna och ansluta dem till formeln: fånga + beta1 * x ^ 1 + beta2 * x ^ 2 coef (modI) [1] + coef (modI) [2] * 3 ^ 1 + coef (modI) [3] * 3 ^ 2

# förutsäga y med modp # detta tar ett extra steg. # först, beräkna de nya x-värdena med hjälp av predict.poly () x_poly <- stats ::: förutsäga.poly (objekt = poly (x, 2), newdata = 3) # använd sedan samma formel som ovan, men den här gången istället för det råa x-värdet (3), använd det polynomiska x-värdet (x_poly) coef (modp) [1] + coef (modp) [2] * x_poly [1] + coef (modp) [3] * x_poly [2]

MyPoly <- funktion (x, deg) { n <- längd (x) ans <- NULL för (k i 1: deg) { v <- x ^ k cmps <- rep (0, n) om (k>0) för (j i 0: (k-1)) cmps <- cmps + c (v% *% ans [, j + 1]) * ans [, j + 1] p <- v - cmps p <- p / sum (p ^ 2) ^ 0,5 ans <- cbind (ans, p) } ans [, - 1] }