Varför är denna förutsägelse av tidsserier "ganska dålig"?

Fråga:

Varför är denna förutsägelse av tidsserier "ganska dålig"?

Euler_Salter

2017-10-04 21:34:18 UTC

view on stackexchange narkive permalink

Jag försöker lära mig hur man använder Neural Networks. Jag läste den här självstudien.

Efter att ha monterat ett neuralt nätverk på en tidsserie med värdet $ t $ för att förutsäga värdet vid $ t + 1 $ får författaren följande plot, där den blå linjen är tidsserien, den gröna är förutsägelsen på tågdata, rött är förutsägelsen på testdata (han använde en testtågsuppdelning)

och kallar det "Vi kan se att modellen gjorde ett ganska dåligt jobb med att passa både träningen och testdatauppsättningarna. Den förutsade i princip samma ingångsvärde som utdata."

Sedan bestämmer författaren att använda $ t $, $ t-1 $ och $ t-2 $ för att förutsäga värdet till $ t + 1 $. Genom att göra detta uppnår

och säger "Tittar vi på diagrammet kan vi se mer struktur i förutsägelserna."

M min fråga

Varför är den första "fattiga"? det ser nästan perfekt ut för mig, det förutspår varje enskild förändring perfekt!

Och på samma sätt, varför är den andra bättre? Var är "strukturen"? För mig verkar det mycket fattigare än den första.

I allmänhet, när är en förutsägelse om tidsserier bra och när är den dålig?

Som en allmän kommentar är de flesta ML-metoderna för tvärsnittsanalys och de behöver justeras för tidsserier.Den främsta anledningen är autokorrelation i data, medan i ML ofta antas data oberoende i de mest populära metoderna

Det gör ett bra jobb med att förutsäga varje förändring ... direkt efter det händer!

@hobbs, jag försöker inte använda t, t-1, t-2 etc för att förutsäga t + 1.Jag undrade om du vet hur många termer tidigare är bäst att använda.Om vi använder för många, är vi överanpassade?

Det hade varit mer upplysande att plotta resterna.

Två svar:

Acccumulation

2017-10-04 22:08:23 UTC

view on stackexchange narkive permalink

Det är en slags optisk illusion: ögat tittar på diagrammet och ser att de röda och blå diagrammen är precis bredvid var och en. Problemet är att de ligger precis bredvid varandra horisontellt , men det som är viktigt är avståndet vertikalt . Ögat ser lättast avståndet mellan kurvorna i det tvådimensionella utrymmet i den kartesiska grafen, men det som är viktigt är det endimensionella avståndet inom ett visst t-värde. Anta till exempel att vi hade poäng A1 = (10 100), A2 = (10,1, 90), A3 = (9,8,85), P1 = (10,1 100,1) och P2 = (9,8, 88). Ögat kommer naturligtvis att jämföra P1 till A1, för det är den närmaste punkten, medan P2 kommer att jämföras med A2. Eftersom P1 är närmare A1 än P2 är A3 kommer P1 att se ut som en bättre förutsägelse. Men när du jämför P1 med A1 tittar du bara på hur bra A1 bara kan upprepa vad den såg tidigare; med avseende på A1 är P1 inte en förutsägelse . Den korrekta jämförelsen är mellan P1 v. A2 och P2 v. A3, och i denna jämförelse är P2 bättre än P1. Det skulle ha varit tydligare om det, förutom att plotta y_actual och y_pred mot t, hade funnits diagram över (y_pred-y_actual) mot t.

Detta är det bättre svaret eftersom den andra inte ens nämner varför en "snygg" prognos egentligen är dålig, medan du gör ett bra jobb med det!

Alexey Burnakov

2017-10-04 21:43:25 UTC

view on stackexchange narkive permalink

Varför är den första "fattiga"?det ser nästan perfekt ut för mig, förutspår det varje förändring perfekt!

Det är en så kallad "skiftad" prognos.Om du tittar närmare på diagram 1 ser du att förutsägelsestyrkan bara är att kopiera nästan exakt det senast sett värdet.Det betyder att modellen inte lärt sig något bättre, och den behandlar tidsserierna som en slumpmässig promenad.Jag antar att problemet kan vara att du använder raw-data som du matar till det neurala nätverket.Dessa data är non-stationary vilket orsakar alla problem.

I prognoser kallas detta "naiv" prognos, dvs. använd den senast observerade som en prognos

Tack!@Aksakal vet du hur många tidigare värden som ska användas för förutsägelse?

Fokusera på stationaritet.Ett par stationära förseningar borde vara ganska bra för den här tidsserien.Bättre än 100 icke-stationära fördröjningar.

i tidsserier finns det ett sätt att få en bra gissning på lagstruktur genom ACF och PACF, leta upp detta forum, det fanns många inlägg om hur det görs

@AlexeyBurnakov så betyder det att jag ska förvandla det till att vara stillastående?

@Aksakal Tack, jag kommer att slå upp dem!Förresten, jag kan inte se en länk i din kommentar, jag tror att du glömde den :)

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.

about - legalese

Loading...