En mild introduktion till Box-Jenkins-metoden för prognoser för tidsserier

En mild introduktion till Box-Jenkins-metoden för prognoser för tidsserier

Autoregressive Integrated Moving Average Model, eller kortfattat ARIMA, är en standardstatistikmodell för prognoser och analyser av tidsserier.

Tillsammans med dess utveckling föreslår författarna Box och Jenkins också en process för att identifiera, uppskatta och kontrollera modeller för en specifik dataserie. Denna process kallas nu Box-Jenkins-metoden.

I det här inlägget kommer du att upptäcka Box-Jenkins-metoden och tips för hur du använder den på ditt tidsserieprognosproblem.

Specifikt kommer du att lära dig:

  • Om ARIMA-processen och hur de 3 stegen i Box-Jenkins-metoden.
  • Bästa praxisheuristik för val av konfiguration för q, d och p-modellen för en ARIMA-modell.
  • Utvärdera modeller genom att leta efter överanpassning och kvarvarande fel som en diagnostisk process.

Starta ditt projekt med min nya bok Time Series Forecasting With Python, inklusive steg-för-steg-självstudier och den Python-källkod filer för alla exempel.

Låt oss börja.

En mild introduktion till Box-Jenkins-metoden för prognoser för tidsserier

En mild introduktion till Box-Jenkins-metoden för prognoser för tidsserier
Foto av Erich Ferdinand, vissa rättigheter reserverade.

Autoregressiv integrerad glidande medelmodell

En ARIMA-modell är en klass av statistisk modell för analys och prognostisering av tidsseriedata.

ARIMA är en akronym som står för Adu medRegressiv Jagintegrerade Moving Asanning. Det är en generalisering av det enklare AutoRegressive glidande genomsnittet och lägger till begreppet integration.

Denna akronym är beskrivande och fångar de viktigaste aspekterna av själva modellen. Kortfattat är de:

  • AR: Autoregression. En modell som använder det beroende sambandet mellan en observation och ett visst antal försenade observationer.
  • Jag: Integrerad. Användningen av skillnad mellan råa observationer (dvs subtrahering av en observation från en observation vid föregående tidssteg) för att göra tidsserien stationär.
  • MA: Glidande medelvärde. En modell som använder beroendet mellan en observation och restfel från en glidande medelmodell som tillämpas på fördröjda observationer.

Var och en av dessa komponenter anges uttryckligen i modellen som en parameter.

En standardnotation används av ARIMA (p, d, q) där parametrarna ersätts med heltal för att snabbt indikera den specifika ARIMA-modellen som används.

Parametrarna för ARIMA-modellen definieras enligt följande:

  • sid: Antalet fördröjningsobservationer som ingår i modellen, även kallad fördröjningsordning.
  • d: Antalet gånger som de råa observationerna skiljer sig från, även kallad graden av skillnad.
  • q: Storleken på fönstret för glidande medelvärde, även kallat ordningen för glidande medelvärde.

Sluta lära sig tidsserieprognoser långsam väg!

Ta min gratis 7-dagars e-postkurs och upptäck hur du kommer igång (med exempelkod).

Klicka för att registrera dig och få en gratis PDF-e-bokversion av kursen.

Starta din GRATIS minikurs nu!

Box-Jenkins-metoden

Box-Jenkins-metoden föreslogs av George Box och Gwilym Jenkins i deras grundläggande 1970-lärobok Time Series Analysis: Forecasting and Control.

Tillvägagångssättet börjar med antagandet att processen som genererade tidsserierna kan approximeras med en ARMA-modell om den är stationär eller en ARIMA-modell om den är icke-stationär.

2016 års 5: e upplagan av läroboken (del två, sidan 177) hänvisar till processen som en stokastisk modellbyggnad och att den är en iterativ metod som består av följande tre steg:

  1. Identifiering. Använd data och all relaterad information för att välja en underklass av modell som bäst sammanfattar data.
  2. Uppskattning. Använd data för att träna parametrarna för modellen (dvs. koefficienterna).
  3. Diagnostisk kontroll. Utvärdera den monterade modellen i samband med tillgängliga data och kontrollera områden där modellen kan förbättras.

Det är en iterativ process, så när ny information erhålls under diagnostik kan du gå tillbaka till steg 1 och införliva den i nya modellklasser.

Låt oss ta en titt på dessa steg mer detaljerat.

1. Identifiering

Identifieringssteget är vidare uppdelat i:

  1. Bedöm om tidsserien är stillastående, och om inte, hur många skillnader krävs för att göra den stationär.
  2. Identifiera parametrarna för en ARMA-modell för data.

1.1 Skillnader

Nedan följer några tips under identifiering.

  • Enhetens rotprov. Använd enhetsrotstatistiska tester på tidsserien för att avgöra om den är stationär eller inte. Upprepa efter varje omgång av skillnader.
  • Undvik över skillnader. Att skilja tidsserier mer än vad som krävs kan resultera i tillägg av extra seriekorrelation och ytterligare komplexitet.

1.2 Konfigurera AR och MA

Två diagnostiska diagram kan användas för att välja sid och q parametrar för ARMA eller ARIMA. Dom är:

  • Autokorrelationsfunktion (ACF). Diagrammet sammanfattar korrelationen mellan en observation och fördröjningsvärden. X-axeln visar fördröjningen och y-axeln visar korrelationskoefficienten mellan -1 och 1 för negativ och positiv korrelation.
  • Partiell autokorrelationsfunktion (PACF). Diagrammet sammanfattar korrelationerna för en observation med fördröjningsvärden som inte redovisas av tidigare fördröjda observationer.

Båda ritningarna ritas som stapeldiagram som visar 95% och 99% konfidensintervall som horisontella linjer. Barer som passerar dessa konfidensintervall är därför mer betydelsefulla och värda att notera.

Några användbara mönster som du kan observera på dessa tomter är:

  • Modellen är AR om ACF spårar efter en fördröjning och har en hård avskärning i PACF efter en fördröjning. Denna fördröjning tas som värdet för sid.
  • Modellen är MA om PACF spårar av efter en fördröjning och har en hård avskärning i ACF efter förseningen. Detta fördröjningsvärde tas som värdet för q.
  • Modellen är en blandning av AR och MA om både ACF och PACF spårar.

2. Uppskattning

Uppskattning innebär att man använder numeriska metoder för att minimera en förlust eller felterm.

Vi kommer inte att gå in på detaljerna för att uppskatta modellparametrar eftersom dessa detaljer hanteras av det valda biblioteket eller verktyget.

Jag rekommenderar att du hänvisar till en lärobok för en djupare förståelse av optimeringsproblemet som ska lösas av ARMA- och ARIMA-modeller och optimeringsmetoder som BFGS med begränsat minne som används för att lösa det.

3. Diagnostisk kontroll

Idén med diagnostisk kontroll är att leta efter bevis för att modellen inte passar bra för data.

Två användbara områden för att undersöka diagnostik är:

  1. Överanpassning
  2. Restfel.

3.1 Övermontering

Den första kontrollen är att kontrollera om modellen överträffar data. Generellt betyder detta att modellen är mer komplex än den behöver vara och fångar slumpmässigt brus i träningsdata.

Detta är ett problem för prognoser för tidsserier, eftersom det påverkar modellens förmåga att generalisera negativt, vilket resulterar i dålig prognosprestanda på urvalsdata.

Noggrann uppmärksamhet måste ägnas både prestanda i provet och utanför provet och detta kräver noggrann utformning av en robust testkabel för utvärdering av modeller.

3.2 Restfel

Prognosrester ger en fantastisk möjlighet för diagnostik.

En granskning av fördelningen av fel kan hjälpa till att reta ut bias i modellen. Felen från en idealmodell skulle likna vitt brus, det vill säga en Gaussisk fördelning med ett medelvärde noll och en symmetrisk varians.

För detta kan du använda densitetsdiagram, histogram och QQ-diagram som jämför fördelningen av fel med den förväntade fördelningen. En icke-Gaussisk distribution kan föreslå en möjlighet för databehandling. En snedvridning i fördelningen eller ett medelvärde som inte är noll kan föreslå en bias i prognoser som kan vara korrekta.

Dessutom skulle en idealisk modell inte lämna någon tidsstruktur i tidsserien för prognosrester. Dessa kan kontrolleras genom att skapa ACF- och PACF-plottar för restfelstidserien.

Förekomsten av seriell korrelation i de återstående felen tyder på ytterligare möjlighet att använda denna information i modellen.

Vidare läsning

Den slutgiltiga resursen om ämnet är Time Series Analysis: Prognoser och kontroll. Jag skulle rekommendera 5: e upplagan 2016, särskilt del två och kapitel 6-10.

Nedan följer några ytterligare avläsningar som kan hjälpa dig att förstå din förståelse om du vill gå djupare:

Sammanfattning

I det här inlägget upptäckte du Box-Jenkins-metoden för tidsserieanalys och prognoser.

Specifikt lärde du dig:

  • Om ARIMA-modellen och de tre stegen i den allmänna Box-Jenkins-metoden.
  • Hur man använder ACF- och PACF-tomter för att välja sid och q parametrar för en ARIMA-modell.
  • Hur man använder övermontering och kvarvarande fel för att diagnostisera en lämplig ARIMA-modell.

Har du några frågor om Box-Jenkins-metoden eller det här inlägget?
Ställ dina frågor i kommentarerna nedan så gör jag mitt bästa för att svara.

Vill du utveckla tidsserieprognoser med Python?

Introduktion till prognoser för tidsserier med Python

Utveckla dina egna prognoser på några minuter

... med bara några rader pythonkod

Upptäck hur i min nya e-bok:
Introduktion till prognoser för tidsserier med Python

Det täcker självstudier och end-to-end-projekt om ämnen som: Ladda data, visualisering, modellering, algoritminställning, och mycket mer...

Slutligen ta tidsserieprognoser till
Dina egna projekt

Hoppa över akademikerna. Bara resultat.

Se vad som finns inuti

Du kan också vara intresserad av