Autoregressiva Glidande-Medelvärde Spss


ARMA - och ARIMA-modeller (Box-Jenkins) ARMA - och ARIMA-modeller (Box-Jenkins) I de föregående avsnitten har vi sett hur värdet av en univariate tidsserie vid tiden t. x t. kan modelleras med en mängd olika glidande medeluttryck. Vi har också visat att komponenter som trender och periodicitet i tidsserierna kan uttryckligen modelleras och separeras ut, där data sönderdelas i trend, säsongsmässiga och kvarvarande komponenter. Vi visade också i de tidigare diskussionerna om autokorrelation. att de fullständiga och partiella autokorrelationskoefficienterna är extremt användbara för att identifiera och modellera mönster i tidsserier. Dessa två aspekter av tidsserieanalys och modellering kan kombineras i en mer allmän och ofta mycket effektiv, övergripande modelleringsram. I sin grundläggande form kallas denna metod för ARMA-modellering (autoregressivt glidande medelvärde), eller när differentiering ingår i proceduren, ARIMA eller Box-Jenkins modellering, efter de två författarna som var centrala för dess utveckling (se Box amp Jenkins, 1968 BOX1 och Box, Jenkins Amp Reinsel, 1994 BOX2). Det finns ingen bestämd regel om antalet tidsperioder som krävs för en lyckad modelleringsövning, men för mer komplexa modeller, och för större förtroende för passform och validering, rekommenderas ofta serier med 50 tidssteg. ARMA-modeller kombinerar autokorrelationsmetoder (AR) och glidande medelvärden (MA) i en kompositmodell av tidsserierna. Innan vi överväger hur dessa modeller kan kombineras undersöker vi var och en separat. Vi har redan sett att glidande medelvärden (MA) - modeller kan användas för att ge en bra passform till vissa dataset, och variationer på dessa modeller som innebär dubbelt eller trippel exponentiell utjämning kan hantera trend och periodiska komponenter i data. Dessutom kan sådana modeller användas för att skapa prognoser som efterliknar tidigare perioder beteende. En enkel form av sådana modeller, baserad på tidigare data, kan skrivas som: Där betalterna är vikterna applicerade på tidigare värden i tidsserierna, och det är vanligt att definiera beta i 1, utan att det går förlorat av allmänt. Så för en första orderprocess, q 1 och vi har modellen: det rörliga genomsnittsvärdet beräknas som ett vägt genomsnitt av nuvarande och omedelbara förflutna värden. Denna medelprocess är på något sätt en pragmatisk utjämningsmekanism utan direkt koppling till en statistisk modell. Vi kan emellertid ange en statistisk (eller stokastisk) modell som omfattar förfarandena för glidande medelvärden i samband med slumpmässiga processer. Om vi ​​låter vara en uppsättning oberoende och identiskt fördelade slumpmässiga variabler (en slumpmässig process) med noll medel och känd fast varians, kan vi skriva processen som ett glidande medelvärde av order q i termer av: tydligt det förväntade värdet på xt under denna modell är 0, så modellen är endast giltig om xt redan har justerats för att ha ett nollvärde eller om en fast konstant (medelvärdet av xt) läggs till summeringen. Det är också uppenbart att variansen av xt är enkelt: Ovanstående analys kan utökas för att utvärdera kovariansen, cov (x t. Xtk), som vi finner utbyten: Observera att varken medelvärdet eller kovariansen (eller autokovariansen) vid lag k är en funktion av tiden, t. så processen är andra order stationär. Ovanstående uttryck gör det möjligt för oss att få ett uttryck för autokorrelationsfunktionen (acf): Om k 0 rho k 1 och för k gt q rho k 0. Dessutom är acf symmetrisk och rho k rho-k. ACf kan beräknas för en första order MA-process: Den automatiska eller AR-komponenten i en ARMA-modell kan skrivas i formuläret: där termerna är autokorrelationskoefficienter vid lags 1,2. p och z t är en restfelperiod. Observera att det här felet gäller specifikt den aktuella tidsperioden, t. Så för en första orderprocess, p 1 och vi har modellen: Dessa uttryck anger att det uppskattade värdet av x vid tiden t bestäms av det omedelbart föregående värdet av x (dvs vid tiden t -1) multiplicerat med ett mått, alfa . av den utsträckning i vilken värdena för alla par av värden vid tidsperioderna fördröjer 1 isär korrelerade (dvs deras autokorrelation), plus en återstående felperiod, z. vid tiden t. Men det här är just definitionen av en Markov-process. så en Markov-process är en första-order-autoregressiv process. Om alfa 1 anger modellen att nästa värde av x är helt enkelt det föregående värdet plus en slumpmässig felperiod och därmed en enkel 1D slumpmässig promenad. Om flera villkor ingår ingår estimerar värdet av x vid tiden t med en vägd summa av dessa villkor plus en slumpmässig felkomponent. Om vi ​​ersätter det andra uttrycket ovan i det första har vi: och upprepad tillämpning av denna substitutionsutbyte: Om alfa lt1 och k är stora kan detta uttryck skrivas i omvänd ordning med minskande termer och med bidrag från termen i x på höger sida av uttrycket blir försvinnande liten, så har vi: Eftersom den högra sidan av uttrycksmodellerna xt som summan av en viktad uppsättning tidigare värden, i detta fall slumpmässiga felvillkor, är det klart att denna AR-modell är i själva verket en form av MA-modell. Och om vi antar att felvillkoren har nollmedel och konstant varians, så har vi modellens förväntade värde som i 0, förutsatt att xt har justerats för att ge ett nollvärde med varians: Nu som länge som alfa 1 Denna summering är ändlig och är helt enkelt 1 (1 alfa), så vi har: Som med MA-modellen ovan kan denna analys utökas för att utvärdera kovariansen, cov (x t. x tk) av en första ordning AR-processen, som vi finner utbyten: För alfa lt1 är denna summering ändrad och är helt enkelt alfa k (1 alfa 2), så har vi: Detta visar att för en första ordens autregressiv modell är autokorrelationsfunktionen (acf) enkelt definierad genom successiva krafter i den första ordningens autokorrelation, med tillståndet alfa lt1. För alfa gt0 är detta helt enkelt en snabbt minskar kraft eller exponentiell-liknande kurva, som tenderar att vara noll, eller för lt0 är det en dämpande oscillatorisk kurva, som åter tenderar att nollställa. Om ett antagande görs att tidsserierna är stationära kan ovanstående analys utökas till andra och högre orderautokorrelationer. För att passa en AR-modell till en observerad dataset strävar vi efter att minimera summan av kvadrerade fel (en minst kvadratisk passform) med det minsta antalet termer som ger en tillfredsställande passform till data. Modeller av denna typ beskrivs som autoregressiva. och kan tillämpas på både tidsserier och rumsliga datamängder (se vidare, rumsliga autogegressionsmodeller). Även om en autoregressiv modell i teorin kan ge en bra passform till en observerad dataset, skulle det i allmänhet kräva tidigare avlägsnande av och trend och periodiska komponenter, och även då kan det behöva ett stort antal termer för att ge en bra passform till data. Men genom att kombinera AR-modellerna med MA-modeller kan vi producera en familj av blandade modeller som kan appliceras i ett brett spektrum av situationer. Dessa modeller är kända som ARMA - och ARIMA-modeller och beskrivs i följande underavsnitt. I de föregående två delarna introducerade vi MA-läget q: och AR-modellen av order p: Vi kan kombinera dessa två modeller genom att helt enkelt lägga till dem som en ordermodell (s. Q), där vi har p AR-termer och q MA-termer: Generellt kan denna form av kombinerad ARMA-modell användas för att modellera en tidsserie med färre villkor totalt än antingen en MA eller en AR-modell i sig. Den uttrycker det uppskattade värdet vid tid t som summan av q termer som representerar den genomsnittliga variationen av slumpmässig variation över q tidigare perioder (MA-komponenten) plus summan av p AR-termer som beräknar nuvärdet av x som den viktade summan av de senaste p värdena. Emellertid förutsätter denna form av modell att tidsserierna är stationära, vilket sällan är fallet. I praktiken finns trender och periodicitet i många dataset, så det finns ett behov av att ta bort dessa effekter innan de tillämpar sådana modeller. Avlägsnande utförs typiskt genom att i modellen inkludera ett initialt differentieringssteg, typiskt en gång, två gånger eller tre gånger, tills serien är åtminstone ungefär stationär - uppvisar inga uppenbara trender eller periodiciteter. Som med MA - och AR-processerna beskrivs differentieringsprocessen enligt skillnaden, till exempel 1, 2, 3. Sammanfattningsvis utgör dessa tre element en trippel: (p. D. Q) som definierar typen av modell som tillämpas. I denna form beskrivs modellen som en ARIMA-modell. I bokstaven I i ARIMA hänvisas till det faktum att datasetet initialt har skiljts (se differentiering) och när modelleringen är klar måste resultaten summeras eller integreras för att framställa slutliga uppskattningar och prognoser. ARIMA modellering diskuteras nedan. Som noterades i föregående stycke, kombinerar differentiering av en icke-stationär tidsserie med ARMA-modellen en kraftfull modell av modeller som kan tillämpas i ett brett spektrum av situationer. Utvecklingen av denna förlängda form av modell beror till stor del på G E P Box och G M Jenkins, och som ett resultat är ARIMA-modeller också kända som Box-Jenkins-modeller. Det första steget i Box-Jenkins-förfarandet är att skilja tidsserierna till det är stillastående och därigenom säkerställa att trend och säsongskomponenter tas bort. I många fall är en eller två stegs differentiering tillräcklig. Den avvikande serien kommer att vara kortare än källserien med c-tidssteg, där c är skillnaden mellan skillnaderna. En ARMA-modell är sedan monterad i den resulterande tidsserien. Eftersom ARIMA-modeller har tre parametrar finns det många variationer i möjliga modeller som kan monteras. Beslutet om vad dessa parametrar bör vara kan emellertid ledas av ett antal grundläggande principer: (i) modellen ska vara så enkel som möjligt, dvs innehålla så få termer som möjligt, vilket i sin tur betyder värdena för p och q bör vara liten (ii) passformen till historiska data ska vara så bra som möjligt, dvs storleken på de kvadrerade skillnaderna mellan det uppskattade värdet vid vilken tid som helst och det verkliga värdet, bör minimeras (minsta kvadratprincipen) från den valda modellen kan sedan undersökas för att se om resterande rester är signifikant olika än 0 (se vidare nedan) (iii) den uppmätta partiella autokorrelationen vid lags 1,2,3. bör ge en indikation på AR-komponentens ordning, dvs det värde som valts för q (iv) formen av autokorrelationsfunktion (acf) - plot kan föreslå vilken typ av ARIMA-modell som krävs - tabellen nedan (från NIST) ger vägledning om tolka form av acf när det gäller modellval. ARIMA Modell typ val med Acf form Serie är inte stillastående. Standard ARIMA-modeller beskrivs ofta av trippeln: (p. D. Q) enligt ovan. Dessa definierar modellens struktur i termer av AR, differens - och MA-modeller som ska användas. Det är också möjligt att inkludera liknande parametrar för säsongsmässighet i data, även om sådana modeller är mer komplexa att passa och tolka - tripen (P. D. Q) används vanligtvis för att identifiera sådana modellkomponenter. I skärmdumpen från SPSS som visas nedan visas dialogrutan för manuellt val av säsongsbetonade och säsongsbetonade strukturelement (liknande faciliteter finns i andra integrerade paket, till exempel SASETS). Såsom kan ses, möjliggör dialogrutan också att data ska transformeras (typiskt för att hjälpa till med variansstabilisering) och för att möjliggöra för användarna att inkludera en konstant i modellen (standardvärdet). Detta speciella mjukvaruverktyg gör det möjligt att detektera avvikare vid behov enligt ett antal upptäcktsförfaranden, men i många fall har outliers undersökts och justerats eller tagits bort och ersatt värden som beräknats före någon sådan analys. SPSS Time Series Modeler: ARIMA-modellering, expertläge Ett antal ARIMA-modeller kan monteras på data manuellt eller via en automatiserad process (t. ex. en stegvis process) och en eller flera åtgärder som används för att bedöma vilket som är bäst när det gäller passform och parsimoni. Modell jämförelse använder vanligtvis en eller flera av de informationsteoretiska åtgärder som beskrivits tidigare i den här handboken - AIC, BIC andor MDL (R-funktionen, arima (), ger AIC-mätningen, medan SPSS tillhandahåller en rad lämpliga åtgärder, inklusive en version av BIC-statistiken andra verktyg varierar i de angivna åtgärderna - Minitab. som tillhandahåller en rad TSA-metoder, innehåller inte AICBIC-typstatistik). I praktiken kan ett brett spektrum av åtgärder (det vill säga förutom de minsta kvadratbaserade åtgärderna) användas för att utvärdera modellkvaliteten. Exempelvis kan det genomsnittliga absoluta felet och det maximala absoluta felet vara användbara åtgärder eftersom även en bra minst rutor som passar kan fortfarande vara dåliga på plats. Ett antal mjukvarupaket kan också ge en övergripande mätning av autokorrelationen som kan kvarstå i resterna efter montering av modellen. En statistik som ofta tillämpas är beror på Ljung and Box (1978 LJU1) och är av formen: där n är antalet samplar (datavärden) är ri provautokorrelationen vid lag i. och k är det totala antalet lags över vilka beräkningen utförs. Qk är ungefär fördelat som en chi - kvadratfördelning med k - m frihetsgrader, där m är antalet parametrar som används vid montering av modellen, med undantag av konstanta term eller prediktorvariabler (dvs bara inklusive pd q tripplarna). Om åtgärden är statistiskt signifikant Det indikerar att resterna fortfarande innehåller betydande autokorrelation efter att modellen har monterats, vilket tyder på att en förbättrad modell ska sökas. Exempel: Modellering av antalet passagerare i flygbolaget Följande är ett exempel på automatiserad montering, med SPSS till Box-Jenkins-Reinsel-testdata för passagerarnummer för flygbolagen REI1 som anges tidigare i denna handbok. Inledningsvis specificerades inga uppgifter om datumen som månader innan år. Modellen som valts av den automatiserade processen var en ARIMA-modell (0,1,12), det vill säga processen korrekt identifierad att serien krävde en nivå av differentiering och tillämpade en glidande medelmodell med en periodicitet på 12 och ingen autokorrelationskomponent för att passa data. Modellen passade fram ett R2-värde på 0.966, vilket är väldigt högt och ett maximalt absolut fel (MAE) på 75. Den visuella anpassningen av modellen till data ser utmärkt ut, men avbildningen av den resterande autokorrelationen efter montering och Ljung - Box-test visar att signifikant autokorrelation kvarstår, vilket indikerar att en förbättrad modell är möjlig. Automatiserad ARIMA-passform till internationella flygbolagspassagerare: Månadsantal, 1949-1960 För att undersöka detta vidare infördes en reviderad modell baserad på diskussionen av denna dataset av Box och Jenkins (1968) och den uppdaterade upplagan av Chatfields (1975 CHA1) som han använder Minitab för att illustrera sin analys (6: e upplagan, 2003). Tidsserierna definierades som periodiska i 12 månader och en ARIMA-modell med komponenter (0,1,1), (0,1,1). Grafiskt ser resultaten ut som i diagrammet ovan, men med denna modell är R-kvadranten 0,991, MAE41 och Ljung-Box-statistiken är inte längre signifikanta (12,6, med 16 grader av frihet). Modellen är således en förbättring av den ursprungliga (automatiskt genererade) versionen, som består av en MA-säsong utan säsong och en säsongsbetonad MA-komponent, ingen autoregressiv komponent och en nivå av differentiering för säsongsbetonade och icke-säsongsbetonade strukturer. Oavsett om montering är manuellt eller automatiserat kan en ARIMA-modell ge en bra ram för modellering av en tidsserie, eller det kan vara att alternativa modeller eller tillvägagångssätt ger ett mer tillfredsställande resultat. Ofta är det svårt att på förhand veta hur bra en viss prognosmodell sannolikt kommer att vara, eftersom den endast är i ljuset av dess förmåga att förutsäga framtida värden i dataserien att det verkligen kan bedömas. Ofta beräknas denna process genom att passa modellen till tidigare data, med undantag av de senaste tidsperioderna (även känd som uthållna prover) och sedan använda modellen för att förutsäga dessa kända framtida händelser, men även detta erbjuder endast begränsat förtroende för dess framtida validitet. Längre prognoser kan vara extremt opålitliga med hjälp av sådana metoder. Det är uppenbart att den internationella trafikstatistikmodellen som beskrivs ovan inte kan korrekt förutsäga passagerarantalet fram till 1990-talet och därefter, eller 5-årsfallet i amerikanska internationella passagerarnummer enligt 9112001. På samma sätt kan en ARIMA-modell monteras på historiska värden av börskurser eller indexvärden (t. ex. NYSE - eller FTSE-indexen) och kommer typiskt att ge en utmärkt passform till data (vilket ger ett R-kvadratiskt värde på bättre än 0,99) men används ofta för att förutse framtida värden för dessa priser eller index. Vanligtvis används ARIMA-modeller för prognoser, särskilt inom makro - och mikroekonomisk modellering. De kan emellertid tillämpas inom ett brett spektrum av discipliner, antingen i den form som beskrivs här, eller kompletteras med ytterligare prediktorvariabler som tros förbättra de pålitliga prognoserna som gjorts. Det senare är viktigt eftersom hela strukturen av ARMA-modellerna diskuterade ovan beror på tidigare värden och oberoende slumpmässiga händelser över tid, inte på några förklarande eller orsakande faktorer. Därför kommer ARIMA-modellerna endast att reflektera och utvidga tidigare mönster, vilket kan behöva modifieras i prognoser av faktorer som den makroekonomiska miljön, teknikskift eller längre siktresurser och eller miljöförändringar. BOX1 Box G E P, Jenkins G M (1968). Några senaste framsteg i prognos och kontroll. Tillämpad statistik, 17 (2), 91-109 BOX2 Box, G E P, Jenkins, G M, Reinsel G C (1994) Tidsserieanalys, prognos och kontroll. Tredje ed. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) Analysen av Times Series: Theory and Practice. Chapman och Hall, London (se också, 6: e utgåvan 2003) LJU1 Ljung G M, Box G E P (1978) På en mått av brist på passform i tidsseriemodeller. Biometrika, 65, 297303 NISTSEMATECH e-Handbok för statistiska metoder, itl. nist. govdiv898handbook Avsnitt 6.4: Introduktion till tidsserier. 2010 SPSSPASW 17 (2008) AnalyzeForecasting (Time Series Modeller) REI1 Reinsel GC Dataset för Box-Jenkins modeller: stat. wisc. eduSPSS On-Line träningsverkstad Time Series-proceduren ger verktygen för att skapa modeller, tillämpa en befintlig modell för tidsserieanalys , säsongssönderdelning och spektralanalys av tidsseriedata, samt verktyg för att beräkna autokorrelationer och korskorrelationer. Följande två filmklipp visar hur man skapar en exponentiell utjämningstidsseriemodell och hur man applicerar en befintlig tidsseriemodell för att analysera tidsseriedata. MOVIE: Exponentiell utjämningsmodell MOVIE: ARIMA Model amp Expert Modeler Tool I den här onlinebutiken hittar du många filmklipp. Varje filmklipp visar en viss användning av SPSS. Skapa TS-modeller. Det finns olika metoder tillgängliga i SPSS för att skapa Time Series-modeller. Det finns förfaranden för exponentiell utjämning, univariate och multivariate Autoregressive Integrated Moving-Average (ARIMA) - modeller. Dessa förfaranden ger prognoser. Utjämningsmetoder vid prognoser - Flyttande medelvärden, viktade glidmedel och exponentiella utjämningsmetoder används ofta vid prognoser. Huvudsyftet med var och en av dessa metoder är att släpa ut de slumpmässiga fluktuationerna i tidsserierna. Dessa är effektiva när tidsserierna inte uppvisar signifikanta trenden, cykliska eller säsongseffekter. Det vill säga tidsserierna är stabila. Utjämningsmetoder är generellt bra för kortdistansprognoser. Flyttande medelvärden: Flyttande medelvärden använder medelvärdet av de senaste k-datavärdena i tidsserierna. Enligt definitionen MA S (senaste k-värdena) k. Den genomsnittliga MA ändras när nya observationer blir tillgängliga. Viktat rörande medelvärde: I MA-metoden får varje datapunkt samma vikt. I viktat glidande medelvärde använder vi olika vikter för varje datapunkt. Vid val av vikter beräknar vi vägt genomsnitt av de senaste k-datavärdena. I många fall får den senaste datapunkten den största vikten och vikten minskar för äldre datapunkter. Summan av vikterna är lika med 1. Ett sätt att välja vikter är att använda vikter som minimerar medelkvadratfelet (MSE) - kriteriet. Exponentiell utjämning metod. Detta är en speciell vägd genomsnittlig metod. Denna metod väljer vikten för den senaste observationen och vikter för äldre observationer beräknas automatiskt. Dessa andra vikter minskar när observationer blir äldre. Den grundläggande exponentiella utjämningsmodellen är där F t 1 prognos för perioden t 1, t observation vid period t. F t prognos för period t. och en utjämningsparameter (eller konstant) (0 lt a lt1). För en tidsserie ställer vi in ​​F 1 1 för period 1 och efterföljande prognoser för perioder 2, 3, kan beräknas med formeln för F t 1. Med hjälp av detta tillvägagångssätt kan man visa att exponentiell utjämningsmetod är ett viktat medelvärde av alla tidigare datapunkter i tidsserierna. En gång är känt behöver vi veta t och F t för att beräkna prognosen för period t 1. I allmänhet väljer vi ett a som minimerar MSE. Enkel: lämplig för serier där det inte finns någon trend eller säsong. Flyttande medelvärde (q) komponent: Flytta genomsnittliga order anger hur avvikelser från seriens medelvärden för tidigare värden används för att förutsäga nuvarande värden. Expert Time Series Modeler bestämmer automatiskt den bästa passformen för tidsseriedata. Som standard betraktar Expert Modeler både exponentiell utjämning och ARIMA-modeller. Användaren kan bara välja antingen ARIMA eller utjämningsmodeller och ange automatisk detektering av avvikare. Följande filmklipp visar hur man skapar en ARIMA-modell med hjälp av ARIMA-metoden och Expert Modeler som tillhandahålls av SPSS. Datasatsen som används för denna demonstration är AirlinePassenger dataset. Se sidan Dataset för detaljer. Flygpassagerens personuppgifter anges som serie G i boken Tidsserieanalys: Prognos och kontroll av Box och Jenkins (1976). Det rörliga numret är månadspassagerantalet i tusentals. Under logtransformationen har data analyserats i litteraturen. Applicera Time Series Modeller. Denna procedur laddar en befintlig tidsseriemodell från en extern fil och modellen tillämpas på den aktiva SPSS-datasatsen. Detta kan användas för att få prognoser för serier för vilka nya eller reviderade data finns tillgängliga utan att börja bygga en ny modell. Huvuddialogrutan liknar dialogrutan Skapa modeller. Spektralanalys Denna procedur kan användas för att visa periodiskt beteende i tidsserier. Sekvensdiagram. Denna procedur används för att plotta fall i följd. För att köra denna procedur behöver du en tidsseriedata eller en dataset som är sorterad i viss meningsfull ordning. Autokorrelationer. Detta förfarande visar autokorrelationsfunktionen och partiell autokorrelationsfunktion av en eller flera tidsserier. Korskorrelationer. Detta förfarande avbildar korskorrelationsfunktionen för två eller flera tidsserier för positiva, negativa och nolllags. Se SPSS Help Menu för mer information om tidsseriemodell, spektralanalys, sekvensdiagram, autokorrelationer och korskorrelationsprocedurer. T hans online SPSS Training Workshop är utvecklad av Dr Carl Lee, Dr Felix Famoye. studentassistenter Barbara Shelden och Albert Brown. Institutionen för matematik, Central Michigan University. Alla rättigheter förbehållna. ARMA och ARIMA (Box-Jenkins) modeller ARMA och ARIMA (Box-Jenkins) modeller I de föregående avsnitten har vi sett hur värdet av en univariate tidsserie vid tiden t. x t. kan modelleras med en mängd olika glidande medeluttryck. Vi har också visat att komponenter som trender och periodicitet i tidsserierna kan uttryckligen modelleras och separeras ut, där data sönderdelas i trend, säsongsmässiga och kvarvarande komponenter. Vi visade också i de tidigare diskussionerna om autokorrelation. att de fullständiga och partiella autokorrelationskoefficienterna är extremt användbara för att identifiera och modellera mönster i tidsserier. Dessa två aspekter av tidsserieanalys och modellering kan kombineras i en mer allmän och ofta mycket effektiv, övergripande modelleringsram. I sin grundläggande form kallas denna metod för ARMA-modellering (autoregressivt glidande medelvärde), eller när differentiering ingår i proceduren, ARIMA eller Box-Jenkins modellering, efter de två författarna som var centrala för dess utveckling (se Box amp Jenkins, 1968 BOX1 och Box, Jenkins Amp Reinsel, 1994 BOX2). Det finns ingen bestämd regel om antalet tidsperioder som krävs för en lyckad modelleringsövning, men för mer komplexa modeller, och för större förtroende för passform och validering, rekommenderas ofta serier med 50 tidssteg. ARMA-modeller kombinerar autokorrelationsmetoder (AR) och glidande medelvärden (MA) i en kompositmodell av tidsserierna. Innan vi överväger hur dessa modeller kan kombineras undersöker vi var och en separat. Vi har redan sett att glidande medelvärden (MA) - modeller kan användas för att ge en bra passform till vissa dataset, och variationer på dessa modeller som innebär dubbelt eller trippel exponentiell utjämning kan hantera trend och periodiska komponenter i data. Dessutom kan sådana modeller användas för att skapa prognoser som efterliknar tidigare perioder beteende. En enkel form av sådana modeller, baserad på tidigare data, kan skrivas som: Där betalterna är vikterna applicerade på tidigare värden i tidsserierna, och det är vanligt att definiera beta i 1, utan att det går förlorat av allmänt. Så för en första orderprocess, q 1 och vi har modellen: det rörliga genomsnittsvärdet beräknas som ett vägt genomsnitt av nuvarande och omedelbara förflutna värden. Denna medelprocess är på något sätt en pragmatisk utjämningsmekanism utan direkt koppling till en statistisk modell. Vi kan emellertid ange en statistisk (eller stokastisk) modell som omfattar förfarandena för glidande medelvärden i samband med slumpmässiga processer. Om vi ​​låter vara en uppsättning oberoende och identiskt fördelade slumpmässiga variabler (en slumpmässig process) med noll medel och känd fast varians, kan vi skriva processen som ett glidande medelvärde av order q i termer av: tydligt det förväntade värdet på xt under denna modell är 0, så modellen är endast giltig om xt redan har justerats för att ha ett nollvärde eller om en fast konstant (medelvärdet av xt) läggs till summeringen. Det är också uppenbart att variansen av xt är enkelt: Ovanstående analys kan utökas för att utvärdera kovariansen, cov (x t. Xtk), som vi finner utbyten: Observera att varken medelvärdet eller kovariansen (eller autokovariansen) vid lag k är en funktion av tiden, t. så processen är andra order stationär. Ovanstående uttryck gör det möjligt för oss att få ett uttryck för autokorrelationsfunktionen (acf): Om k 0 rho k 1 och för k gt q rho k 0. Dessutom är acf symmetrisk och rho k rho-k. ACf kan beräknas för en första order MA-process: Den automatiska eller AR-komponenten i en ARMA-modell kan skrivas i formuläret: där termerna är autokorrelationskoefficienter vid lags 1,2. p och z t är en restfelperiod. Observera att det här felet gäller specifikt den aktuella tidsperioden, t. Så för en första orderprocess, p 1 och vi har modellen: Dessa uttryck anger att det uppskattade värdet av x vid tiden t bestäms av det omedelbart föregående värdet av x (dvs vid tiden t -1) multiplicerat med ett mått, alfa . av den utsträckning i vilken värdena för alla par av värden vid tidsperioderna fördröjer 1 isär korrelerade (dvs deras autokorrelation), plus en återstående felperiod, z. vid tiden t. Men det här är just definitionen av en Markov-process. så en Markov-process är en första-order-autoregressiv process. Om alfa 1 anger modellen att nästa värde av x är helt enkelt det föregående värdet plus en slumpmässig felperiod och därmed en enkel 1D slumpmässig promenad. Om flera villkor ingår ingår estimerar värdet av x vid tiden t med en vägd summa av dessa villkor plus en slumpmässig felkomponent. Om vi ​​ersätter det andra uttrycket ovan i det första har vi: och upprepad tillämpning av denna substitutionsutbyte: Om alfa lt1 och k är stora kan detta uttryck skrivas i omvänd ordning med minskande termer och med bidrag från termen i x på höger sida av uttrycket blir försvinnande liten, så har vi: Eftersom den högra sidan av uttrycksmodellerna xt som summan av en viktad uppsättning tidigare värden, i detta fall slumpmässiga felvillkor, är det klart att denna AR-modell är i själva verket en form av MA-modell. Och om vi antar att felvillkoren har nollvärde och konstant varians, så har vi modellens förväntade värde som i 0, förutsatt att xt har justerats för att ge ett nollvärde med varians: Nu som länge som alfa 1 Denna summering är ändlig och är helt enkelt 1 (1 alfa), så vi har: Som med MA-modellen ovan kan denna analys utökas för att utvärdera kovariansen, cov (x t. x tk) av en första ordning AR-processen, som vi finner utbyten: För alfa lt1 är denna summering ändrad och är helt enkelt alfa k (1 alfa 2), så har vi: Detta visar att för en första ordens autregressiv modell är autokorrelationsfunktionen (acf) enkelt definierad genom successiva krafter i den första ordningens autokorrelation, med tillståndet alfa lt1. För alfa gt0 är detta helt enkelt en snabbt minskar kraft eller exponentiell-liknande kurva, som tenderar att vara noll, eller för lt0 är det en dämpande oscillatorisk kurva, som åter tenderar att nollställa. Om ett antagande görs att tidsserierna är stationära kan ovanstående analys utökas till andra och högre orderautokorrelationer. För att passa en AR-modell till en observerad dataset strävar vi efter att minimera summan av kvadrerade fel (en minst kvadratisk passform) med det minsta antalet termer som ger en tillfredsställande passform till data. Modeller av denna typ beskrivs som autoregressiva. och kan tillämpas på både tidsserier och rumsliga datamängder (se vidare, rumsliga autogegressionsmodeller). Även om en autoregressiv modell i teorin kan ge en bra passform till en observerad dataset, skulle det i allmänhet kräva tidigare avlägsnande av och trend och periodiska komponenter, och även då kan det behöva ett stort antal termer för att ge en bra passform till data. Men genom att kombinera AR-modellerna med MA-modeller kan vi producera en familj av blandade modeller som kan appliceras i ett brett spektrum av situationer. Dessa modeller är kända som ARMA - och ARIMA-modeller och beskrivs i följande underavsnitt. I de föregående två delarna introducerade vi MA-läget q: och AR-modellen av order p: Vi kan kombinera dessa två modeller genom att helt enkelt lägga till dem som en ordermodell (s. Q), där vi har p AR-termer och q MA-termer: Generellt kan denna form av kombinerad ARMA-modell användas för att modellera en tidsserie med färre villkor totalt än antingen en MA eller en AR-modell i sig. Den uttrycker det uppskattade värdet vid tid t som summan av q termer som representerar den genomsnittliga variationen av slumpmässig variation över q tidigare perioder (MA-komponenten) plus summan av p AR-termer som beräknar nuvärdet av x som den viktade summan av de senaste p värdena. Emellertid förutsätter denna form av modell att tidsserierna är stationära, vilket sällan är fallet. I praktiken finns trender och periodicitet i många dataset, så det finns ett behov av att ta bort dessa effekter innan de tillämpar sådana modeller. Avlägsnande utförs typiskt genom att i modellen inkludera ett initialt differentieringssteg, typiskt en gång, två gånger eller tre gånger, tills serien är åtminstone ungefär stationär - uppvisar inga uppenbara trender eller periodiciteter. Som med MA - och AR-processerna beskrivs differentieringsprocessen enligt skillnaden, till exempel 1, 2, 3. Sammanfattningsvis utgör dessa tre element en trippel: (p. D. Q) som definierar typen av modell som tillämpas. I denna form beskrivs modellen som en ARIMA-modell. I bokstaven I i ARIMA hänvisas till det faktum att datasetet initialt har skiljts (se differentiering) och när modelleringen är klar måste resultaten summeras eller integreras för att framställa slutliga uppskattningar och prognoser. ARIMA modellering diskuteras nedan. Som noterades i föregående stycke, kombinerar differentiering av en icke-stationär tidsserie med ARMA-modellen en kraftfull modell av modeller som kan tillämpas i ett brett spektrum av situationer. Utvecklingen av denna förlängda form av modell beror till stor del på G E P Box och G M Jenkins, och som ett resultat är ARIMA-modeller också kända som Box-Jenkins-modeller. Det första steget i Box-Jenkins-förfarandet är att skilja tidsserierna till det är stillastående och därigenom säkerställa att trend och säsongskomponenter tas bort. I många fall är en eller två stegs differentiering tillräcklig. Den avvikande serien kommer att vara kortare än källserien med c-tidssteg, där c är skillnaden mellan skillnaderna. En ARMA-modell är sedan monterad i den resulterande tidsserien. Eftersom ARIMA-modeller har tre parametrar finns det många variationer i möjliga modeller som kan monteras. Beslutet om vad dessa parametrar bör vara kan emellertid ledas av ett antal grundläggande principer: (i) modellen ska vara så enkel som möjligt, dvs innehålla så få termer som möjligt, vilket i sin tur betyder värdena för p och q bör vara liten (ii) passformen till historiska data ska vara så bra som möjligt, dvs storleken på de kvadrerade skillnaderna mellan det uppskattade värdet vid vilken tid som helst och det verkliga värdet, bör minimeras (minsta kvadratprincipen) från den valda modellen kan sedan undersökas för att se om resterande rester är signifikant olika än 0 (se vidare nedan) (iii) den uppmätta partiella autokorrelationen vid lags 1,2,3. bör ge en indikation på AR-komponentens ordning, dvs det värde som valts för q (iv) formen av autokorrelationsfunktion (acf) - plot kan föreslå vilken typ av ARIMA-modell som krävs - tabellen nedan (från NIST) ger vägledning om tolka form av acf när det gäller modellval. ARIMA Modell typ val med Acf form Serie är inte stillastående. Standard ARIMA-modeller beskrivs ofta av trippeln: (p. D. Q) enligt ovan. Dessa definierar modellens struktur i termer av AR, differens - och MA-modeller som ska användas. Det är också möjligt att inkludera liknande parametrar för säsongsmässighet i data, även om sådana modeller är mer komplexa att passa och tolka - tripen (P. D. Q) används vanligtvis för att identifiera sådana modellkomponenter. I skärmdumpen från SPSS som visas nedan visas dialogrutan för manuellt val av säsongsbetonade och säsongsbetonade strukturelement (liknande faciliteter finns i andra integrerade paket, till exempel SASETS). Såsom kan ses, möjliggör dialogrutan även att data ska transformeras (typiskt för att hjälpa till med variansstabilisering) och för att möjliggöra för användarna att inkludera en konstant i modellen (standardvärdet). Detta speciella mjukvaruverktyg gör det möjligt att detektera avvikare vid behov enligt ett antal upptäcktsförfaranden, men i många fall har outliers undersökts och justerats eller tagits bort och ersatt värden som beräknats före någon sådan analys. SPSS Time Series Modeler: ARIMA-modellering, expertläge Ett antal ARIMA-modeller kan monteras på data manuellt eller via en automatiserad process (t. ex. en stegvis process) och en eller flera åtgärder som används för att bedöma vilket som är bäst när det gäller passform och parsimoni. Modell jämförelse använder vanligtvis en eller flera av de informationsteoretiska åtgärder som beskrivits tidigare i den här handboken - AIC, BIC andor MDL (R-funktionen, arima (), ger AIC-mätningen, medan SPSS tillhandahåller en rad lämpliga åtgärder, inklusive en version av BIC-statistiken andra verktyg varierar i de angivna åtgärderna - Minitab. som tillhandahåller en rad TSA-metoder, innehåller inte AICBIC-typstatistik). In practice a wide range of measures (i. e. other thanin addition to the least squares based measures, can be used to evaluate the model quality. For example, the mean absolute error and the maximum absolute error may be useful measures, since even a good least squares fit may still be poor in places. A number of software packages may also provide an overall measure of the autocorrelation that may remain in the residuals after fitting the model. A statistic frequently applied is due to Ljung and Box (1978 LJU1 ), and is of the form: where n is the number of samples (data values), r i is the sample autocorrelation at lag i. and k is the total number of lags over which the computation is carried out. Q k is approximately distributed as a chi-square distribution with k - m degrees of freedom, where m is the number of parameters used in fitting the model, excluding any constant term or predictor variables (i. e. just including the p. d. q triples). If the measure is statistically significant it indicates that the residuals still contain significant autocorrelation after the model has been fitted, suggesting that an improved model should be sought. Example: Modeling the growth of airline passenger numbers The following is an example of automated fitting, using SPSS to the Box-Jenkins-Reinsel test data of airline passenger numbers REI1 provided earlier in this Handbook. Initially no specification of the dates being months within years was specified. The model selected by the automated process was an ARIMA model (0,1,12), i. e. the process correctly identified that the series required one level of differencing and applied a moving average model with a periodicity of 12 and no autocorrelation component to fit the data. The model fit produced an R 2 value of 0.966, which is very high, and a maximum absolute error (MAE) of 75. The visual fit of the model to the data looks excellent, but the plot of the residual autocorrelation after fitting and Ljung-Box test shows that significant autocorrelation remains, indicating that an improved model is possible. Automated ARIMA fit to International Airline Passengers: Monthly Totals, 1949-1960 To investigate this further a revised model was fitted, based on the discussion of this dataset by Box and Jenkins (1968) and the updated edition of Chatfields (1975 CHA1 ) book in which he uses Minitab to illustrate his analysis (6th edition, 2003). The time series was defined as having a periodicity of 12 months and an ARIMA model with components (0,1,1),(0,1,1). Graphically the results look very similar to the chart above, but with this model the R-squared is 0.991, the MAE41 and the Ljung-Box statistic is no longer significant (12.6, with 16 degrees of freedom). The model is thus an improvement on the original (automatically generated) version, being comprised of a non-seasonal MA and a seasonal MA component, no autoregressive component, and one level of differencing for the seasonal and non-seasonal structures. Whether fitting is manual or automated, an ARIMA model may provide a good framework for modeling a time series, or it may be that alternative models or approaches provide a more satisfactory result. Often it is difficult to know in advance how good any given forecasting model is likely to be, since it is only in the light of its ability to predict future values of the data series that it can be truly judged. Often this process is approximated by fitting the model to past data excluding recent time periods (also known as hold-out samples ), and then using the model to predict these known future events, but even this offers only limited confidence in its future validity. Longer-term forecasting can be extremely unreliable using such methods. Clearly the international air traffic statistics model described above is not able to correctly predict passengers numbers through into the 1990s and beyond, nor the 5-year drop in US international airline passenger numbers post 9112001. Likewise, an ARIMA model can be fitted to historic values of stock exchange prices or index values (e. g. the NYSE or FTSE indices) and will typically provide an excellent fit to the data (yielding an R-squared value of better than 0.99) but are often of little use for forecasting future values of these prices or indices. Typically ARIMA models are used for forecasting, particularly in the field of macro - and micro-economic modeling. However, they can be applied in a wide range of disciplines, either in the form described here, or augmented with additional predictor variables that are believed to improve the reliability of the forecasts made. The latter are important because the entire structure of the ARMA models discussed above depends on prior values and independent random events over time, not on any explanatory or causative factors. Hence ARIMA models will only reflect and extend past patterns, which might need to be modified in forecasts by factors such as the macro-economic environment, technology shifts, or longer term resource andor environmental changes. BOX1 Box G E P, Jenkins G M (1968). Some recent advances in forecasting and control. Applied Statistics, 17(2), 91-109 BOX2 Box, G E P, Jenkins, G M, Reinsel G C (1994) Time Series Analysis, Forecasting and Control. Tredje ed. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) The Analysis of Times Series: Theory and Practice. Chapman and Hall, London (see also, 6th ed. 2003) LJU1 Ljung G M, Box G E P (1978) On a Measure of a Lack of Fit in Time Series Models. Biometrika, 65, 297303 NISTSEMATECH e-Handbook of Statistical Methods, itl. nist. govdiv898handbook Section 6.4: Introduction to time series. 2010 SPSSPASW 17 (2008) AnalyzeForecasting (Time Series Models) REI1 Reinsel G C Datasets for Box-Jenkins models: stat. wisc. eduARIMA - SPSS Trends Introduction Edit This procedure estimates nonseasonal and seasonal univariate ARIMA ( A uto r egressive I ntegrated M oving A verage) models (also known as Box-Jenkins models) with or without fixed regressor variables. The procedure produces maximum-likelihood estimates and can process time series with missing observations. An example Edit You are in charge of quality control at a manufacturing plant and need to know if and when random fluctuations in product quality exceed their usual acceptable levels. Youve tried modeling product quality scores with an exponential smoothing model but foundpresumably because of the highly erratic nature of the datathat the model does little more than predict the overall mean and hence is of little use. ARIMA models are well suited for describing complex time series. After building an appropriate ARIMA model, you can plot the product quality scores along with the upper and lower confidence intervals produced by the model. Scores that fall outside of the confidence intervals may indicate a true decline in product quality. Illustration Edit For each iteration: seasonal and nonseasonal lags (autoregressive and moving average), regression coefficients, adjusted sum of squares, and Marquardt constant. For the final maximum-likelihood parameter estimates: residual sum of squares, adjusted residual sum of squares, residual variance, model standard error, log-likelihood, Akaikes information criterion, Schwartzs Bayesian criterion, regression statistics, correlation matrix, and covariance matrix. The dependent variable and any independent variables should be numeric. Assumption Edit The series should have a constant mean over time. Detekterade annons blockerare störningar Wikia är en fri att använda webbplats som tjänar pengar från reklam. Vi har en modifierad upplevelse för tittare som använder annonsblockerare. Wikia är inte tillgänglig om du har gjort ytterligare ändringar. Remove the custom ad blocker rule(s) and the page will load as expected.

Comments