Friday 20 January 2017

Proc Arima Moyenne Mobile

Les modèles ARIMA sont, en théorie, la classe la plus générale de modèles pour la prévision d'une série temporelle qui peut être rendue 8220stationnaire8221 par différenciation (si nécessaire), peut-être En conjonction avec des transformations non linéaires telles que l'abattage ou le dégonflage (si nécessaire). Une variable aléatoire qui est une série temporelle est stationnaire si ses propriétés statistiques sont toutes constantes dans le temps. Une série stationnaire n'a pas de tendance, ses variations autour de sa moyenne ont une amplitude constante, et elle se balance d'une manière cohérente. C'est-à-dire que ses schémas de temps aléatoires à court terme ont toujours la même signification statistique. Cette dernière condition signifie que ses autocorrélations (corrélations avec ses propres écarts précédents par rapport à la moyenne) restent constantes dans le temps, ou de manière équivalente, que son spectre de puissance reste constant dans le temps. Une variable aléatoire de cette forme peut être considérée (comme d'habitude) comme une combinaison de signal et de bruit, et le signal (si l'on est apparent) pourrait être un modèle de réversion moyenne rapide ou lente, ou oscillation sinusoïdale, ou alternance rapide de signe , Et il pourrait également avoir une composante saisonnière. Un modèle ARIMA peut être considéré comme un 8220filter8221 qui essaie de séparer le signal du bruit, et le signal est ensuite extrapolé dans l'avenir pour obtenir des prévisions. L'équation de prévision d'ARIMA pour une série temporelle stationnaire est une équation linéaire (c'est-à-dire de type régression) dans laquelle les prédicteurs sont constitués par des décalages de la variable dépendante et / ou des décalages des erreurs de prévision. Valeur prédite de Y une constante et / ou une somme pondérée d'une ou plusieurs valeurs récentes de Y et / ou d'une somme pondérée d'une ou plusieurs valeurs récentes des erreurs. Si les prédicteurs se composent uniquement de valeurs décalées de Y. il s'agit d'un modèle autoregressif pur (8220 auto-régressé8221), qui est juste un cas particulier d'un modèle de régression et qui pourrait être équipé d'un logiciel de régression standard. Par exemple, un modèle autorégressif de premier ordre (8220AR (1) 8221) pour Y est un modèle de régression simple dans lequel la variable indépendante est juste Y retardée d'une période (LAG (Y, 1) dans Statgraphics ou YLAG1 dans RegressIt). Si certains des prédicteurs sont des retards des erreurs, un modèle ARIMA, il n'est pas un modèle de régression linéaire, car il n'y a aucun moyen de spécifier 8220last période8217s error8221 comme une variable indépendante: les erreurs doivent être calculées sur une période à période de base Lorsque le modèle est adapté aux données. Du point de vue technique, le problème de l'utilisation d'erreurs retardées comme prédicteurs est que les prédictions du modèle 8217 ne sont pas des fonctions linéaires des coefficients. Même s'ils sont des fonctions linéaires des données passées. Ainsi, les coefficients dans les modèles ARIMA qui incluent des erreurs retardées doivent être estimés par des méthodes d'optimisation non linéaires (8220hill-climbing8221) plutôt que par la simple résolution d'un système d'équations. L'acronyme ARIMA signifie Auto-Regressive Integrated Moving Average. Les Lags de la série stationnaire dans l'équation de prévision sont appelés termes contingentoréducteurs, les retards des erreurs de prévision sont appelés quotmoving averagequot terms et une série chronologique qui doit être différenciée pour être stationnaire est dite être une version quotintegratedquot d'une série stationnaire. Les modèles de Random-Walk et de tendance aléatoire, les modèles autorégressifs et les modèles de lissage exponentiel sont des cas particuliers de modèles ARIMA. Un modèle ARIMA non saisonnier est classé comme un modèle quotARIMA (p, d, q), où: p est le nombre de termes autorégressifs, d est le nombre de différences non saisonnières nécessaires pour la stationnarité, et q est le nombre d'erreurs de prévision retardées dans L'équation de prédiction. L'équation de prévision est construite comme suit. En premier lieu, y désigne la différence d ème de Y. ce qui signifie: Notez que la deuxième différence de Y (le cas d2) n'est pas la différence entre deux périodes. Au contraire, c'est la première différence de la première différence. Qui est l'analogue discret d'une seconde dérivée, c'est-à-dire l'accélération locale de la série plutôt que sa tendance locale. En termes de y. L'équation de prévision générale est: Ici, les paramètres de la moyenne mobile (9528217s) sont définis de sorte que leurs signes soient négatifs dans l'équation, suivant la convention introduite par Box et Jenkins. Certains auteurs et logiciels (y compris le langage de programmation R) les définissent de sorte qu'ils ont des signes plus à la place. Lorsque les nombres réels sont branchés dans l'équation, il n'y a pas d'ambiguïté, mais il est important de savoir quelle convention votre logiciel utilise lorsque vous lisez la sortie. Souvent, les paramètres y sont indiqués par AR (1), AR (2), 8230 et MA (1), MA (2), 8230, etc. Pour identifier le modèle ARIMA approprié pour Y. vous commencez par déterminer l'ordre de différenciation D) le besoin de stationner la série et de supprimer les caractéristiques brutes de la saisonnalité, peut-être en conjonction avec une transformation de stabilisation de la variance telle que l'abattage ou le dégonflage. Si vous vous arrêtez à ce stade et que vous prédisez que la série différenciée est constante, vous avez simplement adapté une marche aléatoire ou un modèle de tendance aléatoire. Cependant, la série stationnaire peut toujours avoir des erreurs autocorrélées, ce qui suggère qu'un certain nombre de termes AR (p 8805 1) et / ou certains termes MA (q 8805 1) sont également nécessaires dans l'équation de prévision. Le processus de détermination des valeurs de p, d et q qui sont les meilleurs pour une série temporelle donnée sera discuté dans des sections ultérieures des notes (dont les liens sont en haut de cette page), mais un aperçu de certains des types Des modèles non saisonniers ARIMA qui sont couramment rencontrés est donné ci-dessous. ARIMA (1,0,0) modèle autorégressif de premier ordre: si la série est stationnaire et autocorrélée, peut-être peut-elle être prédite comme un multiple de sa propre valeur précédente, plus une constante. L'équation de prévision dans ce cas est 8230 qui est Y régressée sur elle-même décalée d'une période. Il s'agit d'un 8220ARIMA (1,0,0) constant8221 modèle. Si la moyenne de Y est nulle, alors le terme constant ne sera pas inclus. Si le coefficient de pente 981 1 est positif et inférieur à 1 dans l'amplitude (il doit être inférieur à 1 dans l'amplitude si Y est stationnaire), le modèle décrit le comportement de réversion moyenne dans lequel la valeur de la prochaine période doit être prédite 981 fois Loin de la valeur moyenne de cette période. Si 981 1 est négatif, il prédit un comportement de réversion moyenne avec l'alternance des signes, c'est-à-dire qu'il prédit également que Y sera inférieur à la moyenne de la période suivante si elle est supérieure à la moyenne de cette période. Dans un modèle autorégressif du second ordre (ARIMA (2,0,0)), il y aurait un terme Y t-2 sur la droite aussi, et ainsi de suite. Selon les signes et les grandeurs des coefficients, un modèle ARIMA (2,0,0) pourrait décrire un système dont la réversion moyenne se fait d'une manière oscillatoire sinusoïdale, comme le mouvement d'une masse sur un ressort soumis à des chocs aléatoires . Randonnée aléatoire ARIMA (0,1,0): Si la série Y n'est pas stationnaire, le modèle le plus simple possible est un modèle de marche aléatoire, qui peut être considéré comme un cas limite d'un modèle AR (1) dans lequel le modèle autorégressif Coefficient est égal à 1, c'est-à-dire une série à réversion moyenne infiniment lente. L'équation de prédiction pour ce modèle peut s'écrire: où le terme constant est le changement moyen de période à période (c'est-à-dire la dérive à long terme) dans Y. Ce modèle pourrait être adapté comme un modèle de régression sans interception dans lequel La première différence de Y est la variable dépendante. Comme il comprend une différence non saisonnière et un terme constant, il est classé en tant que modèle de type ARIMA (0,1,0) avec constant. quot Le modèle aléatoire-sans-dérive serait un ARIMA (0,1, 0) modèle sans modèle constant autorimétrique ARIMA (1,1,0) différencié: Si les erreurs d'un modèle de marche aléatoire sont autocorrélées, peut-être le problème peut-il être fixé en ajoutant un décalage de la variable dépendante à l'équation de prédiction - - c'est à dire En faisant régresser la première différence de Y sur elle-même décalée d'une période. Cela donnerait l'équation de prédiction suivante: qui peut être réarrangée à. Ceci est un modèle autorégressif de premier ordre avec un ordre de différenciation non saisonnière et un terme constant - c'est-à-dire. Un modèle ARIMA (1,1,0). ARIMA (0,1,1) sans lissage exponentiel simple constant: Une autre stratégie pour corriger les erreurs autocorrélées dans un modèle de marche aléatoire est suggérée par le modèle de lissage exponentiel simple. Rappelons que pour certaines séries temporelles non stationnaires (par exemple celles qui présentent des fluctuations bruyantes autour d'une moyenne lentement variable), le modèle de marche aléatoire n'obtient pas une moyenne mobile des valeurs passées. En d'autres termes, plutôt que de prendre l'observation la plus récente comme la prévision de la prochaine observation, il est préférable d'utiliser une moyenne des dernières observations afin de filtrer le bruit et de mieux estimer la moyenne locale. Le modèle de lissage exponentiel simple utilise une moyenne mobile exponentiellement pondérée des valeurs passées pour obtenir cet effet. L'équation de prédiction pour le modèle de lissage exponentiel simple peut être écrite en un certain nombre de formes mathématiquement équivalentes. Dont l'une est la forme dite de correction d'erreur 8221, dans laquelle la prévision précédente est ajustée dans la direction de l'erreur qu'elle a faite: Comme e t-1 Y t-1 - 374 t-1 par définition, ceci peut être réécrit comme : Qui est une équation de prévision ARIMA (0,1,1) sans constante avec 952 1 1 - 945. Cela signifie que vous pouvez ajuster un lissage exponentiel simple en le spécifiant comme un modèle ARIMA (0,1,1) sans Constante, et le coefficient MA (1) estimé correspond à 1-moins-alpha dans la formule SES. Rappelons que dans le modèle SES, l'âge moyen des données dans les prévisions de 1 période à venir est de 1 945. ce qui signifie qu'elles auront tendance à être en retard par rapport aux tendances ou aux points de retournement d'environ 1 945 périodes. Il s'ensuit que l'âge moyen des données dans les prévisions à 1 période d'un modèle ARIMA (0,1,1) sans modèle constant est de 1 (1 - 952 1). Ainsi, par exemple, si 952 1 0.8, l'âge moyen est 5. Alors que 952 1 approche de 1, le modèle ARIMA (0,1,1) sans constante devient une moyenne mobile à très long terme et 952 1 Approche 0, il devient un modèle aléatoire-marche-sans-dérive. Dans les deux modèles précédents décrits ci-dessus, le problème des erreurs autocorrélées dans un modèle de marche aléatoire a été fixé de deux manières différentes: en ajoutant une valeur décalée de la série différenciée À l'équation ou en ajoutant une valeur décalée de l'erreur de prévision. Quelle approche est la meilleure Une règle de base pour cette situation, qui sera discutée plus en détail plus tard, est que l'autocorrélation positive est le mieux traitée en ajoutant un terme AR au modèle et l'autocorrélation négative est généralement mieux traitée en ajoutant un Terme MA. Dans les séries économiques et économiques, l'autocorrélation négative apparaît souvent comme un artefact de différenciation. (En général, la différenciation réduit l'autocorrélation positive et peut même provoquer un basculement de l'autocorrélation positive à négative.) Ainsi, le modèle ARIMA (0,1,1), dans lequel la différenciation est accompagnée d'un terme MA, est plus souvent utilisé qu'un Modèle ARIMA (1,1,0). ARIMA (0,1,1) avec lissage exponentiel simple et constant avec croissance: En implémentant le modèle SES en tant que modèle ARIMA, vous gagnez en fait une certaine souplesse. Tout d'abord, le coefficient de MA (1) estimé peut être négatif. Cela correspond à un facteur de lissage supérieur à 1 dans un modèle SES, ce qui n'est généralement pas autorisé par la procédure de montage du modèle SES. Deuxièmement, vous avez la possibilité d'inclure un terme constant dans le modèle ARIMA si vous le souhaitez, afin d'estimer une tendance moyenne non nulle. Le modèle ARIMA (0,1,1) avec constante a l'équation de prédiction: Les prévisions à une période de ce modèle sont qualitativement similaires à celles du modèle SES, sauf que la trajectoire des prévisions à long terme est typiquement un (Dont la pente est égale à mu) plutôt qu'une ligne horizontale. ARIMA (0,2,1) ou (0,2,2) sans lissage exponentiel linéaire constant: Les modèles de lissage exponentiel linéaire sont des modèles ARIMA qui utilisent deux différences non saisonnières en conjonction avec des termes MA. La seconde différence d'une série Y n'est pas simplement la différence entre Y et elle-même retardée par deux périodes, mais plutôt c'est la première différence de la première différence - i. e. Le changement de la variation de Y à la période t. Ainsi, la deuxième différence de Y à la période t est égale à (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Une seconde différence d'une fonction discrète est analogue à une dérivée seconde d'une fonction continue: elle mesure la quotation ou la quotcurvature dans la fonction à un moment donné. Le modèle ARIMA (0,2,2) sans constante prédit que la seconde différence de la série est égale à une fonction linéaire des deux dernières erreurs de prévision: qui peuvent être réarrangées comme: où 952 1 et 952 2 sont les MA (1) et MA (2) coefficients. Il s'agit d'un modèle de lissage exponentiel linéaire général. Essentiellement le même que le modèle Holt8217s, et le modèle Brown8217s est un cas spécial. Il utilise des moyennes mobiles exponentiellement pondérées pour estimer à la fois un niveau local et une tendance locale dans la série. Les prévisions à long terme de ce modèle convergent vers une droite dont la pente dépend de la tendance moyenne observée vers la fin de la série. ARIMA (1,1,2) sans lissage exponentiel linéaire à tendance amortie constante. Ce modèle est illustré dans les diapositives accompagnant les modèles ARIMA. Il extrapole la tendance locale à la fin de la série, mais l'aplatit à des horizons de prévision plus longs pour introduire une note de conservatisme, une pratique qui a un soutien empirique. Voir l'article sur Quest pourquoi la Tendance amortie travaille par Gardner et McKenzie et l'article de Golden Rulequot par Armstrong et al. Pour plus de détails. Il est généralement conseillé de s'en tenir à des modèles dans lesquels au moins l'un de p et q n'est pas supérieur à 1, c'est-à-dire ne pas essayer d'adapter un modèle tel que ARIMA (2,1,2), car cela entraînera vraisemblablement un overfitting Et quotcommon-factorquot qui sont discutés plus en détail dans les notes sur la structure mathématique des modèles ARIMA. Implémentation de la feuille de calcul: Les modèles ARIMA tels que ceux décrits ci-dessus sont faciles à mettre en œuvre sur une feuille de calcul. L'équation de prédiction est simplement une équation linéaire qui fait référence aux valeurs passées des séries temporelles originales et des valeurs passées des erreurs. Ainsi, vous pouvez configurer une table de prévision ARIMA en stockant les données dans la colonne A, la formule de prévision dans la colonne B et les erreurs (données moins les prévisions) dans la colonne C. La formule de prévision dans une cellule typique de la colonne B serait tout simplement Une expression linéaire se référant aux valeurs dans les lignes précédentes des colonnes A et C multipliées par les coefficients AR ou MA appropriés stockés dans des cellules ailleurs sur la feuille de calcul. Options ARIMA de PROC Les options suivantes peuvent être utilisées dans l'instruction PROC ARIMA. Spécifie le nom de l'ensemble de données SAS qui contient la série temporelle. Si des spécifications DATA différentes apparaissent dans les instructions PROC ARIMA et IDENTIFY, celle de l'instruction IDENTIFY est utilisée. Si l'option DATA n'est pas spécifiée dans l'instruction PROC ARIMA ou IDENTIFY, le jeu de données SAS créé le plus récemment est utilisé. PLOTSlt (global-plot-options) lt (plot-request lt (options)) lt (plot-request lt (options) . Lorsque vous spécifiez une seule demande de traçage, vous pouvez omettre les parenthèses autour de la demande de traçage. Voici quelques exemples: Vous devez activer ODS Graphics avant de demander des tracés comme indiqué dans les instructions suivantes. Pour plus d'informations sur les graphiques ODS, reportez-vous au Chapitre 21, Graphiques statistiques utilisant ODS (Guide de l'utilisateur SASSTAT). Si vous avez activé ODS Graphics mais ne spécifiez aucune demande de trame spécifique, les tracés par défaut associés à chacune des instructions PROC ARIMA utilisées dans le programme sont générés. Les anciens tracés d'imprimante en ligne sont supprimés lorsque les graphiques ODS sont activés. Etant donné qu'aucun tracé spécifique n'est demandé dans ce programme, les tracés par défaut associés aux étapes d'identification et d'estimation sont produits. Options de tracé global: Les options de tracé global s'appliquent à toutes les tracés pertinents générés par la procédure ARIMA. Les options de tracé global suivantes sont prises en charge: UNIQUEMENT supprime les tracés par défaut. Seules les parcelles spécifiquement demandées sont produites. Casse un graphique qui est par ailleurs encadré en tracés de composants individuels. Options de tracé spécifiques: La liste suivante décrit les tracés spécifiques et leurs options. Produit toutes les parcelles appropriées à l'analyse particulière. Supprime toutes les parcelles. Produit des parcelles associées à l'étape d'identification de la modélisation. Les tracés de panneaux correspondant aux options CORR et CROSSCORR sont produits par défaut. Les options série-trame suivantes sont disponibles: produit le tracé des autocorrélations. Produit toutes les parcelles associées à l'étape d'identification. Produit un panel de parcelles qui sont utiles dans l'analyse de tendance et de corrélation de la série. Le panel consiste en ce qui suit: la série chronologique tracer le tracé d'autocorrélation série le tracé d'autocorrélation partielle en série le tracé d'autocorrélation inverse en série produit des panneaux de tracés de corrélation croisée. Produit l'intrigue des autocorrélations inverses. Produit le tracé des autocorrélations partielles. Produit les parcelles résiduelles. Les panneaux de diagnostic de corrélation résiduelle et de normalité sont produits par défaut. Les options de parcelles résiduelles suivantes sont disponibles: produit le tracé des autocorrélations résiduelles. Produit toutes les parcelles de diagnostics résiduels appropriées pour l'analyse particulière. Produit un tableau récapitulatif du diagnostic de corrélation résiduelle qui se compose des éléments suivants: le tracé d'autocorrélation résiduelle le tracé d'autocorrélation partielle résiduelle l'autocorrélation inverse-résiduelle tracent un tracé du test de bruit blanc de Ljung-Box p-valeurs à différents décalages Produit l'histogramme des résidus. Produit le tracé des autocorrélations inverse résiduelles. Produit un tableau récapitulatif des diagnostics de normalité résiduelle qui se compose des éléments suivants: l'histogramme du graphique quantile normal des résidus des résidus produit le tracé des autocorrélations partielles résiduelles. Produit le graphique quantile normal des résidus. Produit un diagramme de dispersion des résidus contre le temps, qui présente un ajustement lisse superposé. Produit l'intrigue des valeurs p de test de bruit blanc de Ljung-Box à différents décalages. Produit les parcelles prévues dans l'étape de prévision. Le graphique à prévision qui affiche les prévisions à plusieurs étapes dans la région de prévision est produit par défaut. Les options de prévision-parcelle suivantes sont disponibles: ALL produit la courbe de prévision ainsi que la courbe de prévision. Produit une trame qui montre les prévisions à un pas et les prévisions multipistes. Produit un graphique qui ne montre que les prévisions à plusieurs étapes dans la région de prévision. Spécifie un ensemble de données SAS auquel les prévisions sont générées. Si des spécifications OUT différentes apparaissent dans les instructions PROC ARIMA et PRÉVISION, celle dans l'instruction PRÉVISION est utilisée.


No comments:

Post a Comment