Monday 29 January 2018

Função de auto correlação média modelo móvel


Objetivo: Verificar os esquemas de Autocorrelação de Randomness (Box e Jenkins, pp. 28-32) são uma ferramenta comumente usada para verificar a aleatoriedade em um conjunto de dados. Esta aleatoriedade é determinada por computar autocorrelações para valores de dados em diferentes intervalos de tempo. Se for aleatória, tais autocorrelações devem ser próximas de zero para qualquer e todas as separações de tempo-atraso. Se não for aleatório, então uma ou mais das autocorrelações serão significativamente não-zero. Além disso, as parcelas de autocorrelação são usadas na fase de identificação do modelo para modelos auto-regressivos, modelos de séries temporais móveis de Box-Jenkins. Autocorrelação é apenas uma medida de aleatoriedade Observe que não correlacionado não significa necessariamente aleatório. Os dados que possuem autocorrelação significativa não são aleatórios. No entanto, os dados que não mostram autocorrelação significativa ainda podem exibir não-aleatoriedade de outras maneiras. Autocorrelação é apenas uma medida de aleatoriedade. No contexto da validação do modelo (que é o tipo primário de aleatoriedade que discutimos no Manual), a verificação da autocorrelação é tipicamente um teste suficiente de aleatoriedade, uma vez que os resíduos de um modelo de ajuste inadequado tendem a exibir aleatoriedade não sutil. No entanto, algumas aplicações requerem uma determinação mais rigorosa da aleatoriedade. Nestes casos, uma bateria de testes, que podem incluir a verificação de autocorrelação, são aplicados desde que os dados podem ser não-aleatórios de muitas maneiras diferentes e muitas vezes sutis. Um exemplo de onde uma verificação mais rigorosa para aleatoriedade é necessária seria testando geradores de números aleatórios. Amostra Plot: autocorrelações devem ser perto de zero para aleatoriedade. Esse não é o caso neste exemplo e, portanto, a hipótese de aleatoriedade falha. Esse gráfico de autocorrelação de amostra mostra que a série de tempo não é aleatória, mas tem um alto grau de autocorrelação entre observações adjacentes e quase adjacentes. Definição: r (h) versus h As parcelas de autocorrelação são formadas por Eixo vertical: Coeficiente de autocorrelação onde C h é a função de autocovariância e C 0 é a função de variância Observe que R h está entre -1 e 1. Note que algumas fontes podem usar o Seguinte fórmula para a função autocovariância Embora esta definição tenha menos viés, a formulação (1 N) tem algumas propriedades estatísticas desejáveis ​​e é a forma mais comumente utilizada na literatura estatística. Veja as páginas 20 e 49-50 em Chatfield para detalhes. Eixo horizontal: Time lag h (h 1, 2, 3.) A linha acima também contém várias linhas de referência horizontais. A linha do meio está em zero. As outras quatro linhas são 95 e 99 faixas de confiança. Observe que existem duas fórmulas distintas para gerar as bandas de confiança. Se o gráfico de autocorrelação estiver sendo usado para testar a aleatoriedade (ou seja, não há dependência temporal nos dados), recomenda-se a seguinte fórmula: onde N é o tamanho da amostra, z é a função de distribuição cumulativa da distribuição normal padrão e (alfa ) É o nível de significância. Neste caso, as bandas de confiança têm uma largura fixa que depende do tamanho da amostra. Esta é a fórmula que foi usada para gerar as faixas de confiança no gráfico acima. Os gráficos de autocorrelação também são usados ​​na fase de identificação do modelo para a montagem de modelos ARIMA. Neste caso, um modelo de média móvel é assumido para os dados e devem ser geradas as seguintes faixas de confiança: onde k é o atraso, N é o tamanho da amostra, z é a função de distribuição cumulativa da distribuição normal padrão e (alfa) é O nível de significância. Neste caso, as faixas de confiança aumentam à medida que o atraso aumenta. O gráfico de autocorrelação pode fornecer respostas para as seguintes perguntas: Os dados são aleatórios É uma observação relacionada a uma observação adjacente É uma observação relacionada a uma observação duas vezes removido (etc.) É a série de tempo observada ruído branco A série temporal observada é sinusoidal A série de tempo observada é autorregressiva O que é um modelo apropriado para as séries temporais observadas O modelo é válido e suficiente A fórmula é ssqrt válida Importância: Garanta a validade das conclusões de engenharia A aleatoriedade (juntamente com o modelo fixo, a variação fixa e a distribuição fixa) Uma das quatro suposições que tipicamente estão subjacentes a todos os processos de medição. A hipótese de aleatoriedade é extremamente importante pelas três razões a seguir: A maioria dos testes estatísticos padrão depende da aleatoriedade. A validade das conclusões do teste está diretamente ligada à validade do pressuposto de aleatoriedade. Muitas fórmulas estatísticas comumente utilizadas dependem da suposição aleatória, sendo a fórmula mais comum a fórmula para determinar o desvio padrão da média da amostra: em que s é o desvio padrão dos dados. Embora fortemente usados, os resultados de usar esta fórmula são de nenhum valor a menos que a suposição de aleatoriedade se mantenha. Para dados univariados, o modelo padrão é Se os dados não são aleatórios, este modelo é incorreto e inválido, e as estimativas para os parâmetros (como a constante) tornam-se absurdas e inválidas. Em suma, se o analista não verificar a aleatoriedade, então a validade de muitas das conclusões estatísticas torna-se suspeito. O gráfico de autocorrelação é uma excelente maneira de verificar essa aleatoriedade.2.2 Função de Autocorrelação Parcial (PACF) Versão para impressão Em geral, uma correlação parcial é uma correlação condicional. É a correlação entre duas variáveis ​​sob o pressuposto de que conhecemos e tomamos em consideração os valores de algum outro conjunto de variáveis. Por exemplo, considere um contexto de regressão em que y variável de resposta e x 1. X 2. E x 3 são variáveis ​​preditoras. A correlação parcial entre y e x 3 é a correlação entre as variáveis ​​determinadas levando em consideração como y e x 3 estão relacionados a x 1 e x 2. Na regressão, essa correlação parcial pode ser encontrada correlacionando os resíduos de duas regressões diferentes: (1) Regressão na qual predizemos y de x 1 e x 2. (2) regressão em que nós prediz x 3 de x 1 e x 2. Basicamente, correlacionamos as partes de y e x 3 que não são previstas por x 1 e x 2. Mais formalmente, podemos definir a correlação parcial que acabamos de descrever como Note que isto é também como os parâmetros de um modelo de regressão são interpretados. Pense na diferença entre interpretar os modelos de regressão: (y beta0 beta1x2 texto y beta0beta1xbeta2x2) No primeiro modelo, 1 pode ser interpretado como a dependência linear entre x 2 e y. No segundo modelo, 2 seria interpretado como a dependência linear entre x 2 e y com a dependência entre x e y já explicada. Para uma série temporal, a autocorrelação parcial entre x t e x t-h é definida como a correlação condicional entre x t e x t-h. Condicional em x t-h1. X t-1. O conjunto de observações que vêm entre os pontos de tempo t e th. A autocorrelação parcial de 1ª ordem será definida para igualar a autocorrelação de 1ª ordem. A autocorrelação parcial de 2ª ordem (lag) é Esta é a correlação entre valores dois períodos de tempo separados condicionados ao conhecimento do valor entre eles. (A propósito, as duas variâncias no denominador serão iguais entre si em uma série estacionária.) A autocorrelação parcial de ordem 3 (lag) é E, assim por diante, para qualquer lag. Tipicamente, as manipulações de matrizes que têm a ver com a matriz de covariância de uma distribuição multivariada são usadas para determinar estimativas das autocorrelações parciais. Alguns Fatos Úteis Sobre os Padrões PACF e ACF A identificação de um modelo AR é muitas vezes melhor feita com o PACF. Para um modelo AR, o PACF teórico desliga passado a ordem do modelo. A frase desliga significa que, em teoria, as autocorrelações parciais são iguais a 0 para além desse ponto. Dito de outra forma, o número de autocorrelações parciais não-zero dá a ordem do modelo AR. Pela ordem do modelo nós significamos o lag mais extremo de x que é usado como um predictor. Exemplo. Na Lição 1.2, identificamos um modelo AR (1) para uma série temporal de números anuais de terremotos mundiais com uma magnitude sísmica maior que 7,0. A seguir está a amostra PACF para esta série. Note que o primeiro valor de atraso é estatisticamente significativo, enquanto autocorrelações parciais para todos os outros atrasos não são estatisticamente significativas. Isto sugere um possível AR (1) modelo para estes dados. A identificação de um modelo de MA é muitas vezes melhor feito com o ACF em vez do PACF. Para um modelo de MA, o PACF teórico não desliga, mas em vez disso afunila em direção a 0 de alguma maneira. Um padrão mais claro para um modelo MA está no ACF. O ACF terá autocorrelações não nulas somente em defasagens envolvidas no modelo. A Lição 2.1 incluiu o seguinte ACF de amostra para uma série MA (1) simulada. Observe que a primeira autocorrelação de atraso é estatisticamente significativa, enquanto que todas as autocorrelações subseqüentes não são. Isto sugere um possível MA (1) modelo para os dados. Nota teórica. O modelo utilizado para a simulação foi x t 10 w t 0,7 w t-1. O modelo subjacente utilizado para a simulação de MA (1) na lição 2.1 foi xt 10 wt 0,7 w t (1 1 2) .7 (1,7 2) .4698 e autocorrelações para todos os outros atrasos -1. Segue-se o PACF teórico (autocorrelação parcial) para esse modelo. Nota: O PACF que acabamos de mostrar foi criado em R com estes dois comandos: ma1pacf ARMAacf (ma c (.7), lag. max 36, pacfTRUE) traço (ma1pacf, typeh, principal Teórico PACF de MA (1) com theta 0.7) Navegação2.1 Modelos de média móvel (modelos MA) Modelos de séries temporais conhecidos como modelos ARIMA podem incluir termos auto-regressivos ou termos de média móvel. Na Semana 1, aprendemos um termo autorregressivo em um modelo de séries temporais para a variável x t é um valor retardado de x t. Por exemplo, um termo autorregressivo de atraso 1 é x t-1 (multiplicado por um coeficiente). Esta lição define termos de média móvel. Um termo de média móvel em um modelo de séries temporais é um erro passado (multiplicado por um coeficiente). Vamos (wt desviar N (0, sigma2w)), significando que os w t são identicamente, distribuídos independentemente, cada um com uma distribuição normal com média 0 e a mesma variância. O modelo de média móvel de ordem 1, denotado por MA (1) é (xt mu wt theta1w) O modelo de média móvel de 2ª ordem, denotado por MA (2) é (xt mu wt theta1w theta2w) , Denotado por MA (q) é (xt mu wt theta1w theta2w pontos thetaqw) Nota. Muitos livros didáticos e programas de software definem o modelo com sinais negativos antes dos termos. Isso não altera as propriedades teóricas gerais do modelo, embora ele inverta os sinais algébricos de valores de coeficientes estimados e de termos (não-quadrados) nas fórmulas para ACFs e variâncias. Você precisa verificar seu software para verificar se sinais negativos ou positivos foram usados ​​para escrever corretamente o modelo estimado. R usa sinais positivos em seu modelo subjacente, como fazemos aqui. Propriedades Teóricas de uma Série de Tempo com um Modelo MA (1) Observe que o único valor não nulo na ACF teórica é para o atraso 1. Todas as outras autocorrelações são 0. Assim, uma ACF de amostra com uma autocorrelação significativa apenas no intervalo 1 é um indicador de um possível modelo MA (1). Para os estudantes interessados, provas destas propriedades são um apêndice a este folheto. Exemplo 1 Suponha que um modelo MA (1) seja x t 10 w t .7 w t-1. Onde (wt overset N (0,1)). Assim, o coeficiente 1 0,7. O ACF teórico é dado por Um gráfico deste ACF segue. O gráfico apenas mostrado é o ACF teórico para um MA (1) com 1 0,7. Na prática, uma amostra normalmente não proporciona um padrão tão claro. Usando R, simulamos n 100 valores de amostra usando o modelo x t 10 w t .7 w t-1 onde w t iid N (0,1). Para esta simulação, segue-se um gráfico de séries temporais dos dados da amostra. Não podemos dizer muito desse enredo. A ACF de amostra para os dados simulados segue. Observamos que a amostra ACF não corresponde ao padrão teórico do MA subjacente (1), ou seja, que todas as autocorrelações para os atrasos de 1 serão 0 Uma amostra diferente teria uma ACF de amostra ligeiramente diferente mostrada abaixo, mas provavelmente teria as mesmas características gerais. Propriedades teóricas de uma série temporal com um modelo MA (2) Para o modelo MA (2), as propriedades teóricas são as seguintes: Note que os únicos valores não nulos na ACF teórica são para os retornos 1 e 2. As autocorrelações para atrasos maiores são 0 . Assim, uma ACF de amostra com autocorrelações significativas nos intervalos 1 e 2, mas autocorrelações não significativas para atrasos maiores indica um possível modelo MA (2). Iid N (0,1). Os coeficientes são 1 0,5 e 2 0,3. Como este é um MA (2), o ACF teórico terá valores não nulos apenas nos intervalos 1 e 2. Os valores das duas autocorrelações não nulas são: Um gráfico do ACF teórico segue. Como quase sempre é o caso, dados de exemplo não vai se comportar tão perfeitamente como a teoria. Foram simulados n 150 valores de amostra para o modelo x t 10 w t .5 w t-1 .3 w t-2. Onde w t iid N (0,1). O gráfico de série de tempo dos dados segue. Como com o gráfico de série de tempo para os dados de amostra de MA (1), você não pode dizer muito dele. A ACF de amostra para os dados simulados segue. O padrão é típico para situações em que um modelo MA (2) pode ser útil. Existem dois picos estatisticamente significativos nos intervalos 1 e 2, seguidos por valores não significativos para outros desfasamentos. Note que devido ao erro de amostragem, a ACF da amostra não corresponde exactamente ao padrão teórico. ACF para Modelos Gerais MA (q) Uma propriedade dos modelos MA (q) em geral é que existem autocorrelações não nulas para os primeiros q lags e autocorrelações 0 para todos os retornos gt q. Não-unicidade de conexão entre os valores de 1 e (rho1) no modelo MA (1). No modelo MA (1), para qualquer valor de 1. O recíproco 1 1 dá o mesmo valor para Como exemplo, use 0,5 para 1. E então use 1 (0,5) 2 para 1. Você obterá (rho1) 0,4 em ambas as instâncias. Para satisfazer uma restrição teórica chamada invertibilidade. Restringimos modelos MA (1) para ter valores com valor absoluto menor que 1. No exemplo dado, 1 0,5 será um valor de parâmetro permitido, enquanto 1 10,5 2 não. Invertibilidade de modelos MA Um modelo MA é dito ser inversível se for algébrica equivalente a um modelo de ordem infinita convergente. Por convergência, queremos dizer que os coeficientes de RA diminuem para 0 à medida que avançamos no tempo. Invertibilidade é uma restrição programada em séries temporais de software utilizado para estimar os coeficientes de modelos com MA termos. Não é algo que verificamos na análise de dados. Informações adicionais sobre a restrição de invertibilidade para modelos MA (1) são fornecidas no apêndice. Teoria Avançada Nota. Para um modelo MA (q) com um ACF especificado, existe apenas um modelo invertible. A condição necessária para a invertibilidade é que os coeficientes têm valores tais que a equação 1- 1 y-. - q y q 0 tem soluções para y que caem fora do círculo unitário. Código R para os Exemplos No Exemplo 1, traçamos o ACF teórico do modelo x t 10w t. 7w t-1. E depois simularam n 150 valores a partir deste modelo e traçaram a amostra de séries temporais ea amostra ACF para os dados simulados. Os comandos R utilizados para traçar o ACF teórico foram: acfma1ARMAacf (mac (0.7), lag. max10) 10 lags de ACF para MA (1) com theta1 0.7 lags0: 10 cria uma variável chamada lags que varia de 0 a 10. plot (Lags, acfma1, xlimc (1,10), ylabr, typeh, ACF principal para MA (1) com theta1 0,7) abline (h0) adiciona um eixo horizontal ao gráfico O primeiro comando determina o ACF e o armazena em um objeto Chamado acfma1 (nossa escolha de nome). O comando de plotagem (o terceiro comando) traça defasagens em relação aos valores de ACF para os retornos de 1 a 10. O parâmetro ylab marca o eixo y eo parâmetro principal coloca um título no gráfico. Para ver os valores numéricos do ACF basta usar o comando acfma1. A simulação e as parcelas foram feitas com os seguintes comandos. Xcarima. sim (n150, lista (mac (0.7))) Simula n 150 valores de MA (1) xxc10 adiciona 10 para fazer a média 10. Padrões de simulação significam 0. plot (x, typeb, mainSimulated MA (1) data) Acf (x, xlimc (1,10), mainACF para dados de amostras simulados) No Exemplo 2, traçamos o ACF teórico do modelo xt 10 wt. 5 w t-1 .3 w t-2. E depois simularam n 150 valores a partir deste modelo e traçaram a amostra de séries temporais ea amostra ACF para os dados simulados. Os comandos R utilizados foram acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 parcela (lags, acfma2, xlimc (1,10), ylabr, tipoh, ACF principal para MA (2) com theta1 0,5, (X, typeb, main Simulado MA (2) Series) acf (x, xlimc (1,10), x2, MainACF para dados simulados de MA (2) Apêndice: Prova de Propriedades de MA (1) Para estudantes interessados, aqui estão as provas para propriedades teóricas do modelo MA (1). Quando h 1, a expressão anterior 1 w 2. Para qualquer h 2, a expressão anterior 0 (x) é a expressão anterior x (x) A razão é que, por definição de independência do wt. E (w k w j) 0 para qualquer k j. Além disso, porque w t tem média 0, E (w j w j) E (w j 2) w 2. Para uma série de tempo, aplique este resultado para obter o ACF fornecido acima. Um modelo MA reversível é aquele que pode ser escrito como um modelo de ordem infinita AR que converge de modo que os coeficientes AR convergem para 0 à medida que nos movemos infinitamente para trás no tempo. Bem demonstrar invertibilidade para o modelo MA (1). Em seguida, substitui-se a relação (2) para wt-1 na equação (1) (3) (zt wt theta1 (z-theta1w) wt theta1z-theta2w) No tempo t-2. A equação (2) torna-se Então substituimos a relação (4) para wt-2 na equação (3) (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z-theta12z theta31w) Se continuássemos Infinitamente), obteríamos o modelo AR de ordem infinita (zt wt theta1 z - theta21z theta31z - theta41z pontos) Observe, no entanto, que se 1 1, os coeficientes multiplicando os desfasamentos de z aumentarão (infinitamente) Tempo. Para evitar isso, precisamos de 1 lt1. Esta é a condição para um modelo MA (1) invertible. Infinite Order MA model Na semana 3, bem ver que um modelo AR (1) pode ser convertido em um modelo de ordem infinita MA: (xt - mu wt phi1w phi21w pontos phik1 w dots sum phij1w) Esta soma de termos de ruído branco passado é conhecido Como a representação causal de um AR (1). Em outras palavras, x t é um tipo especial de MA com um número infinito de termos voltando no tempo. Isso é chamado de ordem infinita MA ou MA (). Uma ordem finita MA é uma ordem infinita AR e qualquer ordem finita AR é uma ordem infinita MA. Lembre-se na Semana 1, observamos que um requisito para um AR estacionário (1) é que 1 lt1. Vamos calcular o Var (x t) usando a representação causal. Esta última etapa usa um fato básico sobre séries geométricas que requer (phi1lt1) caso contrário, a série diverge. Análise da série NavigationTime tsa statsmodels. tsa contém classes de modelos e funções que são úteis para a análise de séries temporais. Atualmente, inclui modelos autoregressivos univariados (AR), modelos vetoriais autorregressivos (VAR) e modelos de média móvel autorregressiva univariada (ARMA). Inclui também estatística descritiva para séries temporais, por exemplo autocorrelação, função de autocorrelação parcial e periodograma, bem como as propriedades teóricas correspondentes de ARMA ou processos relacionados. Ele também inclui métodos para trabalhar com polinômios de atraso médio auto-regressivos e móveis. Além disso, testes estatísticos relacionados e algumas funções auxiliares úteis estão disponíveis. A estimativa é feita por exata ou condicional Máxima Verossimilhança ou por mínimos quadrados condicionais, usando Filtro Kalman ou filtros diretos. Atualmente, funções e classes devem ser importadas do módulo correspondente, mas as classes principais estarão disponíveis no namespace statsmodels. tsa. A estrutura do módulo está dentro de statsmodels. tsa é stattools. Propriedades empíricas e testes, acf, pacf, granger-causalidade, adf teste de raiz unitária, teste ljung-box e outros. Armodel Processo autoregressivo univariável, estimativa com probabilidade máxima condicional e exata e arimamodelo condicional de mínimos quadrados. Processo ARMA univariável, estimativa com probabilidade máxima condicional e exata e vetoriais mínimos quadrados condicionais, var. Modelos de estimativa de VAR, análise de resposta a impulsos, decomposição de variância de erros de previsão e ferramentas de visualização de dados. Classes de estimativa para ARMA e outros modelos com MLE exato usando Filtro de Kalman armaprocess. Propriedades de processos arma com parâmetros dados, isso inclui ferramentas para converter entre ARMA, MA e AR representação, bem como acf, pacf, densidade espectral, função de resposta de impulso e similares sandbox. tsa. fftarma. Semelhante ao armaprocess mas trabalhando em domínio de freqüência tsatools. Funções auxiliares adicionais, para criar matrizes de variáveis ​​defasadas, construir regressores para tendência, detrend e similares. Filtros. Função auxiliar para filtrar séries temporais Algumas funções adicionais que também são úteis para análise de séries temporais estão em outras partes de modelos de estatísticas, por exemplo, testes estatísticos adicionais. Algumas funções relacionadas também estão disponíveis em matplotlib, nitime e scikits. talkbox. Essas funções são projetadas mais para o uso no processamento de sinal onde mais séries temporais estão disponíveis e trabalham com mais freqüência no domínio da freqüência. Estatísticas descritivas e testes stattools. acovf (x, imparcial, avanço, fft)

No comments:

Post a Comment