Modelos de Séries Temporais com R
Aprenda os tipos de componentes que compõe uma série temporal, entenda os modelos clássicos da metodologia de box and jenkis, como lidar com sazonalidade e como escolher o melhor modelo para realizar previsões baseado em dados históricos.
Ementa:
1. Séries Temporais
1.1 Definição de Séries Temporais
Uma série temporal é uma sequência de observações em ordem temporal, coletadas ao longo do
tempo em intervalos regulares ou irregulares e podem ser valores numéricos, como temperatura,
vendas, preço de ações, ou qualquer outra medida registrada ao longo do tempo.
1.2 Características de Séries Temporais
As séries temporais apresentam três características principais: tendência, sazonalidade e
aleatoriedade.
1.2.1 Componentes de Séries Temporais
As séries temporais podem ser decompostas em componentes distintos: tendência, sazonalidade,
ciclo e ruído.
- Tendência: Refere-se à direção geral dos dados ao longo do tempo e pode ser crescente,
decrescente ou constante. - Sazonalidade: Reflete padrões regulares e repetitivos que ocorrem em intervalos fixos
como vendas de varejo que podem ter picos durante as festas de fim de ano. - Ciclo: Representa variações de longo prazo que não são sazonais. Essas variações
podem ocorrer em períodos de vários anos e não seguem um padrão fixo. - Ruído ou aleatoriedade: Refere-se às flutuações aleatórias que não podem ser explicadas
pelos componentes anteriores.
1.4. Modelos Aditivos e Multiplicativos em Séries Temporais
1.4.1 Modelos Aditivos
Os modelos aditivos consideram que os componentes de uma série temporal são independentes e
suas contribuições são somadas para formar a série completa. Por exemplo, se uma série
temporal contém uma tendência ascendente, uma variação sazonal e um componente residual, o
modelo aditivo representaria a série como a soma desses três componentes. Matematicamente,
um modelo aditivo pode ser representado da seguinte forma: Série Temporal = Tendência +
Sazonalidade + Resíduo
Nesse modelo, cada componente é considerado como uma série temporal independente. A
tendência representa a direção geral dos dados, a sazonalidade captura padrões recorrentes em
intervalos fixos e o resíduo engloba as variações não explicadas pelos outros componentes.
1.4.2 Modelos Multiplicativos
Em contraste, os modelos multiplicativos consideram que os componentes de uma série temporal
interagem entre si de forma multiplicativa. Nesse caso, a série completa é obtida multiplicando
os componentes individuais. Por exemplo, se a tendência e a sazonalidade em uma série temporal
estão aumentando ao longo do tempo, um modelo multiplicativo representaria a série como o
produto desses dois componentes tendo as interações entre os componentes expressas por meio
de multiplicação e a tendência e a sazonalidade que podem amplificar ou atenuar o
comportamento, enquanto o resíduo engloba as variações não explicadas. Matematicamente, um
modelo multiplicativo pode ser representado da seguinte forma: Série Temporal = Tendência *
Sazonalidade * Resíduo
A escolha entre um modelo aditivo ou multiplicativo depende da natureza dos dados e dos
padrões que estamos tentando capturar. Em alguns casos, os componentes podem interagir de
forma aditiva, enquanto em outros casos, a interação é mais apropriada de forma multiplicativa.
- Métodos de Séries Temporais
2.1 Previsão de Médias Móveis
A previsão de médias móveis utiliza a média dos valores passados para estimar os valores
futuros e atribui um peso igual a todos os valores passados e pode ser eficaz para séries
temporais com padrões simples.
2.2 Suavização Exponencial
A suavização exponencial é uma técnica que atribui pesos decrescentes aos valores passados,
com mais peso nos dados mais recentes e permite que a previsão seja mais influenciada pelos
valores mais recentes, sendo útil quando há uma tendência ou padrão sazonal nos dados.
2.3 Modelos de Regressão para Séries Temporais
Os modelos de regressão para séries temporais incorporam variáveis independentes adicionais
além das próprias observações passadas. Essas variáveis podem incluir características externas
que afetam a série temporal permitindo uma previsão mais precisa.
2.4 Modelos de Aprendizado de Máquina para Séries Temporais
Os modelos de aprendizado de máquina, como regressão linear, árvores de decisão ou máquinas
de vetores de suporte (SVM), podem ser aplicados para prever séries temporais e são capazes de
capturar relações complexas e não lineares entre as variáveis.
2.5 Modelos Autorregressivos (AR)
Os modelos autorregressivos são baseados na ideia de que os valores passados de uma série
temporal têm influência sobre os valores futuros. Nesses modelos, a previsão é feita com base
em uma combinação linear dos valores anteriores, adicionados a um termo de erro.
2.6 Modelos de Médias Móveis (MA)
Os modelos de médias móveis usam os erros de previsão passados para estimar os valores
futuros e fazem a previsão com base em uma média ponderada dos erros de previsão anteriores.
2.7 Modelo Autorregressivo de Médias Móveis (ARMA)
Os modelos ARMA combinam as características dos modelos autorregressivos e de médias
móveis e utilizam tanto os valores quanto os erros de previsão passados para a previsão futura.
2.8 Modelos Autorregressivos Integrados de Médias Móveis (ARIMA)
Os modelos ARIMA são uma extensão dos modelos ARMA, incorporando uma etapa de
diferenciação para tornar a série temporal estacionária removendo a tendência e a sazonalidade,
tornando a série estatisticamente mais estável.
2.9 Modelos de Componentes Não Lineares
Os modelos de componentes não lineares capturam padrões complexos e não lineares presentes
nas séries temporais. Esses modelos são capazes de lidar com relações não lineares entre as
variáveis e podem ser úteis quando os modelos lineares tradicionais não são adequados.
2.10 Redes Neurais Artificiais (RNAs) para Séries Temporais
As redes neurais artificiais são modelos de aprendizado de máquina que utilizam camadas de
neurônios interconectados para aprender e representar padrões complexos em séries temporais.
Redes neurais recorrentes (RNNs) são comumente utilizadas para modelar dependências
temporais em séries temporais.
2.11 Modelos de Espaço de Estado
Os modelos de espaço de estado descrevem a evolução de um sistema em um estado latente, que
é combinado com uma equação de observação para prever a série temporal e são úteis quando há
incertezas e não se sabe com precisão o verdadeiro estado do sistema.
2.12 Modelo Prophet
O modelo Prophet é uma abordagem desenvolvida pelo Facebook para a previsão de séries
temporais sendo especialmente útil quando se trabalha com séries temporais com tendências
sazonais e feriados. O Prophet é baseado em um modelo aditivo, onde a série temporal é
decomposta em três componentes principais: tendência, sazonalidade e efeitos de feriados. Essa
decomposição permite capturar os padrões temporais presentes nos dados e modelá-los
separadamente.
O modelo Prophet utiliza uma abordagem de regressão, em que a tendência é modelada como
uma função suave dos dados históricos composta por duas partes: uma tendência linear e um
componente de crescimento não linear. A tendência linear representa o aumento ou diminuição
constante ao longo do tempo, enquanto o componente de crescimento não linear captura
mudanças não lineares na taxa de crescimento. Além disso, o Prophet incorpora a sazonalidade
por meio de uma série de Fourier permitindo capturar variações periódicas nos dados, como
padrões diários, semanais, mensais ou anuais. O modelo automaticamente detecta esses padrões
sazonais e ajusta a amplitude e a frequência das componentes de Fourier.
A série de Fourier é uma ferramenta matemática que permite decompor uma função
periódica complexa em uma soma de funções senoidais simples. Essas funções senoidais,
conhecidas como harmônicas, têm diferentes amplitudes, frequências e fases, e quando
combinadas adequadamente, podem se aproximar da função original. De forma simples,
podemos pensar na série de Fourier como uma forma de desmontar uma música em suas
notas musicais individuais, ao tocar um acorde em um instrumento musical, por exemplo,
várias frequências são produzidas ao mesmo tempo. A série de Fourier nos permite
identificar as diferentes frequências e amplitudes dessas notas musicais e recriar o som
original decompondo-o em suas partes constituintes.
Os feriados são tratados como eventos especiais que podem influenciar os padrões da série
temporal. É possível fornecer ao modelo uma lista de feriados relevantes e incorporar ao modelo,
ajustando automaticamente seus efeitos na previsão. O modelo Prophet é relativamente simples
de usar, exigindo poucos parâmetros e um mínimo de pré-processamento dos dados e lida bem
com dados ausentes e outliers sendo capaz de gerar previsões em diferentes horizontes de tempo. - Pré-processamento de Séries Temporais
3.1 Transformação de Dados
As transformações de dados são frequentemente aplicadas para melhorar a qualidade das séries
temporais e podem incluir a remoção de tendência ou sazonalidade, estabilização da variância ou
normalização dos dados.
3.2 Tratamento de Valores Ausentes
Quando há valores ausentes em uma série temporal, é necessário lidar antes da modelagem e
pode envolver técnicas de imputação, que preenchem os valores ausentes com estimativas
razoáveis, ou remoção das observações com valores ausentes.
3.3 Detecção e Remoção de Outliers
Outliers são valores extremos que se afastam significativamente do comportamento geral da série
temporal e a detecção e remoção podem ajudar a evitar distorções nos modelos e análises.
3.4 Normalização e Padronização
A normalização e a padronização são técnicas utilizadas para ajustar a escala dos dados. A
normalização ajusta os dados a um intervalo específico, enquanto a padronização transforma os
dados para que tenham média zero e desvio padrão um, essas técnicas são úteis quando as
variáveis da série temporal estão em escalas diferentes. - Análise Exploratória de Séries Temporais
4.1 Decomposição de Séries Temporais
A decomposição de séries temporais separa os diferentes componentes da série temporal, como
tendência, sazonalidade, ciclo e ruído e permite uma análise individual de cada componente e
uma compreensão mais clara da estrutura dos dados.
4.2 Autocorrelação
A autocorrelação é uma medida estatística que avalia a correlação entre uma observação e suas
observações anteriores em diferentes intervalos de tempo e pode ajudar a identificar padrões
temporais e dependências nas séries temporais. Existem três tipos principais de autocorrelação
em séries temporais: autocorrelação positiva, autocorrelação negativa e autocorrelação nula. - Autocorrelação positiva: ocorre quando os valores da série temporal estão positivamente
correlacionados com seus valores anteriores o que significa que observações maiores do passado
tendem a estar associadas a observações maiores no presente e observações menores do passado
tendem a estar associadas a observações menores no presente. - Autocorrelação negativa: ocorre quando os valores da série temporal estão negativamente
correlacionados com seus valores anteriores e significa que observações maiores do passado
tendem a estar associadas a observações menores no presente e observações menores do passado
tendem a estar associadas a observações maiores no presente. - Autocorrelação nula: ocorre quando não há correlação significativa entre os valores da série
temporal e seus valores anteriores indicando que os valores passados não fornecem informações
úteis para prever os valores futuros da série temporal.
Lag é um conceito fundamental ao analisar séries temporais e está relacionado ao atraso entre os
valores da série. Em termos simples, um lag representa a diferença de tempo entre um ponto na
série temporal e outro ponto anterior sendo medido em unidades de tempo, como dias, meses,
anos, horas, minutos, etc., dependendo da frequência da série temporal. Por exemplo, em uma
série diária, um lag de 1 representa um dia de diferença entre as observações, enquanto em uma
série mensal, um lag de 1 representa um mês de diferença. A análise de lag é importante por
permitir avaliar a autocorrelação (ACF) e a autocorrelação parcial (PACF) em diferentes pontos
da série temporal. Ao examinar a autocorrelação nos vários lags, podemos identificar a presença
de dependência temporal e padrões recorrentes nos dados.
A função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF) são ferramentas
gráficas usadas para visualizar a autocorrelação e a autocorrelação parcial em diferentes lags,
respectivamente. Ao observar os padrões nos gráficos ACF e PACF, podemos determinar quais
lags têm correlação significativa e podem ser relevantes para a modelagem e previsão da série
temporal. Ao escolher um modelo para uma série temporal, é comum considerar os lags com
autocorrelação significativa, uma vez que indicam dependência temporal nos dados. Os modelos
autorregressivos (AR) e de médias móveis (MA) utilizam os lags relevantes para capturar os
padrões de autocorrelação na série.
A autocorrelação é comumente visualizada usando um gráfico chamado função de
autocorrelação (ACF), que mostra a correlação entre os valores da série temporal e seus valores
atrasados em diferentes lags. Valores significativos de autocorrelação nos lags indicam a
presença de dependências nos dados. Ao analisar a autocorrelação em séries temporais, é
importante considerar seu efeito na modelagem e previsão, afinal, a presença de autocorrelação
pode indicar a necessidade de modelos que levem em conta a dependência temporal, como
modelos autorregressivos (AR) ou modelos de médias móveis (MA).
A função de autocorrelação parcial (PACF) é uma ferramenta gráfica usada para visualizar a
autocorrelação parcial em diferentes lags e ajuda a identificar os lags que têm uma correlação
significativa com o valor atual da série temporal, após remover os efeitos de outros lags. A
presença de autocorrelação parcial significativa em determinados lags pode indicar a presença de
dependência temporal específica nessas posições. Ao modelar e prever séries temporais, a
autocorrelação parcial é útil para selecionar a ordem de modelos autorregressivos (AR) e
modelos de médias móveis (MA). A identificação dos lags com autocorrelação parcial
significativa auxilia na escolha adequada dos termos do modelo, ajudando a capturar a
dependência temporal presente nos dados.
5
4.3 Testes de Estacionariedade
A estacionariedade é uma propriedade importante em séries temporais, indicando que a média e
a variância dos dados são constantes ao longo do tempo. Testes estatísticos, como o Augmented
Dickey-Fuller (ADF) são utilizados para verificar se uma série temporal é estacionária ou não.
O teste Augmented Dickey-Fuller (ADF) é utilizado para verificar se uma série temporal possui
raiz unitária, o que indica a presença de tendência e não estacionariedade nos dados. A
interpretação do teste ADF envolve a análise do valor de estatística do teste e do valor-p
associado e a hipótese nula do teste ADF é que a série temporal possui raiz unitária, ou seja, não
é estacionária, logo a hipótese alternativa é que a série temporal é estacionária. Se o valor-p for
menor que um nível de significância pré-definido (geralmente 0,05), rejeita-se a hipótese nula e
conclui-se que a série temporal é estacionária, caso contrário, se o valor-p for maior que o nível
de significância, não se rejeita a hipótese nula e conclui-se que a série temporal possui raiz
unitária e é não estacionária. Além da interpretação binária (estacionária ou não estacionária), o
teste ADF também fornece informações adicionais sobre a presença de tendência nos dados. Se a
série temporal for considerada não estacionária, o teste ADF pode ajudar a identificar a presença
de tendência determinística (linear ou não linear) nos dados sendo indicado por um coeficiente
de tendência significativo no resultado do teste.
Em resumo, a interpretação do teste ADF envolve as seguintes etapas: - Comparar o valor-p com o nível de significância pré-definido (geralmente 0,05). Se o valor-p
for menor que o nível de significância, a série temporal é considerada estacionária. - Analisar a estatística do teste ADF em relação aos valores críticos correspondentes. Se a
estatística do teste for menor que o valor crítico, há mais evidências para rejeitar a hipótese nula
e concluir que a série temporal é estacionária. - Se a série temporal for considerada não estacionária, verificar a presença de tendência
determinística por meio do coeficiente de tendência significativo no resultado do teste.
4.4 Análise de Tendência e Sazonalidade
A análise de tendência busca identificar a direção geral dos dados ao longo do tempo, revelando
se estão aumentando, diminuindo ou mantendo-se estáveis. A análise de sazonalidade identifica
padrões recorrentes em intervalos fixos, como variações sazonais mensais ou anuais. - Avaliação de Modelos de Séries Temporais
6.1 Métricas de Desempenho (MAE, RMSE)
As métricas de desempenho são usadas para avaliar a qualidade das previsões em relação aos
valores reais. O erro médio absoluto (MAE) mede a média das diferenças absolutas entre as
previsões e os valores reais, enquanto o erro quadrático médio (RMSE) mede a raiz quadrada da
média dos quadrados das diferenças.
Tanto o MAE quanto o RMSE são métricas de desempenho que ajudam a avaliar o quão bem
nosso modelo está prevendo os valores reais pois fornecem uma medida numérica para
quantificar o erro médio e podem ser usados para comparar diferentes modelos. Em geral, o
MAE é mais adequado quando queremos ter uma noção clara do erro médio sem se preocupar
6
com a direção dos erros. O RMSE, por sua vez, é mais sensível a erros maiores e é útil quando
queremos penalizar previsões mais distantes dos valores reais.
6.2 Validação Cruzada (K-Fold, LOOCV)
A validação cruzada é uma técnica para avaliar o desempenho do modelo usando conjuntos de
treinamento e teste. O método k-fold divide os dados em k partes iguais, alternando entre usar
cada parte como conjunto de teste e as restantes como conjunto de treinamento. O método
Leave-One-Out Cross-Validation (LOOCV) é uma variação em que cada observação é usada
como conjunto de teste uma vez.
6.3 Comparação de Modelos
A comparação de modelos envolve a avaliação e seleção do modelo com melhor desempenho
com base nas métricas de desempenho. É importante considerar o equilíbrio entre a capacidade
de ajuste do modelo aos dados de treinamento e sua capacidade de generalização para dados não
vistos.
Até o momento na plataforma:
- Materiais e Leituras
- Bloco 1 – Aula 01 – Apresentação do professor e da formação – 01:49
- Bloco 1 – Aula 02 – Introdução a Séries temporais – 12:16
- Bloco 1 – Aula 03 – 14:00
- Bloco 1 – Aula 04 – 19:21
- Bloco 1 – Aula 05 – 10:10
- Bloco 1 – Aula 06 – 12:03
- Bloco 1 – Aula 07 – 10:17
- Bloco 1 – Aula 08 – 15:17
- Bloco 1 – Aula 09 – 15:07
- Bloco 2 – Aula 01 – Modelos de Séries Temporais – 01:49
- Bloco 2 – Aula 02 – 19:21
- Bloco 2 – Aula 03 – 11:08
- Bloco 2 – Aula 04 – 18:33
- Bloco 2 – Aula 05 – 12:50
- Bloco 2 – Aula 06 – 08:54
- Bloco 2 – Aula 07 – 03:49
- Bloco 2 – Aula 08 – 22:46
- Bloco 2 – Aula 09 – 13:12
- Bloco 2 – Aula 10 – 15:33
- Bloco 3 – Aula 01 – R Studio Cloud, Arimax, Sarimax e Automatics forecasting – 09:48
- Bloco 3 – Aula 02 – 09:20
- Bloco 3 – Aula 03 – 16:44
- Bloco 3 – Aula 04 – 34:15
- Bloco 3 – Aula 05 – 37:37
- Bloco 3 – Aula 06 – 32:27
- Machine Learning (Modelos Clássicos da Estatística) – Prof. Awo Sitsofe (Completo 15 horas )
Carga horária : 8 Horas
Prof. Dr. Ricardo limongi:
Graduado em Administração pela PUC-GO, Pós Graduado em Gestão Financeira e Controladoria pela FGV-RJ e Gestão Financeira pela PUC-GO, Mestre em Administração pela Unisinos, e Doutor em Administração na linha de Estratégias de Marketing pela EAESP/FGV, com período sanduíche na Cornell University sob supervisão de Vithala Rao. Suas pesquisas já foram, indicadas e/ou premiadas, pela base de dados internacional Emerald (2015/2017) e eventos científicos como SEMEAD (2013) e EMA (2014/2018). Teve projetos aprovados em Editais Científicos pela Fundação de Amparo à Pesquisa do Estado de Goiás (FAPEG) e pelo CNPQ. Atualmente é Editor Associado da Revista Contabilidade, Gestão e Governança (CGG). Pesquisador e Coordenador do Programa de Pós Graduação em Administração da UFG onde trabalha com temas ligados a Economia Comportamental e Desempenhos Aplicados ao Marketing; Modelagem Econométrica e Experimentos em Marketing. Professor Visitante no Masters Program in Marketing na Universidad de Santiago de Chile. Atua como coordenador, do ADMKT – Grupo de Ensino, Pesquisa e Extensão em Marketing e Data Analytics (https://admkt.face.ufg.br/), certificado pelo CNPq.
- Categoria(s): Cursos Estatística Machine Learning R
Palavras relacionadas: cienciadedados, comunidade_estatistica, estatistica, machine learning, R, series temporais