Modelos de Séries Temporais com R


Aprenda os tipos de componentes que compõe uma série temporal, entenda os modelos clássicos da metodologia de box and jenkis, como lidar com sazonalidade e como escolher o melhor modelo para realizar previsões baseado em dados históricos.

Ementa:

1. Séries Temporais
1.1 Definição de Séries Temporais
Uma série temporal é uma sequência de observações em ordem temporal, coletadas ao longo do
tempo em intervalos regulares ou irregulares e podem ser valores numéricos, como temperatura,
vendas, preço de ações, ou qualquer outra medida registrada ao longo do tempo.
1.2 Características de Séries Temporais
As séries temporais apresentam três características principais: tendência, sazonalidade e
aleatoriedade.
1.2.1 Componentes de Séries Temporais
As séries temporais podem ser decompostas em componentes distintos: tendência, sazonalidade,
ciclo e ruído.

  • Tendência: Refere-se à direção geral dos dados ao longo do tempo e pode ser crescente,
    decrescente ou constante.
  • Sazonalidade: Reflete padrões regulares e repetitivos que ocorrem em intervalos fixos
    como vendas de varejo que podem ter picos durante as festas de fim de ano.
  • Ciclo: Representa variações de longo prazo que não são sazonais. Essas variações
    podem ocorrer em períodos de vários anos e não seguem um padrão fixo.
  • Ruído ou aleatoriedade: Refere-se às flutuações aleatórias que não podem ser explicadas
    pelos componentes anteriores.
    1.4. Modelos Aditivos e Multiplicativos em Séries Temporais
    1.4.1 Modelos Aditivos
    Os modelos aditivos consideram que os componentes de uma série temporal são independentes e
    suas contribuições são somadas para formar a série completa. Por exemplo, se uma série
    temporal contém uma tendência ascendente, uma variação sazonal e um componente residual, o
    modelo aditivo representaria a série como a soma desses três componentes. Matematicamente,
    um modelo aditivo pode ser representado da seguinte forma: Série Temporal = Tendência +
    Sazonalidade + Resíduo
    Nesse modelo, cada componente é considerado como uma série temporal independente. A
    tendência representa a direção geral dos dados, a sazonalidade captura padrões recorrentes em
    intervalos fixos e o resíduo engloba as variações não explicadas pelos outros componentes.
    1.4.2 Modelos Multiplicativos
    Em contraste, os modelos multiplicativos consideram que os componentes de uma série temporal
    interagem entre si de forma multiplicativa. Nesse caso, a série completa é obtida multiplicando
    os componentes individuais. Por exemplo, se a tendência e a sazonalidade em uma série temporal
    estão aumentando ao longo do tempo, um modelo multiplicativo representaria a série como o
    produto desses dois componentes tendo as interações entre os componentes expressas por meio
    de multiplicação e a tendência e a sazonalidade que podem amplificar ou atenuar o
    comportamento, enquanto o resíduo engloba as variações não explicadas. Matematicamente, um
    modelo multiplicativo pode ser representado da seguinte forma: Série Temporal = Tendência *
    Sazonalidade * Resíduo
    A escolha entre um modelo aditivo ou multiplicativo depende da natureza dos dados e dos
    padrões que estamos tentando capturar. Em alguns casos, os componentes podem interagir de
    forma aditiva, enquanto em outros casos, a interação é mais apropriada de forma multiplicativa.
  1. Métodos de Séries Temporais
    2.1 Previsão de Médias Móveis
    A previsão de médias móveis utiliza a média dos valores passados para estimar os valores
    futuros e atribui um peso igual a todos os valores passados e pode ser eficaz para séries
    temporais com padrões simples.
    2.2 Suavização Exponencial
    A suavização exponencial é uma técnica que atribui pesos decrescentes aos valores passados,
    com mais peso nos dados mais recentes e permite que a previsão seja mais influenciada pelos
    valores mais recentes, sendo útil quando há uma tendência ou padrão sazonal nos dados.
    2.3 Modelos de Regressão para Séries Temporais
    Os modelos de regressão para séries temporais incorporam variáveis independentes adicionais
    além das próprias observações passadas. Essas variáveis podem incluir características externas
    que afetam a série temporal permitindo uma previsão mais precisa.
    2.4 Modelos de Aprendizado de Máquina para Séries Temporais
    Os modelos de aprendizado de máquina, como regressão linear, árvores de decisão ou máquinas
    de vetores de suporte (SVM), podem ser aplicados para prever séries temporais e são capazes de
    capturar relações complexas e não lineares entre as variáveis.
    2.5 Modelos Autorregressivos (AR)
    Os modelos autorregressivos são baseados na ideia de que os valores passados de uma série
    temporal têm influência sobre os valores futuros. Nesses modelos, a previsão é feita com base
    em uma combinação linear dos valores anteriores, adicionados a um termo de erro.
    2.6 Modelos de Médias Móveis (MA)
    Os modelos de médias móveis usam os erros de previsão passados para estimar os valores
    futuros e fazem a previsão com base em uma média ponderada dos erros de previsão anteriores.
    2.7 Modelo Autorregressivo de Médias Móveis (ARMA)
    Os modelos ARMA combinam as características dos modelos autorregressivos e de médias
    móveis e utilizam tanto os valores quanto os erros de previsão passados para a previsão futura.
    2.8 Modelos Autorregressivos Integrados de Médias Móveis (ARIMA)
    Os modelos ARIMA são uma extensão dos modelos ARMA, incorporando uma etapa de
    diferenciação para tornar a série temporal estacionária removendo a tendência e a sazonalidade,
    tornando a série estatisticamente mais estável.
    2.9 Modelos de Componentes Não Lineares
    Os modelos de componentes não lineares capturam padrões complexos e não lineares presentes
    nas séries temporais. Esses modelos são capazes de lidar com relações não lineares entre as
    variáveis e podem ser úteis quando os modelos lineares tradicionais não são adequados.
    2.10 Redes Neurais Artificiais (RNAs) para Séries Temporais
    As redes neurais artificiais são modelos de aprendizado de máquina que utilizam camadas de
    neurônios interconectados para aprender e representar padrões complexos em séries temporais.
    Redes neurais recorrentes (RNNs) são comumente utilizadas para modelar dependências
    temporais em séries temporais.
    2.11 Modelos de Espaço de Estado
    Os modelos de espaço de estado descrevem a evolução de um sistema em um estado latente, que
    é combinado com uma equação de observação para prever a série temporal e são úteis quando há
    incertezas e não se sabe com precisão o verdadeiro estado do sistema.
    2.12 Modelo Prophet
    O modelo Prophet é uma abordagem desenvolvida pelo Facebook para a previsão de séries
    temporais sendo especialmente útil quando se trabalha com séries temporais com tendências
    sazonais e feriados. O Prophet é baseado em um modelo aditivo, onde a série temporal é
    decomposta em três componentes principais: tendência, sazonalidade e efeitos de feriados. Essa
    decomposição permite capturar os padrões temporais presentes nos dados e modelá-los
    separadamente.
    O modelo Prophet utiliza uma abordagem de regressão, em que a tendência é modelada como
    uma função suave dos dados históricos composta por duas partes: uma tendência linear e um
    componente de crescimento não linear. A tendência linear representa o aumento ou diminuição
    constante ao longo do tempo, enquanto o componente de crescimento não linear captura
    mudanças não lineares na taxa de crescimento. Além disso, o Prophet incorpora a sazonalidade
    por meio de uma série de Fourier permitindo capturar variações periódicas nos dados, como
    padrões diários, semanais, mensais ou anuais. O modelo automaticamente detecta esses padrões
    sazonais e ajusta a amplitude e a frequência das componentes de Fourier.
    A série de Fourier é uma ferramenta matemática que permite decompor uma função
    periódica complexa em uma soma de funções senoidais simples. Essas funções senoidais,
    conhecidas como harmônicas, têm diferentes amplitudes, frequências e fases, e quando
    combinadas adequadamente, podem se aproximar da função original. De forma simples,
    podemos pensar na série de Fourier como uma forma de desmontar uma música em suas
    notas musicais individuais, ao tocar um acorde em um instrumento musical, por exemplo,
    várias frequências são produzidas ao mesmo tempo. A série de Fourier nos permite
    identificar as diferentes frequências e amplitudes dessas notas musicais e recriar o som
    original decompondo-o em suas partes constituintes.
    Os feriados são tratados como eventos especiais que podem influenciar os padrões da série
    temporal. É possível fornecer ao modelo uma lista de feriados relevantes e incorporar ao modelo,
    ajustando automaticamente seus efeitos na previsão. O modelo Prophet é relativamente simples
    de usar, exigindo poucos parâmetros e um mínimo de pré-processamento dos dados e lida bem
    com dados ausentes e outliers sendo capaz de gerar previsões em diferentes horizontes de tempo.
  2. Pré-processamento de Séries Temporais
    3.1 Transformação de Dados
    As transformações de dados são frequentemente aplicadas para melhorar a qualidade das séries
    temporais e podem incluir a remoção de tendência ou sazonalidade, estabilização da variância ou
    normalização dos dados.
    3.2 Tratamento de Valores Ausentes
    Quando há valores ausentes em uma série temporal, é necessário lidar antes da modelagem e
    pode envolver técnicas de imputação, que preenchem os valores ausentes com estimativas
    razoáveis, ou remoção das observações com valores ausentes.
    3.3 Detecção e Remoção de Outliers
    Outliers são valores extremos que se afastam significativamente do comportamento geral da série
    temporal e a detecção e remoção podem ajudar a evitar distorções nos modelos e análises.
    3.4 Normalização e Padronização
    A normalização e a padronização são técnicas utilizadas para ajustar a escala dos dados. A
    normalização ajusta os dados a um intervalo específico, enquanto a padronização transforma os
    dados para que tenham média zero e desvio padrão um, essas técnicas são úteis quando as
    variáveis da série temporal estão em escalas diferentes.
  3. Análise Exploratória de Séries Temporais
    4.1 Decomposição de Séries Temporais
    A decomposição de séries temporais separa os diferentes componentes da série temporal, como
    tendência, sazonalidade, ciclo e ruído e permite uma análise individual de cada componente e
    uma compreensão mais clara da estrutura dos dados.
    4.2 Autocorrelação
    A autocorrelação é uma medida estatística que avalia a correlação entre uma observação e suas
    observações anteriores em diferentes intervalos de tempo e pode ajudar a identificar padrões
    temporais e dependências nas séries temporais. Existem três tipos principais de autocorrelação
    em séries temporais: autocorrelação positiva, autocorrelação negativa e autocorrelação nula.
  4. Autocorrelação positiva: ocorre quando os valores da série temporal estão positivamente
    correlacionados com seus valores anteriores o que significa que observações maiores do passado
    tendem a estar associadas a observações maiores no presente e observações menores do passado
    tendem a estar associadas a observações menores no presente.
  5. Autocorrelação negativa: ocorre quando os valores da série temporal estão negativamente
    correlacionados com seus valores anteriores e significa que observações maiores do passado
    tendem a estar associadas a observações menores no presente e observações menores do passado
    tendem a estar associadas a observações maiores no presente.
  6. Autocorrelação nula: ocorre quando não há correlação significativa entre os valores da série
    temporal e seus valores anteriores indicando que os valores passados não fornecem informações
    úteis para prever os valores futuros da série temporal.
    Lag é um conceito fundamental ao analisar séries temporais e está relacionado ao atraso entre os
    valores da série. Em termos simples, um lag representa a diferença de tempo entre um ponto na
    série temporal e outro ponto anterior sendo medido em unidades de tempo, como dias, meses,
    anos, horas, minutos, etc., dependendo da frequência da série temporal. Por exemplo, em uma
    série diária, um lag de 1 representa um dia de diferença entre as observações, enquanto em uma
    série mensal, um lag de 1 representa um mês de diferença. A análise de lag é importante por
    permitir avaliar a autocorrelação (ACF) e a autocorrelação parcial (PACF) em diferentes pontos
    da série temporal. Ao examinar a autocorrelação nos vários lags, podemos identificar a presença
    de dependência temporal e padrões recorrentes nos dados.
    A função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF) são ferramentas
    gráficas usadas para visualizar a autocorrelação e a autocorrelação parcial em diferentes lags,
    respectivamente. Ao observar os padrões nos gráficos ACF e PACF, podemos determinar quais
    lags têm correlação significativa e podem ser relevantes para a modelagem e previsão da série
    temporal. Ao escolher um modelo para uma série temporal, é comum considerar os lags com
    autocorrelação significativa, uma vez que indicam dependência temporal nos dados. Os modelos
    autorregressivos (AR) e de médias móveis (MA) utilizam os lags relevantes para capturar os
    padrões de autocorrelação na série.
    A autocorrelação é comumente visualizada usando um gráfico chamado função de
    autocorrelação (ACF), que mostra a correlação entre os valores da série temporal e seus valores
    atrasados em diferentes lags. Valores significativos de autocorrelação nos lags indicam a
    presença de dependências nos dados. Ao analisar a autocorrelação em séries temporais, é
    importante considerar seu efeito na modelagem e previsão, afinal, a presença de autocorrelação
    pode indicar a necessidade de modelos que levem em conta a dependência temporal, como
    modelos autorregressivos (AR) ou modelos de médias móveis (MA).
    A função de autocorrelação parcial (PACF) é uma ferramenta gráfica usada para visualizar a
    autocorrelação parcial em diferentes lags e ajuda a identificar os lags que têm uma correlação
    significativa com o valor atual da série temporal, após remover os efeitos de outros lags. A
    presença de autocorrelação parcial significativa em determinados lags pode indicar a presença de
    dependência temporal específica nessas posições. Ao modelar e prever séries temporais, a
    autocorrelação parcial é útil para selecionar a ordem de modelos autorregressivos (AR) e
    modelos de médias móveis (MA). A identificação dos lags com autocorrelação parcial
    significativa auxilia na escolha adequada dos termos do modelo, ajudando a capturar a
    dependência temporal presente nos dados.
    5
    4.3 Testes de Estacionariedade
    A estacionariedade é uma propriedade importante em séries temporais, indicando que a média e
    a variância dos dados são constantes ao longo do tempo. Testes estatísticos, como o Augmented
    Dickey-Fuller (ADF) são utilizados para verificar se uma série temporal é estacionária ou não.
    O teste Augmented Dickey-Fuller (ADF) é utilizado para verificar se uma série temporal possui
    raiz unitária, o que indica a presença de tendência e não estacionariedade nos dados. A
    interpretação do teste ADF envolve a análise do valor de estatística do teste e do valor-p
    associado e a hipótese nula do teste ADF é que a série temporal possui raiz unitária, ou seja, não
    é estacionária, logo a hipótese alternativa é que a série temporal é estacionária. Se o valor-p for
    menor que um nível de significância pré-definido (geralmente 0,05), rejeita-se a hipótese nula e
    conclui-se que a série temporal é estacionária, caso contrário, se o valor-p for maior que o nível
    de significância, não se rejeita a hipótese nula e conclui-se que a série temporal possui raiz
    unitária e é não estacionária. Além da interpretação binária (estacionária ou não estacionária), o
    teste ADF também fornece informações adicionais sobre a presença de tendência nos dados. Se a
    série temporal for considerada não estacionária, o teste ADF pode ajudar a identificar a presença
    de tendência determinística (linear ou não linear) nos dados sendo indicado por um coeficiente
    de tendência significativo no resultado do teste.
    Em resumo, a interpretação do teste ADF envolve as seguintes etapas:
  7. Comparar o valor-p com o nível de significância pré-definido (geralmente 0,05). Se o valor-p
    for menor que o nível de significância, a série temporal é considerada estacionária.
  8. Analisar a estatística do teste ADF em relação aos valores críticos correspondentes. Se a
    estatística do teste for menor que o valor crítico, há mais evidências para rejeitar a hipótese nula
    e concluir que a série temporal é estacionária.
  9. Se a série temporal for considerada não estacionária, verificar a presença de tendência
    determinística por meio do coeficiente de tendência significativo no resultado do teste.
    4.4 Análise de Tendência e Sazonalidade
    A análise de tendência busca identificar a direção geral dos dados ao longo do tempo, revelando
    se estão aumentando, diminuindo ou mantendo-se estáveis. A análise de sazonalidade identifica
    padrões recorrentes em intervalos fixos, como variações sazonais mensais ou anuais.
  10. Avaliação de Modelos de Séries Temporais
    6.1 Métricas de Desempenho (MAE, RMSE)
    As métricas de desempenho são usadas para avaliar a qualidade das previsões em relação aos
    valores reais. O erro médio absoluto (MAE) mede a média das diferenças absolutas entre as
    previsões e os valores reais, enquanto o erro quadrático médio (RMSE) mede a raiz quadrada da
    média dos quadrados das diferenças.
    Tanto o MAE quanto o RMSE são métricas de desempenho que ajudam a avaliar o quão bem
    nosso modelo está prevendo os valores reais pois fornecem uma medida numérica para
    quantificar o erro médio e podem ser usados para comparar diferentes modelos. Em geral, o
    MAE é mais adequado quando queremos ter uma noção clara do erro médio sem se preocupar
    6
    com a direção dos erros. O RMSE, por sua vez, é mais sensível a erros maiores e é útil quando
    queremos penalizar previsões mais distantes dos valores reais.
    6.2 Validação Cruzada (K-Fold, LOOCV)
    A validação cruzada é uma técnica para avaliar o desempenho do modelo usando conjuntos de
    treinamento e teste. O método k-fold divide os dados em k partes iguais, alternando entre usar
    cada parte como conjunto de teste e as restantes como conjunto de treinamento. O método
    Leave-One-Out Cross-Validation (LOOCV) é uma variação em que cada observação é usada
    como conjunto de teste uma vez.
    6.3 Comparação de Modelos
    A comparação de modelos envolve a avaliação e seleção do modelo com melhor desempenho
    com base nas métricas de desempenho. É importante considerar o equilíbrio entre a capacidade
    de ajuste do modelo aos dados de treinamento e sua capacidade de generalização para dados não
    vistos.

Até o momento na plataforma:

Carga horária : 8 Horas

Prof. Dr. Ricardo limongi:

Graduado em Administração pela PUC-GO, Pós Graduado em Gestão Financeira e Controladoria pela FGV-RJ e Gestão Financeira pela PUC-GO, Mestre em Administração pela Unisinos, e Doutor em Administração na linha de Estratégias de Marketing pela EAESP/FGV, com período sanduíche na Cornell University sob supervisão de Vithala Rao. Suas pesquisas já foram, indicadas e/ou premiadas, pela base de dados internacional Emerald (2015/2017) e eventos científicos como SEMEAD (2013) e EMA (2014/2018). Teve projetos aprovados em Editais Científicos pela Fundação de Amparo à Pesquisa do Estado de Goiás (FAPEG) e pelo CNPQ. Atualmente é Editor Associado da Revista Contabilidade, Gestão e Governança (CGG). Pesquisador e Coordenador do Programa de Pós Graduação em Administração da UFG onde trabalha com temas ligados a Economia Comportamental e Desempenhos Aplicados ao Marketing; Modelagem Econométrica e Experimentos em Marketing. Professor Visitante no Masters Program in Marketing na Universidad de Santiago de Chile. Atua como coordenador, do ADMKT – Grupo de Ensino, Pesquisa e Extensão em Marketing e Data Analytics (https://admkt.face.ufg.br/), certificado pelo CNPq.