Como começar a aprender Estatística e Ciência de dados


Há muitos desafios nas empresas a serem respondidos por meio dos dados, estamos na era deles, como descreveu bem a série que ficou famosa no netflix: “A era dos dados” . Segundo a Data Age 2025, IDC, a quantidade de dados no mundo em trilhões de Gigabytes quintuplicou de 2018 a 2025, entretanto a quantidade de mão de obra qualificada não seguiu a mesma crescente.

Segundo a ManpowerGroup 202, 81% dos empregadores disseram não encontrar mão de obra qualificada o suficiente para contratar no mercado e as áreas que se destacam com essa escassez são: Tecnologia e dados (40%), Atendimento ao cliente (32%) e Logística e operações (23%)

Dessa forma, pensando na formação dos mesmos eu gostaria de compartilhar com vocês dicas e direções para se capacitar em Estatística e Ciência de Dados.

https://comunidadedeestatistica.com.br/media/6027f035939ee973e503d65d00e2f98d

Estatística:

Costumo dizer que a Estatística é como se fosse um quebra-cabeça, onde a única regra é que não podemos pular etapas, uma vez que ela é toda interconectada, por mais que tenha sido desenvolvida em diferentes épocas por contribuições distintas e isso é uma das coisas mais belas na mesma, a sua coesão enquanto ciência.

A quem diga que a Estatística é a arte de torturar os números até que eles digam a verdade e que todos os Estatísticos são aproximadamente normais, mas a grande verdade é que é uma ciência apaixonante que ratifica descobertas em outras ciências e norteia decisões no mundo todo.

https://comunidadedeestatistica.com.br/media/e68c162f135ca49abe8b28a26e395f62

Sobre o campo:

Com tantas tecnologias e tamanha competitividade, a informação é a moeda mais valorizada do momento. Mas ainda vivemos o desafio de trabalhar tais informações para que se transformem em verdadeiros aprendizados. A Estatística ganha, assim, um importante papel, já que suas técnicas e métodos permitem a análise de dados para solucionar problemas diversos que lidam com incerteza.

Assim, o campo se relaciona com diversas ciências e ganha cada vez mais espaço. Setores como Genética, Economia, Jornalismo, Ciências Sociais, Engenharias, Administração, Ciência da Computação, Ciências do Estado, Medicina, Biologia e muitos outros fazem uso dos conceitos e das técnicas estatísticas.

De que forma a Estatística faz isso?

Estatística Descritiva

A Estatística te diz o tipo de variável associada ao problema de negócio envolvido, se ela é categórica (uma qualidade, um atributo) ou se ela é numérica (um número que pode ser fruto de uma enumeração ou possuir infinitos valores em seu intervalo), dessa forma você pode delinear a melhor métrica a ser utilizada ou o melhor gráfico que representará a mesma. Chamamos essa Etapa de Estatística Descritiva ou Análise Exploratória e ela tem como objetivo formular hipóteses de negócio que serão refutadas ou não mais a frente na Inferência Estatística.

Exemplos de hipóteses que a Estatística descritiva pode levantar:

  • “ A empresa está com uma tendência crescente de vendas?
  • “Há associação entre a compra de fraldas e cervejas nas sextas-feiras pelos pais?”
  • “Há diferença entre a quantidade média vendida para clientes homens e clientes mulheres?

Cálculo das Probabilidades

Essa área da Estatística é incrível, pois por mais que não saiba o que vai acontecer em um fenômeno da natureza, por exemplo a chuva, os meteorologistas conseguem ter uma boa ideia se vai chover ou não, baseado na análise do clima, temperatura, umidade do ar, pressão atmosférica e outros fatores que podem te fornecer essas informações.

Exemplo de aplicações em probabilidade:

  • “Qual a taxa média de pessoas que chegam nos aeroportos por dia?”
  • “Qual a probabilidade de um lote ter pelo menos uma peça defeituosa em uma indústria têxtil?”

Noções de amostragem e Estimação

Assim como o IBGE faz a contagem da população por meio do censo, muitas empresas também utilizam a amostragem em seus processos de análise para garantir que seus resultados sejam representativos e que sejam economicamente viáveis, uma vez que tem como objetivo selecionar uma amostra representativa da população estudada, de forma a preservar em termos de proporção as características da mesma e em alguns casos não é possível ter a população toda para a análise, até por que não gostaria que o médico retirasse seu sangue todo para saber que está doente, certo? 😂

Exemplos de aplicação:

  • “Delineamento de experimentos para pesquisas de opinião pública”
  • “Delineamento de experimentos para pesquisas acadêmicas”

Inferência Estatística

A mesma tem como objetivo prover técnicas que irão refutar ou não as hipóteses de negócios levantadas na etapa da análise descritiva e validar a expansão dos resultados de uma amostra para a população estudada.

Exemplos de técnicas em inferência Estatística:

  • Teste qui-quadrado de aderência
  • Teste T de student para diferença de médias
  • Teste F de significância conjunta das variáveis em um modelo de regressão

Modelagem Estatística

A modelagem é delineada em cima de todas as etapas anteriores, já que como eu citei, a Estatística é toda interligada.

Uma análise descritiva bem delineada vai apontar qual melhor fórmula que irá representar um fenômeno de estudo de forma simplificada. E para cada tipo de variável será possível ajustar um tipo de modelo diferente, para variáveis qualitativas por exemplo, podemos adotar um modelo de classificação e prever baseado em um histórico de uma pessoa ser boa ou má pagadora e chegar a conclusão se poderá obter crédito ou não, já tentando prever uma variável quantitativa contínua (Preço de um imóvel por exemplo), podemos adotar uma regressão linear ou qualquer outro tipo de modelo caracterizado para esse tipo de variável.

A amostragem e o cálculo das probabilidades pode delinear qual distribuição os dados melhor se encaixam para que seja possível realizar a mesma e qual quantitativo você utilizará para selecionar o quanto você precisará ter na base de treino e na base teste, para validar o modelo construído. A Inferência Estatística também tem o papel de validação, garantindo a estimativa dos coeficientes do modelo, seus intervalos de confiança de suas predições, a relevância de seus coeficientes, quais as melhores métricas para serem utilizadas na escolha entre dois modelos distintos.

Exemplos de utilização de modelos Estatísticos:

Classificação:

  • Dar crédito ou não a um cliente de um banco
  • Verificar se há ocorrência de fraude ou não em uma transação financeira

Regressão:

  • Qual característica mais influência do preço de um imóvel?
  • Quantas pessoas chegaram em uma agência bancária no período de uma hora?

Ferramentas que podem ajudar no Entendimento de Estatística e Ciência de dados:

Linguagem SQL: Essa linguagem é fundamental para quem quer trabalhar com análise de dados, uma vez que estrutura toda a lógica para se trabalhar analisando dando, como: Filtros, seleções, agregações, transformação e variáveis e muito mais.

Linguagem R: Por ter sido criada por dois Estatísticos de renome internacional, a mesma é referência quando o assunto é Estatística, ferramenta gráfica de alto nível e é multiplataforma (Pode ser executada em diferentes sistemas operacionais como: Windows, Mac OS e Linux e tem uma comunidade gigantesca e ativa de colaboradores no mundo todo.

Bibliotecas de destaque: Tidyverse, Ggplot2 e Shiny.

Linguagem Python: Criada por um matemático e programador de renome internacional, a mesma é referência quando o assunto é Integração entre linguagens distintas e programação de forma ampla, é multiplataforma (Pode ser executada em diferentes sistemas operacionais como: Windows, Mac OS e Linux e tem uma comunidade gigantesca e ativa de colaboradores no mundo todo, vem se destacando em Ciência de dados nos últimos anos.

Bibliotecas de destaque: Pandas, Numpy e Scikit-learn.

Spark: Framework de código aberto para computação distribuída, muito utilizado no tratamento de grandes bases de dados com alta performance.

Assim como se aprofundar em TI e Estatística é necessário, o bom cientista de dados, tem que ser um verdadeiro camaleão. Se adaptar a área de negócios a qual ele está envolvido, pois a mesma pode variar constantemente, principalmente se você trabalha com consultoria, estudar as regras de negócio é fundamental e não só isso, como se comunicar com profissionais de outras áreas, que sacam mais que você do negócio!

Uma boa parte do que vocês precisam, felizmente também se encontra gratuitamente em meu canal de Estatística e Data Science! O Estatidados, um dos maiores canais da atualidade no tema, somos atualmente mais de 30.000 inscritos.

https://comunidadedeestatistica.com.br/media/73720c875bf5543252626928f36da3d7

Recomendações:

Livros: https://comunidadedeestatistica.com.br/livros/

Canal Estatidados: https://www.youtube.com/watch?v=uTpaICj8bow&list=PLjdDBZW3EmXe6hO2Rt5Q9I5wzRZ7j7K8P

Sites e Cursos:

Edx:

https://www.edx.org/?irclickid=QjzylQTtxxyNT-dUHgzBtQ-sUkAUAuSeZQ0SXc0&utm_source=affiliate&utm_medium=Ecom%20EWAY&utm_campaign=Online%20Tracking%20Link_&utm_content=ONLINE_TRACKING_LINK&irgwc=1

Coursera:

https://pt.coursera.org/

Comunidade de Estatística e Ciência de dados (CECD):

https://bit.ly/2023-vamos-la

Abraços,

Thiago Marques

Teach Lead Data Scientist — A3DATA