R e Python, como e por que aprender essas linguagens em Ciência de dados?


A linguagem R e Python, são as principais linguagens de programação utilizadas em análise e ciência de dados.

Linguagem R: Por ter sido criada por dois Estatísticos de renome internacional, a mesma é referência quando o assunto é Estatística, ferramenta gráfica de alto nível e é multiplataforma (Pode ser executada em diferentes sistemas operacionais como: Windows, Mac OS e Linux e tem uma comunidade gigantesca e ativa de colaboradores no mundo todo.

Bibliotecas de destaque: Tidyverse, Ggplot2 e Shiny.

Linguagem Python: Criada por um matemático e programador de renome internacional, a mesma é referência quando o assunto é Integração entre linguagens distintas e programação de forma ampla, é multiplataforma (Pode ser executada em diferentes sistemas operacionais como: Windows, Mac OS e Linux e tem uma comunidade gigantesca e ativa de colaboradores no mundo todo, vem se destacando em Ciência de dados nos últimos anos.

Bibliotecas de destaque: Pandas, Numpy e Scikit-learn.

Segundo Clive Humby, “Dados são o novo petróleo”. É normal que entusiastas se perguntarem em qual linguagem de programação iniciar sua jornada e começar a lucrar na exploração dessa nova commodity.

A resposta é muito simples…. Python! Por quê? Motivos:

  • Rápida e simples de aprender;
  • Pode ser utilizada em TODAS as etapas da construção de um produto de dados. Desde a engenharia de dados a um modelo em produção;
  • Ela é uma linguagem de uso geral. Ou seja, pode ser utilizada na construção de API, websites, sistemas embarcados e entre outras coisas.

MAS EU QUERO APRENDER R!!!!!!!

Eu amo R. É minha linguagem de programação preferida. Mas precisamos ser francos. Ela foi concebida para análise estatística. Em outras palavras na etapa de análise dos dados e construção de modelos. Pois é excelente na construção de visualizações de dados, teste de hipóteses, treinamento de modelos…

Ela aos poucos vem se tornando uma linguagem de uso geral. Graças a empresas como a Posit, voltada a criar soluções para R. Mas olha, nada que seja mais fácil e produtivo de se fazer em Python.

Ok, vamos ao que interessa. Como começar no R? Ora, instalando a linguagem na sua máquina.

O R é oficial mantido pelo R-project, o grupo que mantém a linguagem viva e atualizada. Eles possuem CRAN, repositórios espalhados pelo mundo que facilita o download da ferramenta pelo mundo todo.

No Brasil também temos esses repositórios, geralmente escolho o da USP.

Caso você utilize o Windows, é necessário realizar o download do Rtools. Ele é um programa que auxilia na instalação e execução de bibliotecas. Sem ele, as coisas podem não dar certo.

Agora precisamos escolher uma IDE, um ambiente de desenvolvimento, onde vamos escrever nossos códigos.  Óbvio será o RStudio.

 Você pode dizer: “Ah, mas eu gosto VS Code”. Você está errado. Um programador em R, que não usa Rstudio, é uma farsante, para quem viveu os anos 2000, poser.

Brincadeiras à parte, o Rstudio é mantido pela Posit, a já citada empresa especialista em R. Ou seja, ele facilita em muito a programação! Sério, essa IDE é uma mãe. 

É normal utiliza-o VS Code para programar em Python, javascript e outras linguagens. Mas  mesmo com as milhões de extensões fornecidas para ele, nada supera o RStudio, na minha opinião.

Claro, às vezes o RStudio dá umas travadas, mas olha pelo que ele fornece de graça está muito excelente. Ah, sim, lembra-se que maioria das ferramentas que tornam o  R uma linguagem geral e não apenas voltadas a estatística, vem da Posit, então já está tudo intregado.

Meu PC é ruim…..

O Kaggle permite a criação de notebook tanto em R como em Python de forma gratuita.  Outra vantagem é a possibilidade de utilizar diretamente pelo notebook os conjuntos de dados fornecidos no site.

Claro, ele é online, então é necessário sempre estar logado a internet.

Conclusão.

O intuito desse artigo foi de ajudar a entender a como começar a usar a linguagem R.  

Lembre-se que ela é criada com foco em estatística, essencial para trabalhar com dados. 

Isto proporcionou ao longo dos anos, a criação de um ambiente rico em bibliotecas com solução de problemas em biologia, saúde, engenharia, finanças, e outras áreas do conhecimento que utilizam grandes volumes de dados.

Há tutoriais, vídeos e livros gratuitos disponíveis pela internet que podem lhe ajudar a dominar essa linguagem. A comunidade de estatística possuí vídeo-aulas, onde utilizamos R e ensinamos a como utilizá-la no dia-a-dia.

Além dos nossos cursos pagos, ministrados por especialistas e profissionais que ensinam o uso prático da ferramenta.

Por Romário Gomes

Segue um tutorial no canal Estatidados em vídeo de como instalar a linguagem R:

Para tais conhecimentos e criação de networking, nós indicamos as nossas formações completas e reduzidas:

Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:

Formação em Análise de dados – AD – CECD:

Formação em Análise de dados – AD – CECD

https://comunidadedeestatistica.com.br/formacao-em-analise-de-dados-ad-cecd/embed/#?secret=wvmiRGTqAz#?secret=3vSCNPuBz7Formação em Estatística – FE – CECD

Formação em Estatística – FE

Nossos cursos ao vivo e gravados:

https://comunidadedeestatistica.com.br/category/ao-vivo/