R e Python, como e por que aprender essas linguagens em Ciência de dados?
A linguagem R e Python, são as principais linguagens de programação utilizadas em análise e ciência de dados.
Linguagem R: Por ter sido criada por dois Estatísticos de renome internacional, a mesma é referência quando o assunto é Estatística, ferramenta gráfica de alto nível e é multiplataforma (Pode ser executada em diferentes sistemas operacionais como: Windows, Mac OS e Linux e tem uma comunidade gigantesca e ativa de colaboradores no mundo todo.
Bibliotecas de destaque: Tidyverse, Ggplot2 e Shiny.
Linguagem Python: Criada por um matemático e programador de renome internacional, a mesma é referência quando o assunto é Integração entre linguagens distintas e programação de forma ampla, é multiplataforma (Pode ser executada em diferentes sistemas operacionais como: Windows, Mac OS e Linux e tem uma comunidade gigantesca e ativa de colaboradores no mundo todo, vem se destacando em Ciência de dados nos últimos anos.
Bibliotecas de destaque: Pandas, Numpy e Scikit-learn.
Segundo Clive Humby, “Dados são o novo petróleo”. É normal que entusiastas se perguntarem em qual linguagem de programação iniciar sua jornada e começar a lucrar na exploração dessa nova commodity.
A resposta é muito simples…. Python! Por quê? Motivos:
- Rápida e simples de aprender;
- Pode ser utilizada em TODAS as etapas da construção de um produto de dados. Desde a engenharia de dados a um modelo em produção;
- Ela é uma linguagem de uso geral. Ou seja, pode ser utilizada na construção de API, websites, sistemas embarcados e entre outras coisas.
MAS EU QUERO APRENDER R!!!!!!!
Eu amo R. É minha linguagem de programação preferida. Mas precisamos ser francos. Ela foi concebida para análise estatística. Em outras palavras na etapa de análise dos dados e construção de modelos. Pois é excelente na construção de visualizações de dados, teste de hipóteses, treinamento de modelos…
Ela aos poucos vem se tornando uma linguagem de uso geral. Graças a empresas como a Posit, voltada a criar soluções para R. Mas olha, nada que seja mais fácil e produtivo de se fazer em Python.
Ok, vamos ao que interessa. Como começar no R? Ora, instalando a linguagem na sua máquina.
O R é oficial mantido pelo R-project, o grupo que mantém a linguagem viva e atualizada. Eles possuem CRAN, repositórios espalhados pelo mundo que facilita o download da ferramenta pelo mundo todo.
No Brasil também temos esses repositórios, geralmente escolho o da USP.
Caso você utilize o Windows, é necessário realizar o download do Rtools. Ele é um programa que auxilia na instalação e execução de bibliotecas. Sem ele, as coisas podem não dar certo.
Agora precisamos escolher uma IDE, um ambiente de desenvolvimento, onde vamos escrever nossos códigos. Óbvio será o RStudio.
Você pode dizer: “Ah, mas eu gosto VS Code”. Você está errado. Um programador em R, que não usa Rstudio, é uma farsante, para quem viveu os anos 2000, poser.
Brincadeiras à parte, o Rstudio é mantido pela Posit, a já citada empresa especialista em R. Ou seja, ele facilita em muito a programação! Sério, essa IDE é uma mãe.
É normal utiliza-o VS Code para programar em Python, javascript e outras linguagens. Mas mesmo com as milhões de extensões fornecidas para ele, nada supera o RStudio, na minha opinião.
Claro, às vezes o RStudio dá umas travadas, mas olha pelo que ele fornece de graça está muito excelente. Ah, sim, lembra-se que maioria das ferramentas que tornam o R uma linguagem geral e não apenas voltadas a estatística, vem da Posit, então já está tudo intregado.
Meu PC é ruim…..
O Kaggle permite a criação de notebook tanto em R como em Python de forma gratuita. Outra vantagem é a possibilidade de utilizar diretamente pelo notebook os conjuntos de dados fornecidos no site.
Claro, ele é online, então é necessário sempre estar logado a internet.
Conclusão.
O intuito desse artigo foi de ajudar a entender a como começar a usar a linguagem R.
Lembre-se que ela é criada com foco em estatística, essencial para trabalhar com dados.
Isto proporcionou ao longo dos anos, a criação de um ambiente rico em bibliotecas com solução de problemas em biologia, saúde, engenharia, finanças, e outras áreas do conhecimento que utilizam grandes volumes de dados.
Há tutoriais, vídeos e livros gratuitos disponíveis pela internet que podem lhe ajudar a dominar essa linguagem. A comunidade de estatística possuí vídeo-aulas, onde utilizamos R e ensinamos a como utilizá-la no dia-a-dia.
Além dos nossos cursos pagos, ministrados por especialistas e profissionais que ensinam o uso prático da ferramenta.
Por Romário Gomes
Segue um tutorial no canal Estatidados em vídeo de como instalar a linguagem R:
Para tais conhecimentos e criação de networking, nós indicamos as nossas formações completas e reduzidas:
Conheça duas de nossas formações que vão te proporcionar os conhecimentos mencionados no artigo:
Formação em Análise de dados – AD – CECD:
https://comunidadedeestatistica.com.br/formacao-em-analise-de-dados-ad-cecd/embed/#?secret=wvmiRGTqAz#?secret=3vSCNPuBz7Formação em Estatística – FE – CECD
Nossos cursos ao vivo e gravados:
- Categoria(s): Variados