Ciência de dados:

  • O cientista de dados e os seus demônios: conselhos de grandes profissionais da área de dados do Brasil e do exterior

    O cientista de dados e os seus demônios: conselhos de grandes profissionais da área de dados do Brasil e do exterior

  • Data Science para Negócios

    Este guia amplo, profundo, porém não muito técnico, apresenta a você os princípios fundamentais do Data Science e orienta-o através do “pensamento analítico” necessário para extrair conhecimento útil e valor de negócios a partir dos dados que você obtém. Ao aprender os princípios do Data Science, você compreenderá as diversas técnicas de mineração de dados usadas hoje. Mais importante ainda, esses princípios sustentam os processos e as estratégias necessárias para resolver problemas de negócios por meio das técnicas de mineração de dados.

    ELOGIOS SOBRE O LIVRO:

    “Este livro vai além da análise de dados para principiantes. É o guia essencial para aqueles (ou todos?) cujas empresas são construídas sobre a onipresença das oportunidades de dados e a nova ordem de tomada de decisão baseada em dados.”
    ― Tom Phillips, CEO Dstillery; ex-diretor do Google Search e Analytics

    “Os dados são o alicerce das novas ondas de crescimento de produtividade, inovação e visão mais rica do cliente. Apenas recentemente visto como uma fonte de vantagem competitiva, lidar bem com os dados está rapidamente se tornando um requisito mínimo para entrar no jogo. A profunda experiência aplicada dos autores faz com que esta seja uma leitura obrigatória ― uma janela para a estratégia de seu concorrente.”
    ― Alan Murray, Empreendedor serial; Parceiro Coriolis Ventures

  • Python para Análise de dados: Tratamento de dados com Pandas, NumPy e IPyhon

    Obtenha instruções completas para manipular, processar, limpar e extrair informações de conjuntos de dados em Python. Atualizada para Python 3.6, este guia prático está repleto de casos de estudo práticos que mostram como resolver um amplo conjunto de problemas de análise de dados de forma eficiente. Você conhecerá as versões mais recentes do pandas, da NumPy, do IPython e do Jupyter no processo. Escrito por Wes McKinney, criador do projeto Python pandas, este livro contém uma introdução prática e moderna às ferramentas de ciência de dados em Python. É ideal para analistas, para quem Python é uma novidade, e para programadores Python iniciantes nas áreas de ciência de dados e processamento científico. Os arquivos de dados e os materiais relacionados ao livro estão disponíveis no GitHub. Utilize o shell IPython e o Jupyter Notebook para processamentos exploratórios; conheça os recursos básicos e avançados da NumPy (Numerical Python); comece a trabalhar com ferramentas de análise de dados da biblioteca pandas; utilize ferramentas flexíveis para carregar, limpar, transformar, combinar e reformatar dados; crie visualizações informativas com a matplotlib; aplique o recurso groupby do pandas para processar e sintetizar conjuntos de dados; analise e manipule dados de séries temporais regulares e irregulares.

  • Storytelling com Dados: Um guia sobre visualização de dados para profissionais de negócios

    “Storytelling com Dados é admiravelmente bem escrito, uma amostra magistral de rara arte no mundo dos negócios. Cole Nussbaumer Knaflic possui uma habilidade única - um dom - em contar histórias usando dados. No JP Morgan Chase, ela ajudou a melhorar nossa capacidade de explicar análises complicadas para a gerência executiva e para os reguladores com quem trabalhamos. O livro de Cole reúne seus talentos em um guia fácil de ler, com exemplos excelentes que qualquer um pode aprender para estimular a tomada de decisão mais inteligente.” ―Mark R. Hillis, diretor-chefe do setor de riscos de hipoteca bancária do JPM Chase.

    “Temos tantos dados que pode ser difícil para as pessoas prestarem atenção em nossas principais descobertas. Cole Nussbaumer Knaflic nos ensinou valiosas lições em seu workshop e é fantástico vê-las aprofundadas no Storytelling com Dados. Minha equipe já está usando as lições ensinadas por Cole para fazer as pessoas agirem ao identificarem novas pérolas de entendimento e fazer a diferença na vida de outros. Agora outras pessoas também podem fazer isso!” - Eleanor Bell, Diretora de Analítica Comercial da Bill & Melinda Gates Foundation.

  • R para Data Science

    Aprenda a usar R para transformar dados brutos em in­sight, conhecimento e compreensão. Este livro apresenta você ao R, RStudio e ao tidyverse, uma coleção de pacotes R elaborados para trabalhar juntos com o objetivo de dei­xar a ciência de dados rápida, fluente e divertida. Adequa­do para leitores sem experiência prévia em programação, R para Data Science foi projetado para que você comece a fazer ciência de dados o mais rápido possível. Os autores Hadley Wickham e Garret Grolemund te guiam através dos passos de importar, fazer data wrangle, explorar e modelar seus dados e comunicar os resultados. Você obterá uma compreensão completa do quadro geral do ciclo de ciência de dados, junto das ferramentas bási­cas que você precisa para administrar os detalhes.

  • Estatística Prática Para Cientistas de Dados: 50 Conceitos Essenciais

    Métodos estatísticos são uma parte crucial da ciência de dados; ainda assim, poucos cientistas de dados têm formação estatística. Os cursos e livros sobre estatística básica raramente abordam os tópicos sob a perspectiva da ciência de dados. Este guia prático explica como aplicar diversos métodos estatísticos em ciência de dados, ensina a evitar seu mau uso e aconselha sobre o que é importante e o que não é. Muitos recursos da ciência de dados incorporam métodos estatísticos, mas carecem de uma perspectiva estatística aprofundada. Se você está familiarizado com a linguagem de programação R e tem algum conhecimento estatístico, este guia fará a ponte de forma fácil e acessível. Com este livro, você aprenderá: - Por que a análise exploratória de dados é um passo prévio importante na ciência de dados - Como a amostragem aleatória pode reduzir o viés e resultar um conjunto de dados de maior qualidade, mesmo em big data - Como os princípios do design experimental resultam respostas definitivas - Como usar regressão para estimar resultados e detectar anomalias - Principais técnicas de classificação para prever a quais categorias um registro pertence - Métodos de aprendizado de máquina estatístico que “aprendem” com os dados - Métodos de aprendizado não supervisionado para extração de significado de dados não rotulados.

  • R in Action: Data Analysis and Graphics with R

    R in Action, Second Edition presents both the R language and the examples that make it so useful for business developers. Focusing on practical solutions, the book offers a crash course in statistics and covers elegant methods for dealing with messy and incomplete data that are difficult to analyze using traditional methods. You'll also master R's extensive graphical capabilities for exploring and presenting data visually. And this expanded second edition includes new chapters on time series analysis, cluster analysis, and classification methodologies, including decision trees, random forests, and support vector machines.

    Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publications.

    About the Technology

    Business pros and researchers thrive on data, and R speaks the language of data analysis. R is a powerful programming language for statistical computing. Unlike general-purpose tools, R provides thousands of modules for solving just about any data-crunching or presentation challenge you're likely to face. R runs on all important platforms and is used by thousands of major corporations and institutions worldwide.

    About the Book

    R in Action, Second Edition teaches you how to use the R language by presenting examples relevant to scientific, technical, and business developers. Focusing on practical solutions, the book offers a crash course in statistics, including elegant methods for dealing with messy and incomplete data. You'll also master R's extensive graphical capabilities for exploring and presenting data visually. And this expanded second edition includes new chapters on forecasting, data mining, and dynamic report writing.

    What's Inside

    • Complete R language tutorial
    • Using R to manage, analyze, and visualize data
    • Techniques for debugging programs and creating packages
    • OOP in R
    • Over 160 graphs

    About the Author

    Dr. Rob Kabacoff is a seasoned researcher and teacher who specializes in data analysis. He also maintains the popular Quick-R website at statmethods.net.

    Table of Contents

    1. Introduction to R
    2. Creating a dataset
    3. Getting started with graphs
    4. Basic data management
    5. Advanced data management
    6. Basic graphs
    7. Basic statistics
    8. Regression
    9. Analysis of variance
    10. Power analysis
    11. Intermediate graphs
    12. Resampling statistics and bootstrapping
    13. Generalized linear models
    14. Principal components and factor analysis
    15. Time series
    16. Cluster analysis
    17. Classification
    18. Advanced methods for missing data
    19. Advanced graphics with ggplot2
    20. Advanced programming
    21. Creating a package
    22. Creating dynamic reports
    23. Advanced graphics with the lattice package available online only from manning.com/kabacoff2

  • Análise de Séries Temporais: Modelos Lineares Univariados

    O texto é adequado a estudantes de várias áreas do conhecimento: estatística, matemática, engenharia, economia, finanças, oceanografia, meteorologia, etc. São descritos modelos e procedimentos para a análise de séries temporais que ocorrem nestes diversos campos, bem como são discutidos exemplos de aplicações a séries reais.O livro traz um roteiro que sugere como utilizá-lo em diversos tipos de cursos.

  • Data Analysis Using Hierarchical Generalized Linear Models with R

    Since their introduction, hierarchical generalized linear models (HGLMs) have proven useful in various fields by allowing random effects in regression models. Interest in the topic has grown, and various practical analytical tools have been developed. This book summarizes developments within the field and, using data examples, illustrates how to analyse various kinds of data using R. It provides a likelihood approach to advanced statistical modelling including generalized linear models with random effects, survival analysis and frailty models, multivariate HGLMs, factor and structural equation models, robust modelling of random effects, models including penalty and variable selection and hypothesis testing.

  • Generalized Linear Models for Insurance Data (International Series on Actuarial Science)

    This is the only book actuaries need to understand generalized linear models (GLMs) for insurance applications. GLMs are used in the insurance industry to support critical decisions. Until now, no text has introduced GLMs in this context or addressed the problems specific to insurance data. Using insurance data sets, this practical, rigorous book treats GLMs, covers all standard exponential family distributions, extends the methodology to correlated data structures, and discusses recent developments which go beyond the GLM. The issues in the book are specific to insurance data, such as model selection in the presence of large data sets and the handling of varying exposure times. Exercises and data-based practicals help readers to consolidate their skills, with solutions and data sets given on the companion website. Although the book is package-independent, SAS code and output examples feature in an appendix and on the website. In addition, R code and output for all the examples are provided on the website.