Módulos

Visão geral

A imagem abaixo fornece uma visão geral e integrada do conteúdo visto no Curso de Especialização em Data Science & Big Data. As 6 disciplinas de 60 horas estão exibidas com as ramificações em módulos e tópicos. Somando-se a estas, tem-se a disciplina de Metodologia de Pesquisa. As 7 disciplinas são detalhadas nas próximas sessões.

dsbd-mindmap

Módulo I - Fundamentos para Data Science e Big Data

Infraestrutura Computational (60 hrs)

  1. Infraestrutura de software.
    • Shell script para automatizar tarefas.
    • Estrutura de sistemas operacionais.
    • Fundamentos de Engenharia de Software para Data Science.
  2. Infraestrutura de comunicação.
    • Conceitos de aplicação de redes.
    • Protocolos web.
    • Nuvem computacional.
  3. Infraestrutura de alto desempenho.
    • Paralelismo e distribuição.
    • Clusters computacionais.
    • Submissão e controle de tarefas em clusters.

Inferência estatística para ciência de dados (60 hrs)

  1. Introdução ao Cálculo diferencial Integral.
    • Funções, limites e continuidade.
    • Derivadas e Integrais.
  2. Álgebra linear aplicada.
    • Vetores e Matrizes.
    • Solução de sistemas lineares.
    • Solução de sistemas não-lineares.
  3. Otimização.
    • Programação linear.
    • Programação quadrática.
    • Programação não-linear.
  4. Introdução à probabilidade e variáveis aleatórias.
    • Distribuições de probabilidade.
    • Esperança, variância e covariância.
    • Resultados assintóticos e suas aplicações.
  5. Paradigmas e elementos de inferência estatística.
    • Estimação e funções de evidência.
    • Intervalos de confiança e testes de hipóteses.
    • Inferência baseada em simulação.

Linguagens de programação para ciência de dados (60 hrs)

  1. Introdução e configuração do ambiente de programação (R e python).
    • Operações aritméticas e lógicas. Estruturas de controle e repetições.
    • Programação orientada à objetos e funções.
    • Introdução ao pair programing.
  2. Leitura e manipulação de dados.
    • Acessando base de dados.
    • Aquisição de dados pela internet (web scrapping).
  3. Análise exploratória e visualização interativa de dados.

Módulo II - Métodos contemporâneos em Data Science e Big Data

Processamento de Big Data

  1. Introdução ao Big Data.
    • Organização física e lógica.
    • Métodos de acesso.
  2. Armanezamento de Big Data
    • SQL, NoSQL e NewSQL.
    • Data warehouse, data cleaning e Integração.
    • Plataformas distribuídas (programação MapReduce, Hadoop e Spark).

Modelos estatísticos

  1. Modelos lineares
    • Modelos lineares generalizados.
    • Modelos aditivos generalizados.
    • Seleção de modelos e penalização.
  2. Árvores de classificação e regressão.
  3. Regressão multivariada.
  4. Introdução à Inferência Causal.
  5. Séries temporais.

Mineração de dados e aprendizagem de máquina

  1. Introdução ao machine learning.
    • Representação de dados e engenharia de características.
    • Aprendizagem supervisionada.
    • Aprendizagem não-supervisionada.
    • Redução de dados/dimensão.
    • Avaliação e melhoria de modelos.
  2. Introdução ao Grandes Modelos de Linguagem (Large Language Models).

Permeando aos módulos I e II será apresentado a disciplina de Métodos de Pesquisa que visa preparar o aluno para o desenvolvimento do projeto final, bem como, para programas avançados como mestrado e doutorado nas áreas de estatística e ciência da computação.

Métodos de pesquisa

  1. Tipos de estudos e o método científico.
  2. Estrutura do artigo científico.
  3. Métodos e pŕatica da pesquisa reproduzível.
  4. Introdução às técnicas de apresentação e redação científica.
  5. Técnicas e ferramentas para elaboração de relatórios dinâmicos.

Formato do curso

O curso de especialização em Data Science e Big Data ocorrerá às sextas-feiras (19:00–23:00) e aos sábados (08:00–12:00). Serão dois módulos de 4 horas por final de semana, tendo 15 semanas de duração por semestre.