Visão geral
A imagem abaixo fornece uma visão geral e integrada do conteúdo visto no Curso de Especialização em Data Science & Big Data. As 6 disciplinas de 60 horas estão exibidas com as ramificações em módulos e tópicos. Somando-se a estas, tem-se a disciplina de Metodologia de Pesquisa. As 7 disciplinas são detalhadas nas próximas sessões.
Módulo I - Fundamentos para Data Science e Big Data
Infraestrutura Computational (60 hrs)
- Infraestrutura de software.
- Shell script para automatizar tarefas.
- Estrutura de sistemas operacionais.
- Fundamentos de Engenharia de Software para Data Science.
- Infraestrutura de comunicação.
- Conceitos de aplicação de redes.
- Protocolos web.
- Nuvem computacional.
- Infraestrutura de alto desempenho.
- Paralelismo e distribuição.
- Clusters computacionais.
- Submissão e controle de tarefas em clusters.
Inferência estatística para ciência de dados (60 hrs)
- Introdução ao Cálculo diferencial Integral.
- Funções, limites e continuidade.
- Derivadas e Integrais.
- Álgebra linear aplicada.
- Vetores e Matrizes.
- Solução de sistemas lineares.
- Solução de sistemas não-lineares.
- Otimização.
- Programação linear.
- Programação quadrática.
- Programação não-linear.
- Introdução à probabilidade e variáveis aleatórias.
- Distribuições de probabilidade.
- Esperança, variância e covariância.
- Resultados assintóticos e suas aplicações.
- Paradigmas e elementos de inferência estatística.
- Estimação e funções de evidência.
- Intervalos de confiança e testes de hipóteses.
- Inferência baseada em simulação.
Linguagens de programação para ciência de dados (60 hrs)
- Introdução e configuração do ambiente de programação (R e python).
- Operações aritméticas e lógicas. Estruturas de controle e repetições.
- Programação orientada à objetos e funções.
- Introdução ao pair programing.
- Leitura e manipulação de dados.
- Acessando base de dados.
- Aquisição de dados pela internet (web scrapping).
- Análise exploratória e visualização interativa de dados.
Módulo II - Métodos contemporâneos em Data Science e Big Data
Processamento de Big Data
- Introdução ao Big Data.
- Organização física e lógica.
- Métodos de acesso.
- Armanezamento de Big Data
- SQL, NoSQL e NewSQL.
- Data warehouse, data cleaning e Integração.
- Plataformas distribuídas (programação MapReduce, Hadoop e Spark).
Modelos estatísticos
- Modelos lineares
- Modelos lineares generalizados.
- Modelos aditivos generalizados.
- Seleção de modelos e penalização.
- Árvores de classificação e regressão.
- Regressão multivariada.
- Introdução à Inferência Causal.
- Séries temporais.
Mineração de dados e aprendizagem de máquina
- Introdução ao machine learning.
- Representação de dados e engenharia de características.
- Aprendizagem supervisionada.
- Aprendizagem não-supervisionada.
- Redução de dados/dimensão.
- Avaliação e melhoria de modelos.
- Introdução ao Grandes Modelos de Linguagem (Large Language Models).
Permeando aos módulos I e II será apresentado a disciplina de Métodos de Pesquisa que visa preparar o aluno para o desenvolvimento do projeto final, bem como, para programas avançados como mestrado e doutorado nas áreas de estatística e ciência da computação.
Métodos de pesquisa
- Tipos de estudos e o método científico.
- Estrutura do artigo científico.
- Métodos e pŕatica da pesquisa reproduzível.
- Introdução às técnicas de apresentação e redação científica.
- Técnicas e ferramentas para elaboração de relatórios dinâmicos.
Formato do curso
O curso de especialização em Data Science e Big Data ocorrerá às sextas-feiras (19:00–23:00) e aos sábados (08:00–12:00). Serão dois módulos de 4 horas por final de semana, tendo 15 semanas de duração por semestre.