Skip to content

NockyM/dtona

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Maratona de Data Science (DTona!)

Aprendendo Data Science na vida real!

Vamos fazer lives com projetos reais, mostrando como é realmente o dia a dia de um cientista de dados. Você entenderá todo o ciclo analítico, bem como as tecnologias adotadas em cada etapa e as boas práticas para que tudo funcione.

Nossas lives acontecem sempre na Twitch, às 20hrs. Você pode conferir nosso calendário com toda a programação. Caso você perca alguma live, a mesma fica gravada por 14 dias na própria Twitch. Vamos fazer um esforço para colocá-las no nosso canal do YouTube, mas lembre-se que é muito mais divertido estar conosco ao vivo!

Calendário

Episódio Dia Conteúdo
1 30-04-2020 Machine Learning Getting Started
2 05-05-2020 Criação de book de variáveis I
3 07-05-2020 Criação de book de variáveis II
4 12-05-2020 Nossa primeira safra
5 14-05-2020 ABT (Analytical Base Table)
6 19-05-2020 O que é base Out Of Time?
7 21-05-2020 Primeiro Classificador Treinado!
8 26-05-2020 Comparando modelos
9 28-05-2020 Convidado especial: PyCaret
10 02-06-2020 Fazendo predições / deploy
11 04-06-2020 Primeiros passos em Cluster
12 09-06-2020 Segundos passos em Cluster
13 11-06-2020 Se faz score para Cluster?

Episódio 1

Demos o primeiro passo no mundo de ciência de dados, apresentando os conceitos de Machine Learning e como a máquina gera suas próprias regras a partir de exemplos. Nos próximos episódios, vamos descobrir como criar essa tabela de exemplos.

Episódio 2 e 3

Para cada problema de negócio enfrentando é necessário criar característas do evento de interesse, ou seja, criar um ETL para agregar e cruzar informações de diferentes fontes de dados. Não seria o máximo ter algumas dessas características já criadas e poderem ser aproveitadas em vários modelos distintos? Damos o nome de "Book de Variáveis" para essa prateleira de variáveis. Neste episódio, antes de começar a colocar a mão no código, vamos configurar todo nosso ambiente! Muito SQL envolvido, do básico ao avançado.

Episódio 4

Com todas variáveis criadas, podemos finalmente dar um próximo passo rumo à ABT (Analytical Base Table). Vamos construir nossa primeira safra, entendendo o que é este conceito e qual a importância de ter várias safras. Queremos deixar claro a real importância dessa etapa em um problema de Machine Learning.

Episódio 5

Chegou a hora de consolidar todas as safras em uma única tabela, fornecendo tudo o que é necessário para 'ensinar' a máquina. Finalmente temos nossa ABT pronta para alimentar a máquina com informações! Podemos dar início à algumas estatísticas descritivas e entender essa base de dados, usaremos Pandas!

Episódio 6

Treinar a máquina é uma coisa, mas como avaliar seu comportamento no futuro? Há uma base especial para fazer este tipo de teste: Out of Time. Algumas pessoas também chamam de base "Exposted" ou "Backtest".

Episódio 7

Chegou a hora da verdade!! Vamos treinar nosso primeiro classificador. O que será ele? Random Forest? Nãoooo. XGBoost? Nãoooo. Regressão logística? Talvez... Mas o que é necessário fazer antes de treinar o modelo? Transformar dados? Combinar variáveis?

Episódio 8

Vamos brincar com outros algoritmos? Qual sua técnica predileta? Vamos conhecer mais o que scikit-learn tem a nos oferecer!

Episódio 9

Modelo treinado e validado! Mas e agora? Fazer o que com ele? Quem vai usá-lo? Quem vai gerar valor a partir dele?

Códigos e dados

Todo material necessário para acompanhar o que será desenvolvido ficará disponível neste repositório. Os dados foram adquitido no Kaggle, fornecidos pela empresa Olist.

Para baixar os dados originais, clique aqui. Após o download, mantenha o arquivo olist.db dentro da pasta /data.

Links úteis:

Tema Link
Ambiente Python Anaconda
Lib p/ Matrizes NumpPy
Lib p/ DataFrames Pandas
Lib p/ Machine Learning Scikit-Learn
Editor de código VS Code
Editor de código Sublime3
Distribuição GNU/Linux Manjaro
Distribuição GNU/Linux Ubuntu
Material Livros
Comunidade Discord

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • TSQL 74.6%
  • Python 25.4%