Skip to content

Experimentos com coleta, analise e exposição de dados e informações;

Notifications You must be signed in to change notification settings

Gus-1003/Tutorial_DataScience

Repository files navigation

Repositorio - Ciência de Dados

  * Conceitos primordiais:
        - O que é ciência de dados:
           # Área que estuda os dados e todo o seu ciclo de vida;
           # Dados sempre vem acompanhados pelos conceitos de segurança e privacidade;
           # Geralmente esses dados são governados pelas políticas e procedimentos da instituição;

        - Estrutura básica:
           # Dados -> Fatos bruto coletados
           # Informação -> Dados analisados com algum significado
           # Conhecimento -> Informação interpretada e aplicada;

     * BI & BA
        - BI (Business Intelligence)
           # Tarefa Descritiva -> Entender o que aconteceu;
           # Extração de informação, Geração de gráfios -> Construir benefícios;
        - BA (Business Analytics)
           # Tarefa Preditiva -> Analisar o que pode ocorrer;
           # Coleta de historicos, uso de métodos estatísticos -> Descobrir as próximas tendências;

Ciclo de vida dos Dados:

 * Passos Fundamentais em um Projetos:
      * Aquisição / Produção / Coleta dos dados:
         1. Sensores -> Automaticos
         2. Formularios / Questões -> Manuais
         3. Extração(Requisição) de bancos / WebSites já desenvolvidos;

      * Armazenar os dados;
         1. Banco de dados;
         2. Softwares (Excel);

      * Processamento / Transformação:
         1. Seleção dos dados essenciais para o objetivo;
         2. Filtragem dos dados (Remoção de lixo e outliers);

      * Análise / visualização / Descrição:
         1. A partir das métricas alcançadas pelos métodos de apredizgem de maquina avaliar a aplicação (caracteristicas superfiais);
         2. Esses resultados podem ser considerados uma informação -> Podendo ser usados para tomada de decisão;

      * Descarte:
         1. A definição de quanto tempo esse dado será util e consequentemente mantido pelo sistema;

 * Fonte: https://www.youtube.com/watch?v=PGR3RfTSnWU&ab_channel=HashtagPrograma%C3%A7%C3%A3o

Bases de Dados:

* Kaggle = https://www.kaggle.com/datasets
* OpenML = https://www.openml.org/home
* UCI = https://archive.ics.uci.edu/ml/index.php
* Open Image = https://archive.ics.uci.edu/ml/index.php
* Plataforma Sucupira = https://sucupira.capes.gov.br/sucupira/public/index.xhtml
* Outras fontes = https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/

Documentações de Bibliotecas e Ferramentas do Python:

* numpy = https://numpy.org/doc/stable/user/whatisnumpy.html
* pandas = https://pandas.pydata.org/docs/getting_started/overview.html
* Matplotlib = https://matplotlib.org/stable/tutorials/index
* seaborn = https://seaborn.pydata.org/introduction.html
* math = https://docs.python.org/3/library/math.html
* scipy = https://scipy.github.io/devdocs/tutorial/general.html
* CV2 = https://docs.opencv.org/4.2.0/d6/d00/tutorial_py_root.html

Referências para estudo:

 * https://github.com/josenalde/datascience
 
 * https://github.com/lauraemmanuella/DataScience
 
 * https://github.com/programacaodinamica/analise-dados
 * https://github.com/programacaodinamica/dicas-pandas

Livros / Apostilas Base:

 * Notas de Aulas - https://drive.google.com/file/d/1YfSi-_2ESn3OfpLF1BPdMsFh-nAganr6/view?usp=sharing
 * Apostila Estatística - UFSM - https://drive.google.com/file/d/1KvmFeuG2QM_E4gF_Qj1kuoin1hPXIZT_/view?usp=sharing
 * Livro: Metodologia Científica - "A.L. Cervo" e "P.A. Bervian"

Releases

No releases published

Packages

No packages published