Science des Données & Statistique

| Mathématiques Appliquées, `Science des Données`

Science des Données & Statistique

Lire plus...

Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).

Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.

Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.

Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant (cours) les méthodes et algorithmes concernés.

Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.

Saison 2 Exploration Statistique

Introduction plus détaillée

Objectifs

Cette saison est consacrée à l'apprentissage des méthodes exploratoires multidimensionnelles: analyse en composantes principales, factorielle discriminante, des correspondances, postionnement multidimensionnel, factorisaiton non négative, classification non-supervisée (clustering) par k-means, CAH, DBSCAN, mélanges gaussiens.

Prérequis

Avoir acquis les compétences afférentes ou revenir sur des épisodes précédents:

Outils Statistiques de base

Déroulement de l'UF: Logiciels et Méthodes d'Exploration Statistique

Cette saison est découpée en une séquence de six épisodes constitués de cours et travaux dirigés ou pratiques avec un ordinateur.

Les cours présentent les différentes méthodes développées dans les vignettes de wikistat.fr

Les séances de travaux dirigés mettent en application les différentes méthodes d'exploration et de classification supervisée sur des données de plus en plus réalistes donc volumineuses et complexes.

Les séances de travaux pratiques sont consacrées à l'apprentissage des langages: R et Python. Pour de nombreuses raisons, le logiciel SAS a été laissé de côté mais de nombreux tutoriels en permettent l'auto-apprentissage.

Utiliser au mieux le temps de chaque séance:

Réaliser au fur et à mesure les différentes étapes du projet sur l'analyse des données d'un recensement aux USA et qui constitue un fil rouge tout au long de cette saison 2,
consultant les autres cas d'usage (sujets d'examen) disponibles.

N.B. Le cas d'usage de gestion de la relation client: GRC Visa Premier permet d'illustrer presque toutes les méthodes (ACP, AFCM, classification) sur des données réelles. Il existe des tutoriels en SAS, R et Pyhton, réalisant les traitements équivalents. S'inspérer de celui en python pour la réalisation du projet.

Evaluation: contrôle sur table analogue aux cas d'usage ci-dessous et rendu du projet sous la forme d'un calepin introduite par une synthèse détaillée.

Pour aller plus loin

Apprentissage automatique / Statistique
Technologies des grosses data (Spark, XGBoost, Keras...)

Épisodes

Les épisodes alternent apprentissage des méthodes et initiations aux langages (R, Pyhton). L'introduction à SAS est accessible en auto-apprentissage.

Épisode 1 Introduction

Introduction à l'exploration multidimensionnelle et aux logiciels, langages statistiques
Description unidimensionnelle
Description bidimensionnelle
TP Log1
- Consulter le document (README) pour installer le noyau IRkernel afin de pouvoir utiliser R dans Jupyter.
- Pratique de R: 4 calepins
TP Log2
- Python introduction

Épisode 2 Analyse en Composantes Principales

Analyse en Composantes Principales
TD Explo1
- ACP en R : SVD, jouet, températures
- Données GRC de banque: data muning
TP Log3
- Python pandas: caractères, OCDE
- data muning suite.
TP Explo2
- ACP en Python
- Données GRC de banques: ACP
TP Log4
- Python graphes
- Données GRC de banques: ACP suite.

Épisode 3 Analyse Factorielle Discriminante

Analyse Factorielle Disciminante
TP Explo 3
- AFD en R: iris, départements
- AFD en Python: human activity recognition
TP Log 5
- Python avancé

Épisode 4 Analyse des Correspondances simple et Multiple

Analyse Factorielle simple des Correspondances
Analyse Factorielle multiple des Correspondances
TP Explo 4
- AFC en R: SVD, vacances
TP Explo 5:
- AFCM en R: chiens, cancer
- AFCM en python titanic
- Données GRC de banques: AFCM

Épisode 5 Classification non supervisée et Positionnement Multidimensionnel

Classification non supervisée (k-means, CAH, DBSCAN)
Positionnement Multidimensionnel (MDS)
TP Explo 6
- Classification avec R: villes, OCDE, chiens
- Données GRC de banques: Classification
TP Explo 7
- Classification avec Python: Mars

Épisode 6 Factorisation de Matrice et Projet

Factorisation non négative de matrice
TP Explo 8 NMF
- NMF avec R apéro
TP Explo 9 & 10
- Projet à rendre avant Jeudi xx/05/2019 18h. Reproduire en Python le calepin R d'analyse des données d'enquête. S'inspirer du cas d'usage GRC Visa Premier dont un calepin est réalisé en python. Rendre le calepin en Python avec une synthèse subtantielle de la démarche et des principaux résultats obtenus.

Cas d'usage (sujets d'examen)

Chaque dossier concerne un jeu de données et contient un calepin (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Ceux-ci suivent le déroulement (questions) d'un examen passé.

GRC-carte_Visa. Exemple de Gestion de la Relation Client (GRC). Exploration multidimensionnelle: ACP, AFCM, segmentation de clientèle: classification non supervisée par CAH et réallocation dynamique; représentation, interprétation des classes.
Patrim-Insee. Analyse des données d'une enquête INSEE sur le patrimoine des français. Exploration multidimensionnelle: AFCM, segmentation: classification non supervisée par CAH; représentation, interprétation des classes.
DiagCoro Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 270 patients ayant consulté pour douleur thoracique et présentant ou pas une insuffisance coronarienne.
AdultCensus Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 32561 citoyens américains.
Encours-Boursiers Exploration en R (ACP, CAH, k plus proches voisins) d'un ensemble de 252 encours boursiers observés à Paris de 2000 à 2009.
Cachets-Hittites Exploration avec R d'un corpus de 118 cachets hittites décrits par 12 variables plus la présence de hiéroglyphes. Peut-on prévoir la datation?
Pourriels exploration et caractérisation d'un corpus de courriels afin d'identifier les pourriels.
[Mars]((https://github.com/wikistat/Exploration/blob/master/Mars/) Segmentation d'un image de mars par classifications non supervisées. Représentation de la carte géologique de la surface de Mars.

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
Adult-Census		Adult-Census
Cachets-Hittites		Cachets-Hittites
Diag-coro		Diag-coro
Encours-Boursiers		Encours-Boursiers
GRC-carte_Visa		GRC-carte_Visa
HumanActivityRecognition		HumanActivityRecognition
Mars		Mars
Patrim-Insee		Patrim-Insee
Spam		Spam
TutosRudim		TutosRudim
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

| Mathématiques Appliquées, `Science des Données`

Science des Données & Statistique

Lire plus...

Saison 2 Exploration Statistique

Introduction plus détaillée

Objectifs

Prérequis

Déroulement de l'UF: Logiciels et Méthodes d'Exploration Statistique

Pour aller plus loin

Épisodes

Épisode 1 Introduction

Épisode 2 Analyse en Composantes Principales

Épisode 3 Analyse Factorielle Discriminante

Épisode 4 Analyse des Correspondances simple et Multiple

Épisode 5 Classification non supervisée et Positionnement Multidimensionnel

Épisode 6 Factorisation de Matrice et Projet

Cas d'usage (sujets d'examen)

About

Releases

Packages

Languages

License

lucievnhyz/Exploration

Folders and files

Latest commit

History

Repository files navigation

| Mathématiques Appliquées, Science des Données

Science des Données & Statistique

Lire plus...

Saison 2 Exploration Statistique

Introduction plus détaillée

Objectifs

Prérequis

Déroulement de l'UF: Logiciels et Méthodes d'Exploration Statistique

Pour aller plus loin

Épisodes

Épisode 1 Introduction

Épisode 2 Analyse en Composantes Principales

Épisode 3 Analyse Factorielle Discriminante

Épisode 4 Analyse des Correspondances simple et Multiple

Épisode 5 Classification non supervisée et Positionnement Multidimensionnel

Épisode 6 Factorisation de Matrice et Projet

Cas d'usage (sujets d'examen)

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

| Mathématiques Appliquées, `Science des Données`

Packages