Nettoyage des données

Après avoir acquis des données sous forme brute, il s’agit ensuite de nettoyer, stocker, analyser leur qualité, ou encore intégrer les données dans une base de donnée.

En anglais, les termes sont plus parlants et plus spécifiques : data muning, data wrangling. Pour avoir un petit exemple, une vidéo de l’Université de Stanford montre assez bien de quoi il s’agit :

Pour le faire soi-même, voici le lien de data wrangler.

Plusieurs liens utiles :

http://www.datawrangling.com/

Un cours sur data wrangling sur Udacity : https://www.udacity.com/course/ud032

Outils et techniques

Dictionnaire dans python :

http://openclassrooms.com/courses/apprenez-a-programmer-en-python/les-dictionnaires-2

http://www.chicoree.fr/w/Fichiers_CSV_en_Python

création d’un dictionnaire

http://stackoverflow.com/questions/6740918/creating-a-dictionary-from-a-csv-file

Processus de nettoyage

  • Manipuler les données, c’est d’abord jonggler entre différents formats : JSON, SQL, XML, NoSQL, etc.
  • Traiter les problématiques comme réduction de dimensions, valeurs manquantes, estimateur sans biais, suppression de bruits, binning etc.
  • Il faut ensuite faire le normalisation, utiliser les expressions rationnelles (regex), extraire les features

 

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s