Acquisition des données

La première étape du processus consiste à acquérir des données.

Types de sources des données

On peut distinguer plusieurs types de sources de données :

  • Données classiques : données stockées sur une base SQL, dans des fichiers Excel
  • Dark data : des données qui ne sont pas exploiter, faute d’outil de transformation, ou de nettoyage. On peut penser aux fichiers textes, vidéos, audios, etc.
  • Marché des données : des entreprises spécialisées vendent des données sur internet comme quandl.
  • Objets connectés : les fabricants d’objets connectés proposent des partenariats pour vendre ou partager leurs données
  • Open data

Open Data

De plus de plus d’entreprises ouvrent leurs bases de données au public.

  • Institutions publiques : data.gouv.fr, data.paris.fr, data.sncf.com
  • Institutions privées : sur le site de Kaggle, des entreprises privées mettent leurs données à disposition pour des compétitions.
  • Bases de données académiques : pour le besoin d’apprentissage des algorithmes de machine learning, de nombreuses données sont disponibles (UCI repo)
  • Des données web et réseaux sociaux

Format des données

Les données sont proposées sous plusieurs formats. Les formats les plus classiques sont les suivants : csv, xml, jason, etc.

Les bases de données classiques sont souvent organisées en table. Pour le big data, il paraît que la structure emboîtée est plus adaptée. Par exemple Twitter utilise le format json.

Outils

  • Acquisition des données web : crawler (http://scrapy.org/)
  • Données twitter avec leur API : Exploiter ses données Twitter

 

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s