Outils

Généralités

Types de solutions et produits

  • entreprises spécialisées sur le stockage des données : MarkLogic, Couchbase, MongoDB, etc. Afin de mieux déployer ces technologies, des entreprises spécialisées sont là pour aider les entreprises afin de mettre en place ces solutions souvent open source : Cloudera, etc.
  • Solutions de visualisation des processus de traitements : Statistica (développé par DELL), Pentaho (http://www.pentaho.fr), Activeeon, et Coheris (similaires à Knime et rapidminer q qui sont open source), Access Insight, Big data discovery (Oracle), Data Science Studio (Dataiku), la suite de logiciels de elastic search,
  • des solutions pratiques de A à Z : zoomdata, dss (dataiku), coheris (plusieurs produits à voir)
  • Data viz : Vize (qui utilisent kibana, elastic search) ou avec une spécialisation sur les données géolocalisées : BIwhere (galigéo) qui utilise R principalement. Autres logiciels: opendatasoftware, tableau (qui était créé pour compenser les faiblesses d’Excel)

 

Processus de traitements complet

une des premières présentations sur les solutions proposées, on va voir que la plupart des produits proposent les mêmes caractéristiques (dans la description j’ai mis des choses qui sont entendues dans d’autres présentations) :

  • connexion avec une base de données agnostique (c’est indispensable de savoir connecter avec la plupart des sources, Bime avec Dropbox et Google Drive aussi, et également avec les bases de données SQL classiques)
  • fusion des données même des formats différents
  • Exploration des données avec des données structurées (visualisation rapide selon les caractéristiques proposée par Oracle big data discovery, par exemple si code postal, les données sont d’emblée visualisées géographiquement)
  • Pour les données non structurées ou semi structurées : nettoyages (data wrangling) proposé par DSS de Dataiku
  • Visualisation avec des tableaux de bord

 

Ancienneté des produits

On peut distinguer 2 types de produits en fonction de l’ancienneté :

  • les produits historiques bien implémentés dans les entreprises comme Excel essaient de développer des modules big data. L’avantage est que les salariés connaissent déjà ces outils, et il suffit d’installer les modules complémentaires; mais l’inconvénient est que les outils ne fonctionnent pas forcément de manière optimale.
  • Des produits de nouvelle génération se développe comme Knime ou Rapidminer.

 

Excel

Comme Excel est un outil très répandu dans les entreprises, différents outils ont été développé pour les traitements de données intégrés dans Excel.

Analysis ToolPak

les différentes fonctions dans Analysis ToolPak sont :

  • Anova: Single Factor
  • Anova: Two-Factor with Replication
  • Anova: Two-Factor Without Replication
  • Correlation
  • Covariance
  • Descriptive Statistics
  • Exponential Smoothing
  • F-Test Two Sample for Variance
  • Fourier Analysis
  • Histogram
  • Moving Average
  • Random Number Generation
  • Rank and Percents
  • Regression
  • Sampling
  • t-Test: Paired Two Sample for Means
  • t-Test: Two-Sample Assuming Equal Variances
  • t-Test: Two-Sample Assuming Unequal Variances
  • Z-Test: Two-Samples for Mean

 

Power BI

Power Pivot

Tanagra

 

Python

Installation

Python.org

IDE : charmPy par exemple

 

Scikit-learn

installation : python, numpy, scipy, scikit learn

 

wakari.io

 

Cours de programmation

javascript, c++, python, php

http://coderbyte.com/

 

Questions : stack overflow

 

R et R studio

Apprendre Swirl

 

Sous R, il existe de nombreux packages machine learning.

Rhive, Rweka, SparkR

Rhadoop, RHIPE

Un cours sur R

https://ramnathv.github.io/pycon2014-r/

 

Rattle : http://datamining.togaware.com/

 

Cours de data-mining dans R

http://onepager.togaware.com/

 

Weka

Weka est un ensemble d’algorithmes de manipulation de données et d’algorithmes de machine learning développés par l’université de Weikato.

 

Ces algorithmes ont notamment été intégrés dans Knime.

Weka est également intégré dans un package R : library(« RWeka »)

Hadoop

distribué et implémenté par plusieurs sociétés : Hortonworks, Cloudera, MapR

d’autres entreprises essaient de simplifier l’implémentation en proposant des interface utilisateurs très visuel comme Oracle avec Big Data Discovery.

un guide pour choisir un intégrateur pour installer l’écosystème Hadoop.

 

Knime

https://www.knime.org/files/marketingworkflow_2.10.png

 

Avec cette image de Knime, on peut finalement résumer tout le processus de traitements. Ainsi, il est possible de présenter l’ensemble des problématiques à l’aide de Knime.

Visualisation

d3.js, ggplot2, shiny

IBM languageware

 

D’autres outils

Spark, Storm

Flume, Scribe, Chukwa

Nutch, Talend, Scraperwiki

Webscrapper, Flume, Sqoop

tm, Rweka, NLTK

RHIPE

 

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s