fbpx

Introduction au Business Intelligence

C’est quoi le Business Intelligence ?

L’informatique décisionnelle (en anglais Business Intelligence, BI), est un concept proposé par IBM, Oracle, Microsoft, pour consolider l’énorme quantité de données que les entreprises génèrent pour que les utilisateurs puissent les comprendre et les exploiter, extraire des informations pertinentes et utiles à partir des données et présenter l’information dans des formats plus utiles, en utilisant des outils d’exploitation, de reporting et de visualisation avancées dans l’objectif d’améliorer les performances décisionnelles des entreprises en répondant aux demandes d’analyse des décideurs non informaticiens et non statisticiens.

SI transactionnel VS décisionnel

Le système transactionnel permet de gérer les données en production en temps réel. Il est conçu pour l’insertion, la modification, interroger rapidement, efficacement et en sécurité les données de la base, sélectionner, ajouter, mettre à jour, supprimer des tuples et répondre à de nombreux utilisateurs simultanément.

Mais il y a des requêtes complexes et lourdes qui abîment les performances des systèmes transactionnels, et des données temporelles réparties rendent la vue historique de données difficile.
Le système décisionnel gère les données agrégées, calculées selon des axes (critères d’analyse) prédéterminés à des fins d’analyse.

Le système décisionnel permet de naviguer sur les données pour un but d’analyse.

Le système décisionnel permet aussi de fournir différents niveaux d’analyse, de parcourir aux utilisateurs des différents niveaux de données pour mesurer des indicateurs importants (indicateurs de pilotage), détecter les évènements et les anticiper.

Exemple :

  • Etat des employés de l’entreprise par tranche d’âge, par sexe, par diplôme, etc.
  • Etat des absences des étudiants par module, par sexe, par période, etc.
  • Le type de produit dont les ventes augmentent constamment pendant le 3éme trimestre de l’année?
  • Est-ce qu’une baisse des prix de 5% ferait redémarrer les ventes ?

Faciliter et améliorer la prise de décisions stratégiques et tactiques.

Système décisionnel : trois générations
1ere génération : interrogation directe
Principes :
Extrait direct des sources ;
Adapté à une classe de décideur.
Inconvénients :
Décisions limitées ;
Pas de centralisation de données décisionnelle commues ;
Pas d’historisation de données.

2éme génération : Data Warehouse et Data Mart

Data Warehouse est une collection de données orientées objet, intégrées, non volatiles et historisées, organisées pour le support d’in processus d’aide à la décision. D’après Bill inmom (1996)

Lieu de stockage centralisé.

Extrait des sources des données historisées;
Organisé selon un modèle informatique facilitant la gestion des données(en plusieurs dimensions) ;
Pertinent pour les décideurs.

Data Mart : Un sous-ensemble de données dérivés du Data warehouse ciblé sur un sujet unique.

3éme génération : OLAP

Transformées intégrées avant d’être stockées dans l’entrepôt ;
L’entrepôt est en lecture seulement et définit spécifiquement pour la prise de décision ;
Les utilisateurs accèdent d’après une interface de l’application.

Base de données multidimensionnelle :

Facilitent les analyses selon plusieurs niveaux d’analyse.

Exemple :

Niveaux d’analyse en vente :

  • Le jour de la vente ;
  • La ville de la vente ;
  • Le produit vendu.

Généralement, des dimensions sont hiérarchisées : la date de vente peut-être organisée en une hiérarchie (année, trimestre, mois)

Dimension et indicateurs :

Pour analyser selon un (ou plusieurs) axe(s) on doit disposer d’un modèle relativement approprié et capable de stocker le résultat de nombreuse calculs d’agrégation : BD multidimensionnelle.

La modélisation multidimensionnelle propose d’analyser des indicateurs (généralement numériques) dans un contexte qui nécessite de croiser plusieurs dimensions.

  • Le modèle multidimensionn : Combinaison de plusieurs tables (dimensions et de faits)

Le fait est le sujet d’analyse. Il est formé de mesures (alimentées de manière continue).

Les mesures est le résumé (agrégation) d’un grand nombre d’enregistrements de données sources.

  • Le fait est analysé selon des perspectives (axes d’analyse) nommées dimensions dans le but de répondre à des requêtes analytiques.

Faits ?

La table de fait contient l’ensemble des mesures correspondant aux informations de l’activité à analyser.

Une table de fait contient des valeurs numériques de ce qu’on désire mesurer et les clés vers les tables de dimensions, en général elle contient un petit nombre de colonnes (champs) et les données sont utilisées pour faire des sommes, moyennes, etc.

Schéma conceptuel en étoile : Les dimensions sont directement reliées à la table de fait.

Avantages :

  • Facilité de navigation
  • Nombre de jointures limité

Inconvénients :

  • Redondance dans les dimensions
  • Toutes les dimensions ne concernent pas les mesures

Schéma relationnel en flocon : modèle de mise en relation des dimensions et des faits dans un entrepôt de données. Le principe étant qu’il peut exister des hiérarchies de dimensions et qu’elles sont reliées à la table de fait.

Avantages :

  • Normalisation des dimensions
  • Economie d’espace disque (réduction du volume)

Inconvénients :

  • Modèle plus complexe (nombreuses jointures)
  • Requêtes moins performantes
  • Navigation difficile

Cube de données

La modélisation multidimensionnelle utilise des schémas (en étoile, flocon, etc.) pour prendre en charge des structures de données multidimensionnelles appelées cubes.
Un DW (Data Warehouse) est basé sur un modèle multidimensionnel où les données sont vues comme des data cubes permettant de voir les données selon plusieurs dimensions

  • Intérêt de la modélisation multidimensionnelle est d’analyser selon plusieurs axes.

Hiérarchies

Une hiérarchie représente une perspective d’analyse précisant les niveaux de granularité auxquels peuvent être manipulés les indicateurs d’analyse .Elle permet d’organiser les membres d’une dimension selon une relation est plus fin conformément à leur niveau de détail.

Exemple :

La dimension « temps », par exemple, pourrait être divisée en années, trimestres, mois, semaines, jours, etc.

Drill-up : synthèse des informations en fonction d’une dimension (exemple de drill-up sur l’axe temps : passer de la présentation de l’information jour par jour sur une année, à une valeur synthétique pour l’année),

Drill-down : c’est l’équivalent d’un « zoom », opération inverse du drill-up,

Conception d’un DW :

Il est conseillé de décomposer le problème en sous problèmes : Résoudre une problématique précise d’un petit groupe d’utilisateurs.
Une démarche pragmatique pour construire un Data Wrehouse c’est de construire tout d’abord des petites structures ( Data Mart), très ciblées et pilotées par les besoins des utilisateurs (un sujet).

Data Mart a la même vocation qu’un Data Warehouse sauf qu’il vise une problématique métier et par conséquent un petit nombre d’utilisateurs.

C’est donc une base de données orienté sujet mise à la disposition des utilisateurs ciblés.

On doit :

  • Préciser la ou les indicateurs qu’on souhaite analyser.
  • Spécifier le ou les axes d’analyse sur lesquels les indicateurs doivent être projetés.
  • Spécifier la population sur laquelle l’analyse doit être appliquée.

OLAP vs OLTP
L’objectif des bases OLTP est de pouvoir répondre rapidement à des réponses simples, exemple : les ventes du produit X.
Les bases OLAP permettent des requêtes plus complexes : les ventes du produit X par vendeur, région et par mois.

ETL (Extraction, Transformation et Load)

Est un outil chargé d’extraire des données depuis les différentes sources d’information de l’entreprise, les nettoyer et de les charger dans un entrepôt de données.

Extraction (Extraction): Ces opérations permettent de filtrer les données à partir de données sources (BD, fichiers, sites web, etc.) dans des bases de données temporaires.

Transformation (Transformation): Ces opérations permettent de transformer les données extraites dans un format uniforme, les conflits entre les modèles, les schémas et les données sont résolus durant cette phase.

Chargement (Load): Ces opérations permettent de charger les données transformées dans la base de données cible, la base de données cible est souvent implantée avec un SGBD relationnel-objet.

Agrégat et groupement (Aggregating and grouping): La base de données cible doit permettre de stocker les données opérationnelles et les données issues de calculs.

Groupement multiple

GROUP BY GROUPING SETS

GROUP BY a, b equivalent à GROUP BY GROUPING SETS (a, b);

GROUP BY GROUPING SETS ((a, b),(a, c),(a)) equivalent à GROUP BY a GROUPING SETS((b),(c),());

GROUP BY ROLLUP

GROUP BY ROLLUP a, b, c equivalent à GROUP BY a, b, c GROUPIN SETS ((a, b, c),(a, b),(a),());

GROUP BY CUBE

GROUP BY CUBE a, b, c equivalent à GROUP BU a, b, c GROUPING SETS ((a, b, c),(b, c),(c),());

Fouille de données : Data mining

Volumétrie des données (DW, Big Data, etc.), cela est dure à la maturité des technologies de base de données et à l’automatisation de collecte de données.

Croissance exponentielle de la collecte des données (Internet, scanners de télésurveillance, etc.)

Besoin de techniques pour analyser ces données pour en extraire des informations pertinentes.

Exemple de sources de données :

  • Hébergement de document ;
  • Big Data ;
  • Réseaux sociaux (Facebook, Gmail, etc.) ;
  • Entrepôt du web (Google) ;
  • Tracking Data on the internet (sites visités, mot-clé recherchés, etc.) ;
  • Etc.

Une grande masse de données mais pas assez d’information.

Data mining est un processus qui permet l’extraction non triviale de connaissances implicites (à partir des données issues de grands entrepôts de données) qui sont potentiellement utilisés. Appelé souvent fouille de données est conçu pour l’exploitation et l’analyse de grandes quantités de données afin d’y découvrir de l’information implicite.

Data mining vs Statistiques

Data mining :

  • Des millions d’indicateurs ;
  • Des centaines de variables ;
  • Des données recueillies sans étude préalable ;
  • Une nécessité de calculs rapides.

Statistiques :

  • Quelques certaines d’indicateurs ;
  • Quelques variables ;
  • Fortes hypothèses sur les lois statistiques ;
  • Une importance accordée au calcul ;
  • Un échantillon aléatoire.

Les techniques de Data mining sont plus complexes que de simples statistiques descriptives dans il y a les outils d’intelligence artificielle, algorithmes sophistiques, théorie de l’information (arbre de décision, etc.).

Laisser un commentaire