Big Data

Introduction à Big Data

On assiste depuis quelques années à une explosion de données : essor de l’e-commerce, démocratisation de la connectivité mobile, multiplication des objets connectés… Résultat : on collecte des quantités gigantesques de données. Twitter, pour ne prendre que cet exemple, doit gérer 500 millions de nouveaux tweets quotidiennement.

Cela pose un défi de taille : il ne s’agit plus seulement de collecter et stocker ces volumes de données, il s’agit également de les traiter et les analyser en temps réel. Or, les outils classiques de gestion de données sont devenus inadaptés à leur traitement, soit pour des raisons techniques, soit pour des raisons économiques, soit pour les deux.

De ce constat est né le Big Data et aussi de nouveaux outils ont été développé pour palier aux problème de la collecte, du stockage et du traitement de gros volumes de données. Parmi eux, Hadoop.

Qu’est ce que Big Data ?

Big data fait référence à des ensembles de données qui, en raison de leurs Variété (Variety en anglais), Vitesse (Velocity en anglais) ou Volume ne peuvent pas être facilement stockées, manipulées ou analysées avec les méthodes traditionnelles, telles que les tableurs , les bases de données relationnelles ou les outils statistiques ordinaires.

  • Variété  :  La nature des données (Données structurées, semi-structurées ou non structurées)
  • Vitesse  :  La vitesse  à laquelle les données sont produites et évoluent dans le temps.
  • Volume :  Le volume  de données à collecter, stocker et traiter.

Mais d’ou viennent les données?

Nous distinguons deux types de sources de données pour les Big Data, données générées par les humains (photos, vidéos, audio, tweets,…) et d’autres, générées par les machines en communicant entre elles “M to M data”  (GPS, Satellites, Web Crawlers – robots d’indexation,… ).

Laisser un commentaire