Data Warehouse : ce que vous devez absolument savoir
Le data warehouse est un incontournable de la data d'analyse. Pourquoi ? À quoi ça sert ? On vous dit tout dans cet article.
Avez-vous déjà entendu parler de data warehouse ?
On aurait pu tout aussi bien utiliser le mot « entrepôt de données », nous direz-vous.
Mais parfois, notre chauvinisme en prend un coup : en France ou ailleurs, les pros de la data parlent bien de data warehouse.
Un data warehouse est un système qui récolte et stocke toutes les données dont dispose l’entreprise. Ces données sont récupérées à travers une multitude de sources différentes, à des fins de reporting ou d’analyse. Grâce à des requêtes SQL complexes, l’entreprise crée ainsi des rapports qu’elle utilise pour prendre des décisions sur son activité.
Par exemple, chez Shapr, les équipes utilisent un data warehouse pour créer des audiences similaires à partir des utilisateurs les plus actifs sur l’application afin de générer de nouveaux leads.
Concrètement, les données arrivent brutes dans le data warehouse, qui se charge de les ingérer, les transformer, les traiter et les rendre accessible à la prise de décision.
À l’origine, les data warehouse étaient hébergés sur les serveurs des entreprises. Aujourd’hui, la plupart des data engineers choisissent des solutions cloud.
Si ces dernières ont contribué à rendre le stockage de la donnée plus accessible, elles requièrent encore des connaissances et des compétences techniques très pointues.
On distingue donc souvent les data engineers, qui récoltent et transforment les données, et les data analysts, qui les analysent.
L’entreprise dispose de plusieurs sources de données – aussi appelées data sources :
Une base de données classique, que l’on qualifie d’opérationnelle, stocke uniquement les données nécessaires pour faire fonctionner le produit. Sur ces données, vous pouvez appliquez une quantité massive de requêtes simples. Mais pour croiser les données de deux bases de données transactionnelles grâce à des requêtes plus complexes, il vous faut un data warehouse.
Alors que les données des data warehouse suivent un modèle « append only », c’est-à-dire qu’on y intègre des données datées sans modifier les données existantes, les données d’une base transactionnelle sont sans cesse écrasées pour être mises à jour par les applications métiers et reflètent seulement la valeur en cours.
Dans un data warehouse, on retrouve généralement 3 niveaux de couches data – aussi appelées data layers :
Dans une base de données opérationnelle, les données ne sont pas stockées dans une optique d’analyse, mais pour faire fonctionner le produit. Elles sont optimisées pour minimiser le temps de réponse aux requêtes qu’utilise le produit. Vous ne retrouverez pas cette logique de couche de données et vous aurez encore moins une table par métier avec les données essentielles pour piloter l’activité métier.
Avant toute chose, il est important de préciser que toute entreprise ne doit pas à tout prix se munir d’un data warehouse. Tout dépend du volume de données que vous traitez et des compétences que vous avez en interne.
Validez donc votre potentiel sur ces deux sujets avant de passer à l’acte 😉
Le data warehouse est un vrai atout pour prendre de meilleures décisions. Il permet de :
Concrètement, vous pourrez par exemple :
Alors, on vous a mis l’eau à la bouche ? On aborde justement ce sujet en large et en travers lors de notre prochaine session de formation Data Analyst.