Comment construire un Data Platform ?

Mener un projet de data science/analytique prend toujours du temps et n’est jamais facile. Un projet réussi et complet va bien au-delà du codage: il implique beaucoup de communication, de planification, et une définition claire des objectifs.

Avoir une politique basée sur les données, c’est avant tout apprendre les étapes et les phases de base d’un projet de cette envergure et les suivre de la préparation des données brutes à la construction d’un modèle d’apprentissage automatique et, finalement, à l’opérationnalisation.

Dans ce document, nous allons lister les étapes que nous jugeons nécessaires à la mise en œuvre d’une telle politique.

Compréhension du besoin

Comprendre l’entreprise ou l’activité dont fait partie votre projet de données est essentiel pour assurer son succès; c’est la première phase de tout projet de data platform solide.

Pour motiver les différentes parties prenantes de votre projet, de la conception à la réalisation, ce dernier doit être la réponse à un besoin organisationnel clair. Avant même de penser aux données, sortez et parlez aux personnes de votre organisation dont vous souhaitez améliorer les processus ou les activités avec les données. Ensuite, asseyez-vous pour définir un échéancier et des indicateurs de performance clés concrets.

La planification et les processus semblent ennuyeux, mais, en fin de compte, ils constituent une première étape essentielle pour lancer votre initiative! Pour avoir de la motivation, une direction et un but, vous devez identifier un objectif clair de ce que vous voulez faire avec les données : une question concrète à laquelle répondre, un produit à construire, etc.

Collecte des données

Une fois que vous avez défini votre objectif, il est temps de commencer à rechercher vos données, la deuxième phase d’un projet d’analyse de données. Mélanger et fusionner des données provenant d’autant de sources de données que possible c’est ce qui va enrichir votre plateforme. Voici quelques façons d’obtenir des données utilisables :

votre base de données : quoi de mieux que de commencer par les données qui vous appartiennent déjà
utilisez des API internes : pensez aux API de tous les outils que votre entreprise utilise et aux données collectées. Vous devez travailler sur la configuration de tout cela afin que vous puissiez utiliser, par exemple, les statistiques d’ouverture et de clic sur les e-mails, les informations que votre équipe de vente a mises dans votre CRM, les informations du service support (tickets, etc.), etc.
Utilisez des API externes: si vous dispose de canaux de communications via des réseaux sociaux, il vous est possible d’exploiter les APIs de ces derniers afin de remonter plusieurs types d’informations pouvant mener à des analyses de sentiment, fréquentation, etc.

Assainissement des données

L’étape suivante est le redoutable processus de préparation des données qui prend généralement jusqu’à 80 % du temps. Une fois que vous avez obtenu vos données, vous devez commencer à les explorer pour voir ce qui est à votre disposition et comment vous pouvez tout relier pour atteindre l’objectif que vous vous êtes fixé.

Commencez à prendre des notes sur vos premières analyses et posez des questions aux professionnels, à l’équipe informatique ou à d’autres groupes pour comprendre la signification de toutes vos variables.

L’étape suivante consiste à nettoyer vos données. Vous avez probablement remarqué que même si vous avez une liste de villes, par exemple, vous avez des orthographes différentes, ou même des données manquantes. Il est temps d’examiner chacune de vos colonnes pour vous assurer que vos données sont homogènes et propres. C’est probablement l’étape la plus longue du projet.

Enfin, un élément crucial de la préparation des données à ne pas négliger est de vous assurer que vos données et votre projet sont conformes aux réglementations en matière de confidentialité des données. La confidentialité et la protection des données personnelles deviennent une priorité pour les utilisateurs, les organisations et les législateurs et cela devrait en être une pour vous dès le début. Afin d’exécuter des projets conformes à la confidentialité, vous devrez centraliser toutes vos données en un seul endroit ou sous un seul outil pour faciliter la gouvernance. Vous devrez clairement baliser les ensembles de données et les projets qui contiennent des données personnelles et/ou sensibles et devraient donc être traités différemment.

Enrichissement des données

Maintenant que vous disposez de données propres, il est temps de les manipuler afin d’en tirer le meilleur parti.

Vous devez commencer la phase d’enrichissement des données du projet en joignant toutes vos différentes sources de données pour les faire correspondre aux fonctionnalités essentielles. Un exemple consiste à enrichir vos données en créant des fonctionnalités temporelles, telles que :

Extraction des composants de date (mois, heure, jour de la semaine, semaine de l’année, etc.)
Calcul des différences entre les colonnes de date
Signaler les jours fériés

Une autre façon d’enrichir les données consiste à joindre des ensembles de données, c’est-à-dire à récupérer des colonnes d’un ensemble de données ou d’un onglet dans un ensemble de données de référence, en fonction de critères spécifiques et affinés. Lors de la collecte, de la préparation et de la manipulation de vos données, vous devez faire très attention à ne pas y insérer de biais involontaire ou d’autres modèles indésirables. En effet, les données utilisées dans la construction de modèles d’apprentissage automatique et d’algorithmes d’IA sont souvent une représentation du monde extérieur et peuvent donc être profondément biaisées suivant certains groupes et individus. L’une des choses qui font le plus craindre les données et l’IA est que l’algorithme n’est pas capable de reconnaître les biais. Par conséquent, lorsque vous entraînez votre modèle sur des données biaisées, il interprétera le biais récurrent comme une décision à reproduire et non quelque chose à corriger. C’est pourquoi une partie importante du processus de manipulation des données consiste à s’assurer que les ensembles de données utilisés ne reproduisent ou ne renforcent aucun biais qui pourrait conduire à des résultats faux ou injustes.

Création des métriques à visualiser

Vous avez maintenant un bel ensemble de données (ou peut-être plusieurs), c’est donc le bon moment pour commencer à l’explorer en créant des graphiques.

Lorsque vous traitez de gros volumes de données, la visualisation est le meilleur moyen d’explorer et de communiquer vos résultats et constitue la phase suivante de votre projet. La partie délicate est de pouvoir creuser dans vos graphiques à tout moment et de répondre à toute question que quelqu’un aurait sur un aperçu donné.

Les graphiques sont également un autre moyen d’enrichir votre ensemble de données et de développer des fonctionnalités plus intéressantes. Par exemple, en plaçant vos points de données sur une carte, vous remarquerez peut-être que des zones géographiques spécifiques sont plus révélatrices que des pays ou des villes spécifiques.

Construction de modèles de prédiction

Les algorithmes d’apprentissage automatique peuvent vous aider à aller plus loin pour obtenir des informations et prédire les tendances futures. En travaillant avec des algorithmes de clustering (c’est-à-dire non supervisés), vous pouvez créer des modèles pour découvrir des tendances dans les données qui n’étaient pas distinguables dans les graphiques et les statistiques. Ceux-ci créent des groupes d’événements similaires (ou clusters) et expriment plus ou moins explicitement quelle caractéristique est décisive dans ces résultats.

Avec des data scientists vous pouvez aller encore plus loin et prédire les tendances futures avec des algorithmes supervisés. En analysant les données passées, on peut trouver les caractéristiques qui ont eu un impact sur les tendances passées et les utiliser pour établir des prédictions. Plus qu’une simple acquisition de connaissances, cette dernière étape peut conduire à la création de produits et de processus entièrement nouveaux. Il est important de comprendre le processus afin que toutes les parties impliquées soient en mesure de comprendre ce qui en ressort au final.

Enfin, afin de tirer une réelle valeur ajoutée de votre projet, votre modèle prédictif ne doit pas rester en veilleuse ; il doit être opérationnalisé. L’opérationnalisation signifie simplement le déploiement d’un modèle d’apprentissage automatique à utiliser dans l’ensemble d’une organisation. L’opérationnalisation est vitale pour votre organisation et pour que vous puissiez tirer pleinement parti de vos efforts en matière de science des données.

Itération

L’objectif principal de tout projet d’entreprise est de prouver son efficacité le plus rapidement possible. En gagnant du temps sur le nettoyage et l’enrichissement des données, vous pouvez aller au bout du projet rapidement et obtenir vos premiers résultats. Il s’agit de la phase finale de l’achèvement de votre projet et qui est essentielle à l’ensemble du cycle de vie des données. L’une des plus grandes erreurs que les gens commettent en ce qui concerne l’apprentissage automatique est de penser qu’une fois qu’un modèle est construit et mis en ligne, il continuera à fonctionner normalement indéfiniment. Au contraire, la qualité des modèles se dégradera en fait au fil du temps s’ils ne sont pas continuellement améliorés et alimentés en nouvelles données. Ironiquement, pour mener à bien votre premier projet vous devez reconnaître que votre modèle ne sera jamais entièrement « complet ». Pour qu’il reste utile et précis, vous devez constamment le réévaluer, le recycler et développer de nouvelles fonctionnalités. S’il y a une chose que vous retenez de ces étapes fondamentales de l’analytique et de la science des données, c’est que le travail d’un data scientist n’est jamais vraiment terminé.