Au cours des deux dernières décennies, les données sont devenues un atout inestimable pour les entreprises, rivalisant avec les actifs traditionnels comme l’infrastructure physique, la technologie, la propriété intellectuelle et le capital humain. Pour certaines des entreprises les plus valorisées au monde, les données constituent le cœur de leur modèle économique.
L’ampleur de la production et de la transmission des données a connu une croissance exponentielle. Forbes rapporte que la production mondiale de données est passée de 2 zettaoctets en 2010 à 44 Zo en 2020, avec des projections dépassant 180 Zo d’ici 2025 – une croissance stupéfiante de 9 000 % en seulement 15 ans, en partie tirée par l’intelligence artificielle.
Cependant, les données brutes à elles seules ne constituent pas des informations exploitables. Les données non traitées peuvent submerger les utilisateurs et potentiellement entraver leur compréhension. Les informations (les données traitées, organisées et consommables) génèrent des informations qui mènent à des actions et à la génération de valeur.
Cet article partage mon expérience dans l’analyse de données et la mise en œuvre d’outils numériques, en se concentrant sur l’exploitation du « Big Data » pour créer des informations exploitables. Ces informations ont permis aux utilisateurs de capitaliser sur les opportunités commerciales, d’identifier les domaines permettant de réaliser des économies et d’accéder à des informations d’analyse comparative utiles. Nos projets intégraient souvent l’automatisation, générant des gains de temps et d’efficacité. Je mettrai en évidence les principaux défis auxquels nous avons été confrontés et nos solutions, en mettant l’accent sur les premières phases du projet où les décisions ont l’impact le plus significatif.
Les principaux domaines d’intérêt comprennent :
- Quantification des bénéfices
- Le risque de dérive du périmètre
- Relever les défis avec les données PDF
- Phase de conception et considérations en matière de performances
Dans les grandes organisations, la disponibilité et l’accessibilité des données posent souvent des défis importants, en particulier lorsqu’il s’agit de combiner des données provenant de plusieurs systèmes. La plupart de mes projets visaient à créer un ensemble de données unifié et harmonisé pour des analyses en libre-service et des tableaux de bord perspicaces. Nous avons utilisé des méthodologies agiles pour maintenir une surveillance claire des progrès et des goulots d’étranglement, garantissant ainsi la responsabilité de chaque membre de l’équipe.
Le cycle de vie typique des projets de données englobe les phases de cadrage, de conception, de développement, de mise en œuvre et de maintien. Lors de la définition du périmètre, le propriétaire du produit collabore étroitement avec l’organisation client/utilisateur final pour comprendre les besoins globaux, les types de données et les informations souhaités, les exigences et les fonctionnalités.
Quantification des bénéfices
Un élément crucial de la phase de cadrage est le cas de bénéfice, dans lequel nous quantifions la valeur potentielle de la solution. D’après mon expérience, cette étape s’avère souvent difficile, en particulier lorsqu’il s’agit d’estimer la valeur des informations analytiques. J’ai constaté que même si le calcul des avantages de l’automatisation, comme le gain de temps, est relativement simple, les utilisateurs ont du mal à estimer la valeur des informations, en particulier lorsqu’ils traitent des données auparavant indisponibles.
Dans le cadre d’un projet crucial, nous avons affronté ce défi de front. Nous développions un modèle de données pour fournir des informations plus approfondies sur les contrats logistiques. Durant la phase de cadrage, nous avons eu du mal à quantifier les avantages potentiels. Ce n’est que lorsque nous avons découvert un incident récent que nous avons trouvé notre réponse.
Quelques mois plus tôt, le client avait découvert qu’il payait trop cher pour un pipeline spécifique. La structure du contrat, avec des flux volumétriques différents entraînant des tarifs variables, avait conduit à une utilisation sous-optimale et à des coûts excessifs. En ajustant les flux de volume, ils ont réussi à réduire considérablement les coûts unitaires. Cet exemple concret s’est avéré inestimable dans notre processus de quantification des avantages.
Nous avons utilisé cet incident pour démontrer comment notre modèle de données aurait pu :
- J’ai identifié le problème plus tôt, ce qui pourrait permettre d’économiser des mois de trop-payé
- Assurer une surveillance continue pour éviter des problèmes similaires à l’avenir
- Informations offertes pour optimiser les débits sur tous les contrats
Cet exemple concret nous a non seulement aidé à quantifier les bénéfices, mais a également élevé la priorité du projet auprès de la haute direction, garantissant ainsi le financement dont nous avions besoin. Ce fut une leçon cruciale sur le pouvoir d’utiliser des événements tangibles et récents pour illustrer la valeur potentielle.
Cependant, tous les projets ne disposent pas d’exemples aussi clairs. Dans ces cas, j’ai développé des approches alternatives :
- Analyse comparative : nous comparons les performances des départements à celles d’autres départements ou de concurrents, identifiant les meilleures performances de leur catégorie et quantifiant la valeur d’atteindre ce niveau.
- Pourcentage d’amélioration : Nous estimons un pourcentage d’amélioration prudent des revenus ou des coûts globaux du département résultant du modèle. Même un petit pourcentage peut se traduire par une valeur significative dans les grandes organisations.
Quelle que soit la méthode, j’ai appris l’importance de définir des critères de réussite clairs et mesurables. Nous établissons désormais toujours comment les avantages seront mesurés après la mise en œuvre. Cette pratique facilite non seulement la réévaluation, mais garantit également la responsabilité de la décision de mise en œuvre de la solution numérique.
Une autre leçon précieuse est venue d’une source inattendue. Dans plusieurs projets, nous avons découvert des « clients secondaires » – des départements ou des équipes qui pourraient bénéficier de notre modèle de données mais ne faisaient pas partie du périmètre initial. Dans un cas, un modèle conçu pour l’équipe logistique s’est avéré inestimable pour le service financier en matière de budgétisation et de prévision.
Cette expérience m’a appris à élargir mon réseau lors de la définition de la clientèle. Nous regardons désormais régulièrement au-delà du service demandeur pendant la phase de cadrage. Cette approche a souvent accru les avantages globaux et la priorité du projet, transformant parfois un projet marginal en une initiative incontournable.
Ces expériences mettent en évidence un point crucial : dans les grandes organisations, plusieurs utilisateurs de différents domaines sont souvent confrontés à des problèmes similaires sans s’en rendre compte. En identifiant ces synergies dès le début, nous pouvons créer des solutions plus complètes et plus utiles et élaborer des arguments plus solides en vue de leur mise en œuvre.
Le risque de dérive du périmètre
Si l’élargissement de la clientèle renforce l’impact du modèle, il augmente également le risque de dérive de la portée. Cela se produit lorsqu’un projet tente d’accueillir trop de parties prenantes, promettant des fonctionnalités excessives ou trop complexes, compromettant potentiellement le budget et le calendrier. Le propriétaire du produit et l’équipe doivent clairement comprendre leurs ressources et leurs capacités de livraison réalistes dans les délais convenus.
Pour atténuer ce risque :
- Prévoyez du travail de conception pendant la phase de cadrage.
- Évaluez si les nouvelles exigences peuvent être satisfaites avec les sources de données existantes ou nécessitent d’en acquérir de nouvelles.
- Définissez des attentes claires et réalistes avec la direction du client concernant la portée et la faisabilité.
- Créez une maquette manuelle du produit final pendant la définition du périmètre pour clarifier les exigences en matière de source de données et donner aux utilisateurs finaux un aperçu tangible du résultat.
- Utilisez des sous-ensembles de données réels dans les maquettes plutôt que des données factices, car les utilisateurs s’identifient mieux aux informations familières.
Les défis liés aux données PDF
Plusieurs projets ont mis en évidence les difficultés liées à la capture de données PDF. Les utilisateurs demandaient souvent des détails sur les factures et les relevés de fournisseurs tiers non disponibles dans nos systèmes financiers. Alors que les équipes comptables réservent généralement des versions résumées, les utilisateurs avaient besoin de détails sur les postes à des fins d’analyse.
L’extraction de données à partir de PDF nécessite d’établir des règles et une logique pour chaque élément de données, un effort substantiel qui n’en vaut la peine que pour plusieurs PDF avec des structures similaires. Cependant, lorsqu’il s’agit de documents provenant de milliers de fournisseurs et de formats variés susceptibles de changer au fil du temps, le développement de règles de mappage devient une tâche immense.
Avant d’inclure l’extraction de PDF dans la portée d’un projet, j’ai maintenant besoin d’une compréhension approfondie des documents impliqués et de m’assurer que l’organisation utilisatrice finale saisit pleinement les défis associés. Cette approche a souvent conduit à redéfinir la portée du projet, car les avantages peuvent ne pas justifier les coûts et il peut exister des moyens alternatifs pour obtenir les informations souhaitées.
Phase de conception et considérations en matière de performances
La phase de conception implique l’analyse des éléments définis, l’identification des sources de données, l’évaluation des méthodes d’interface de données optimales, la définition des étapes de conservation et de calcul et la documentation du modèle de données global. Cela englobe également les décisions concernant l’hébergement des modèles de données, les applications logicielles pour le transfert et la visualisation des données, les modèles de sécurité et la fréquence des flux de données. Les principales exigences de conception incluent généralement la granularité des données, la fiabilité, la flexibilité, l’accessibilité, l’automatisation et les performances/vitesse.
Les performances sont cruciales, car les utilisateurs attendent des réponses en temps quasi réel. Les modèles lents, quelles que soient leurs connaissances, sont souvent peu utilisés. Les méthodes courantes d’amélioration des performances incluent la matérialisation de l’ensemble de données final pour éviter les calculs basés sur le cache. Le choix de l’outil de visualisation a également un impact significatif sur les performances. Tester divers outils pendant la phase de conception et chronométrer chaque étape du modèle contribue à éclairer la sélection des outils. Le choix de l’outil peut influencer la conception, dans la mesure où chaque outil possède des structures de données préférées, même si la stratégie d’entreprise et les considérations de coûts peuvent en fin de compte déterminer la décision.
Tendances futures
Les tendances émergentes remodèlent le paysage de l’analyse des données. Les outils de préparation et d’analyse des données permettent désormais aux non-développeurs de créer des modèles de données à l’aide d’interfaces graphiques intuitives avec une fonctionnalité glisser-déposer. Les utilisateurs peuvent simuler et visualiser chaque étape, permettant ainsi un dépannage à la volée. Cette démocratisation de la modélisation des données étend la tendance de l’analyse en libre-service, permettant aux utilisateurs de créer leurs propres modèles de données.
Même s’il existe des limites à la complexité des produits de données créés par les utilisateurs finaux et si les organisations peuvent toujours préférer les ensembles de données d’entreprise administrés de manière centralisée pour les données largement utilisées, ces outils étendent les capacités de modélisation des données au-delà des professionnels de l’informatique.
Une expérience personnelle illustre l’impact de cette tendance : au cours de la phase de définition d’un projet, face à la perte potentielle d’un développeur, nous sommes passés d’un modèle programmé en SQL à Alteryx. Le propriétaire du produit a réussi à créer le modèle de données avec un minimum de support informatique, améliorant ainsi à la fois ses compétences techniques et sa satisfaction au travail.
La socialisation de la création d’outils analytiques complexes offre des avantages significatifs. Les entreprises devraient envisager de proposer des programmes de formation pour maximiser la valeur de ces applications. De plus, les assistants IA peuvent suggérer ou déboguer du code, accélérant ainsi encore l’adoption de ces outils. Ce changement peut transformer chaque employé en un professionnel des données, extrayant une valeur maximale des données de l’entreprise sans une assistance informatique étendue.
Libérez la valeur des données
La prise de décision basée sur les données connaît une croissance rapide dans tous les secteurs. Pour libérer la valeur des données, elles doivent être transformées en informations structurées et exploitables. Les projets d’analyse de données visent à consolider les données provenant de diverses sources dans un ensemble de données centralisé et harmonisé prêt à être consommé par l’utilisateur final.
Ces projets comprennent plusieurs phases – cadrage, conception, construction, mise en œuvre et maintien – chacune comportant des défis et des opportunités uniques. La phase de cadrage est particulièrement critique, car les décisions prises ici ont un impact profond sur l’ensemble du cycle de vie du projet.
Le modèle traditionnel consistant à s’appuyer sur des développeurs informatiques dédiés évolue avec l’avènement d’outils conviviaux de préparation et d’analyse des données, complétés par des assistants IA. Cette évolution abaisse les obstacles à la création de modèles analytiques, permettant à un plus large éventail d’utilisateurs finaux de participer au processus. En fin de compte, cette démocratisation de l’analyse des données va encore amplifier son impact sur la prise de décision des entreprises, favorisant ainsi l’innovation et l’efficacité dans toutes les organisations.