Sur-dimensionnement de l’infrastructure Big Data : un facteur contre-productif en Datascience

L’infrastructure Big Data doit-elle forcément se montrer la plus véloce, la plus puissante, absorbant les plus gros volumes de données en des temps très courts ? En Big Data aussi, l’approche doit être raisonnée, pour des raisons évidentes de coûts, de ROI mais également d’apprentissage et d’adoption progressive.

 

Certains échecs du Big Data ont refroidi les ardeurs 

Les constats d’échecs sont nombreux dans le Big Data. Il est aisé d’ailleurs de désigner les coupables, ils sont légion. Gouvernance des données déséquilibrée, manque d’information à destination des équipes, données de piètre qualité, sponsoring peu engagé, objectifs mal définis, etc. A croire que le Big Data est un puits sans fond d’erreurs et d’errances.

Face aux déceptions, les entreprises hésitent à se lancer, en particulier celles de taille intermédiaire. Elles savent que le Big Data présente des opportunités mais aussi un coût et le risque d’une traversée du désert numérique n’est pas loin. En d’autres termes, elles optent souvent pour le statu quo, ce qui ne présente pas que des avantages dans une économie construite sur des écosystèmes ouverts.

Il y aurait certainement à blâmer un certain marketing agressif et l’illusion des solutions Big Data misant sur l’hyper performance, qui dissimulent l’exigence d’une réflexion longue assortie de prévention. Car les projets d’infrastructure Big Data sont d’une extrême diversité, et n’ont en commun que leur nom, et encore. Beaucoup d’entre eux relèvent moins du Big que de la Data et concernent plus volontiers de petits jeux de données, traités à vitesse moyenne, sans grande variété de formats. Ils n’en sont pas moins pourvoyeurs d’informations importantes pour l’entreprise.

Du seul point de vue du volume, la sur-multiplication de la donnée n’est d’ailleurs pas forcément gage d’une bonne gestion et se montre parfois synonyme de dispersion et de visibilité partielle de son patrimoine informationnel. Le risque en revanche, commun à toute entreprise, est de vouloir s’équiper en fonction d’un projet dit « Big Data », qui supposera alors des ressources et des performances bien au-delà des besoins réels.

Infrastructure Big Data, le risque du sur-dimensionnement

Le sur-dimensionnement de l’infrastructure Big Data, la plaie des entreprises

On arguera que le choix de technologies puissantes est fait dans une optique d’évolution des besoins, en prévision d’une couverture plus large des cas d’usages à venir. Que dans une dynamique d’innovation, il y a lieu de ne pas contraindre les équipes avec un environnement IT limitant.

C’est un argument effectivement recevable, dans la mesure où les dites équipes sont capables d’embrasser la complexité d’un système destiné à de la datascience ou du deep learning et maîtrisent les bonnes pratiques conditionnées par la démarche. L’expérience en général démontre le contraire, ce qui ne devrait surprendre personne. Le Big Data fait partie de ces paradigmes technologiques requérant une expérience construite progressivement. En d’autres termes, au même titre que l’on exige le permis B avant d’apprendre à conduire un poids lourd, il demeure indispensable de vérifier la réalité des compétences et des expertises disponibles dans l’entreprise avant de s’équiper d’une infrastructure Big Data.

Cette démarche prudente est pertinente quelle que soit la taille de l’entreprise. Pourtant, les organisations les plus victimes d’un Big Data avorté sont souvent celles qui disposent d’importants budgets. Parce qu’elles ont déjà en vue la valorisation de leurs dépenses à travers de nouveaux modèles économiques, parce que leurs équipes y sont fortement incitées, elles prennent le risque du sur-dimensionnement. Cette décision initiale se traduit par des coûts annuels de licence et d’exploitation monumentaux, assortis de lourdes prestations de consulting informatiques et de mise en œuvre. Or le résultat le plus explicite de la démarche reste surtout la constatation d’une sur-estimation des prévisions d’évolution, en coût de serveurs notamment.

Dans le même ordre d’idées, l’expression Big Data rejoint presque toujours la notion de Cloud public dans l’esprit des équipes et du COMEX. Dans un sens, c’est effectivement chez les hyperscalers qu’on trouvera toute l’élasticité, la scalabilité et les ressources de calcul nécessaires à un traitement massif. Mais avant de chercher à satisfaire d’éventuels orgueils à coût de dizaines de milliers d’euros mensuels, il est bon de se souvenir que le mieux est toujours l’ennemi du bien.

Article initialement publié le 18 novembre 2020 et à lire en intégralité sur MtoM-mag.com.