De nombreuses décisions techniques entrent en jeu dans le soutien à l’IA – du choix des LLM à utiliser, du lieu de déploiement, de l’infrastructure requise et de la formation des employés. Récemment, nous avons interrogé des décideurs IT d’entreprise aux États-Unis, et près de la moitié (44 %) ont déclaré que la création d’une infrastructure de données prête pour l’IA est la priorité numéro un aujourd’hui. Les organisations IT forment également sur mesure les modèles existants (37 %), utilisent des services cloud pour l’IA (32 %), développent leurs propres modèles d’apprentissage (32 %), autorisent les employés à utiliser des modèles d’IA disponibles dans le commerce (29 %) et forment leurs employés (33 %).
Dans cet article, j’examinerai ces différents aspects et proposerai quelques points de réflexion pour les entreprises qui cherchent à bâtir leur infrastructure dite "prête pour l’IA". Comme toujours, le budget joue un rôle crucial dans les décisions technologiques autour de l’IA, mais la sécurité, la conformité réglementaire et la disponibilité d’équipes IT dotées de compétences adaptées en IA et ML sont tout aussi importantes.
Créer une infrastructure de données prête pour l’IA
Le lancement d’une initiative IA dans votre entreprise peut nécessiter le développement et l’entraînement de modèles si vous souhaitez créer votre propre modèle d’IA générative. Cela commence généralement par l’acquisition de ressources informatiques hautes performances en quantité suffisante — les coûteux CPU, GPU et TPU nécessaires pour héberger les modèles d’apprentissage automatique et traiter les données à grande vitesse. Si l’infrastructure prête à l’emploi, les modèles publics et les services cloud présentent des avantages en termes de coûts et de facilité d’utilisation, les organisations IT doivent aussi peser les atouts du maintien de l’IA en interne pour un meilleur contrôle ou, à l’inverse, la mise en place d’un modèle hybride qui garantisse les bons niveaux de gouvernance, de transparence et de sécurité des données.
Le coût moyen d’un serveur IA est de 32 000 $. « John-David Lovelock, analyste distingué chez Gartner, précise qu’une baie de serveurs IA coûtera plus d’un million de dollars. » Les technologies de stockage sur mémoire flash conçues pour l’IA peuvent également faire grimper la facture. Ajoutez à cela le support et la maintenance de tout cet équipement, qui requiert une équipe IT à plein temps et un centre de données de pointe.
-
Atera
Visit WebsiteThis is an aggregated rating for this tool including ratings from Crozdesk users and ratings from other sites.4.6 -
SuperAnnotate
Visit WebsiteThis is an aggregated rating for this tool including ratings from Crozdesk users and ratings from other sites.4.9 -
Nanonets
Visit WebsiteThis is an aggregated rating for this tool including ratings from Crozdesk users and ratings from other sites.4.9
Utiliser les données d’entreprise avec l’IA
Que vous construisiez votre propre modèle à partir de zéro ou, plus probablement, que vous ajustiez et utilisiez des modèles préexistants, vous avez besoin d’une gestion des données pour fournir à l’IA les bonnes données non structurées. La gestion des données non structurées automatise les flux de travail de données pour l’IA et gère la gouvernance des données d’entreprise, notamment pour les données sensibles.
Les données non structurées, qui représentent selon IDC 90 % de l’ensemble des données, sont généralement dispersées à travers de nombreux silos, et c’est précisément l’une des missions de la gestion des données : faciliter la recherche rapide, l’étiquetage et le transfert des données appropriées vers les modèles IA.
Services cloud pour l’IA
Les principaux fournisseurs cloud proposent des services clés en main pour accompagner l’IA au sein des organisations qui ne peuvent, ou ne souhaitent, gérer la technologie en interne. Les composants vont du stockage rapide et des ressources de calcul jusqu’au machine learning, à l’IA générative et aux outils de développement. Si l’IA dans le cloud présente des atouts financiers évidents – pas besoin d’acheter de serveurs ni de stockage, ni de payer pour la hausse de la consommation d’énergie qui alourdirait l’empreinte de votre data center – il est en revanche facile de surprovisionner et donc de surconsommer – et de dépasser rapidement son budget – dans le cloud. S’ajoute le problème du manque de compétences cloud.
Une stratégie IA dans le cloud peut être à la fois efficace et économique si la gestion des données est maîtrisée. Par exemple, copier des pétaoctets de données non structurées vers le cloud avant d’analyser lesquelles sont vraiment utiles pour l’IA peut faire exploser la facture rapidement.
Il est aussi préférable d’éviter de nourrir une application IA sans nettoyer préalablement vos données : la plupart des organisations possèdent de grandes quantités de données dupliquées, obsolètes ou inutilisées qui devraient être supprimées. Assurez-vous que vos données soient bien structurées — classées et organisées — avant de les transférer, et ne migrez que celles qui sont pertinentes pour votre projet. Il est également judicieux de prendre en compte les enjeux de gouvernance des données dans le cloud.
Sélectionnez des cas d’usage avec un retour sur investissement prévisible et vérifiez que vous pourrez mesurer ultérieurement les résultats. Les exigences de sécurité et de conformité peuvent exclure l’option d’héberger l’IA dans le cloud. Au minimum, il est essentiel de comprendre les risques que court votre donnée dans tout service IA et de savoir comment auditer les projets pour en vérifier la gestion des risques avant de se lancer.
Décisions autour des modèles de machine learning
Les modèles de machine learning populaires comme GPT, Claude, Gemini, TensorFlow et PyTorch s’appuient sur de vastes ensembles de données publiques pour l’entraînement. Toutefois, pour rendre l’IA pertinente et fiable dans les projets d’entreprise visant à améliorer les opérations, la R&D ou la relation client, il est recommandé d’entraîner un modèle avec vos propres données propriétaires et de les garder privées.
L’entraînement et/ou le développement d’un modèle nécessitent des compétences pointues de data scientists maîtrisant les principaux langages de programmation comme Python et R, la modélisation et l’analyse big data, la connaissance des modèles d’apprentissage automatique ainsi que la sécurité et l’informatique en cloud.
Une équipe d’analytique et de science des données ambitieuse et bien financée peut même choisir de développer un modèle à partir de zéro. Les raisons incluent le désir d’un contrôle total sur l’architecture et la sécurité et/ou le besoin de soutenir un projet hautement sensible et concurrentiel. Bien qu’il existe des communautés telles que Hugging Face et OpenAI qui aident à choisir les composants et à collaborer avec d’autres, cela représente un travail colossal. Cela implique de nettoyer et de préparer les données, de sélectionner et d’entraîner des algorithmes, puis d’affiner le modèle pour garantir sa précision et sa fiabilité. Il vous faudra acquérir non seulement l’infrastructure mais aussi une équipe d’ingénieurs pour faire le travail.
En raison des contraintes de ressources de la plupart des organisations, l’utilisation de modèles ML propriétaires ou open source pré-entraînés avec des données d’entreprise est probablement le chemin le plus courant vers l’IA. L’inférence IA est un marché bien plus vaste que l’entraînement IA. Ainsi, les services informatiques investissent de plus en plus dans la création de l’infrastructure de données appropriée pour trouver, organiser, auditer et alimenter les données de l’entreprise dans l’IA, tout en maintenant la gouvernance des données.
L’essor des outils d’IA prêts à l’emploi
L’enquête Komprise a révélé que seulement 30% des organisations ont alloué un budget à l’IA, ce qui implique que 70% expérimentent et recherchent encore la technologie. Et aujourd’hui, cela signifie probablement utiliser des applications à faible coût telles que OpenAI ChatGPT, Anthropic Claude, Microsoft Copilot ou Google Gemini. Les employés de divers départements utilisent ces outils pour répondre à des questions, rédiger des textes, créer des graphismes et des images, ou écrire du code logiciel – à une vitesse éclair et avec des résultats suffisamment satisfaisants.
Ce qui manque, ce sont les normes et les meilleures pratiques reconnues. Quels projets sont sûrs et appropriés pour la GenAI ? Quelles données doivent être utilisées, et lesquelles doivent être protégées de l’ingestion ? Comment les travaux issus de la GenAI doivent-ils être évalués en termes de précision et de légitimité ? Que se passe-t-il si de la propriété intellectuelle ou des données client sont divulguées dans un LLM à usage général ? Comment une entreprise peut-elle se prémunir contre des poursuites pour droit d’auteur ou diffamation liés à des travaux produits par la GenAI ?
Commencez par comprendre votre patrimoine de données en termes de caractéristiques et de volume de données sensibles telles que les informations personnelles identifiables (PII) et la propriété intellectuelle. Cette analyse guidera l’organisation dans l’élaboration de politiques d’utilisation de la GenAI qui régissent les données et les cas d’usage. Vous aurez besoin d’un outil pour surveiller la conformité et enquêter sur les problèmes liés à l’utilisation de la GenAI, le cas échéant.
Pouvez-vous suivre quelles données ont été envoyées vers l’outil d’IA par quel utilisateur ou quel département ? Pouvez-vous identifier et déplacer les données sensibles hors des répertoires où elles peuvent être découvertes et intégrées à un outil d’IA ? Certaines solutions de gestion de données non structurées offrent cette fonctionnalité ; la gouvernance des données d’IA est un domaine en pleine expansion pour éviter les retours de bâton qui peuvent nuire à la confiance, à la fidélité des clients et à la crédibilité sur le marché.
Le besoin de gouvernance GenAI
Étant donné les préoccupations générales du marché à propos de l’IA, sa capacité avérée à générer des erreurs et des hallucinations préjudiciables, le risque de fuite de données d’entreprise dans des LLM à usage général, et le coût du développement et de l’implémentation des technologies d’IA, les responsables informatiques voudront un plan et un processus infaillibles pour évaluer et déployer la pile IA.
Vous souhaitez plus d’informations sur l’IA ? Abonnez-vous à la newsletter de The CTO Club pour recevoir astuces et outils directement dans votre boîte mail !
