Skip to main content

L'intégration des fonctionnalités de base de données vectorielle dans des bases de données open source largement utilisées comme PostgreSQL et Apache Cassandra représente une avancée majeure pour l'adoption de l'IA dans les environnements d'entreprise. 

Pete Lilley, vice-président et directeur général chez NetApp Instaclustr, met à profit plus de 25 ans d'expérience dans les services informatiques et la mise en œuvre de solutions pour éclairer le sujet. Grâce à sa profonde expertise en infrastructures de données évolutives, Pete partage des perspectives sur la façon dont ces progrès open source rendent la recherche vectorielle et la génération augmentée par la récupération (RAG) concrètes et puissantes pour les entreprises pilotées par l'IA.

Ces technologies permettent aux directeurs techniques d'accélérer les initiatives IA, de garantir des performances de niveau entreprise, et de relever les opportunités et défis liés à l'intégration des fonctionnalités vectorielles dans les infrastructures de données existantes.

Want more from The CTO Club?

Create a free account to finish this piece and join a community of CTOs and engineering leaders sharing real-world frameworks, tools, and insights for designing, deploying, and scaling AI-driven technology.

This field is for validation purposes and should be left unchanged.
Name*
  1. Comment percevez-vous l'impact de l'intégration des capacités de base de données vectorielle dans des bases de données open source populaires telles que PostgreSQL et Apache Cassandra sur l'adoption des technologies IA dans les environnements d'entreprise ?

La possibilité de tirer parti de la recherche vectorielle via des bases de données open source familières comme PostgreSQL (avec l'extension pgvector), la nouvelle Apache Cassandra 5.0, et OpenSearch (comme troisième exemple), signifie un cheminement plus simple pour mettre en place et faire évoluer les initiatives IA en entreprise. Chacune de ces technologies entièrement open source—déjà généralement présentes dans les architectures des entreprises—propose désormais non seulement les capacités de recherche vectorielle de niveau entreprise, essentielles pour garantir la précision de l’IA, mais aussi l’infrastructure de données sous-jacente permettant aux projets IA de prospérer sur le long terme.

Les responsables technologiques savent qu'ils ont besoin de bases de données vectorielles, mais beaucoup hésitent à adopter et à développer des compétences autour de solutions propriétaires, coûteuses et sources d'enfermement technologique. Les alternatives totalement open source sont bien plus attractives, notamment grâce à l'étendue des experts, aux services managés disponibles, ainsi qu’aux communautés open source actives qui entourent ces projets. Là où les bases de données vectorielles propriétaires impliquent des coûts initiaux et une perte de flexibilité, les bases de données vectorielles open source permettent aux entreprises d’agir rapidement et de mener des projets IA avec davantage de confiance.

  1. Quels sont les avantages spécifiques de la mise en œuvre de la génération augmentée par la récupération (RAG) avec des bases de données vectorielles open source pour des cas d'utilisation IA propres à l'entreprise ?

En l’absence d’une architecture RAG et de recherche vectorielle, les LLM d’entreprise doivent s’appuyer sur la technologie des moteurs de recherche traditionnels pour tenter de comprendre les relations entre les mots-clés lors de l’interprétation des requêtes. Le résultat est souvent une inefficacité et un manque de compréhension contextuelle—voire une incompréhension totale du contexte de la requête, pouvant conduire à des hallucinations de l’IA. Sans un moyen suffisamment efficace de comprendre l’intention contextuelle d’une requête utilisateur, les projets IA en entreprise sont exposés à des performances médiocres des LLM et à des résultats de faible qualité… voire à des erreurs catastrophiques.

La recherche vectorielle offre une approche bien plus efficace pour parvenir à une compréhension contextuelle, qui s’avère particulièrement performante lorsqu'elle s’appuie sur une utilisation RAG des magasins de données vectorielles. Les bases de données vectorielles stockent des vecteurs d’embedding qui assignent des données spatiales aux mots-clés sous forme de jeux de coordonnées numériques. Plus ces valeurs sont proches, plus les deux termes le sont aussi. La recherche vectorielle exploite ces embeddings afin de concentrer les recherches sur des ensembles de données limités, les plus pertinents par rapport au contexte de la requête. Ce périmètre réduit permet de traiter d’énormes volumes de données de façon plus efficace. Cela diminue le risque d’hallucination tout en offrant de meilleures performances.

  1. Quels sont les principaux défis auxquels les DSI pourraient faire face lors de l’introduction des fonctionnalités vectorielles dans leur infrastructure de données existante, et comment préparer au mieux leurs équipes à cette transition ?

Les DSI doivent anticiper une courbe d'apprentissage que leurs équipes devront franchir avant d'obtenir des opérations et des performances rentables avec une base de données vectorielle. Une planification à long terme est essentielle pour garantir que les équipes bénéficient des ressources et du temps nécessaires à la bonne mise en œuvre et à l’optimisation continue de la base de données.

Le respect de bonnes pratiques spécifiques de gestion de la donnée influencera également fortement les résultats des projets IA. Cela inclut l'utilisation de données de haute qualité, une segmentation et une vectorisation adéquates de ces données, ainsi que l’exploitation de métadonnées et de recherches hybrides (en combinant recherche traditionnelle et vectorielle). Passer des démonstrations d’IA fondées sur les LLM et la recherche vectorielle à une production de niveau entreprise nécessite engagement et effort soutenu. S’assurer que des talents expérimentés sont présents sur les volets exploitation des bases vectorielles et data science—ou disposer de l’expertise de services managés externes—permettra d’aplanir la courbe d’apprentissage et d’accélérer la livraison de résultats concrets par les projets.

  1. Comment percevez-vous le rôle des services managés dans l’accompagnement des directions informatiques pour implémenter et optimiser les fonctionnalités vectorielles, notamment pour celles qui disposent de peu d’expertise interne ?

Les services managés peuvent offrir aux entreprises une voie rapide pour mettre en place leur infrastructure de données intelligente et faire les choses correctement du premier coup, même sans experts internes. Les entreprises qui utilisent des technologies open source populaires telles que PostgreSQL, Cassandra 5.0 ou OpenSearch n’auront aucune difficulté à trouver des services managés prêts à les aider à implémenter et optimiser leurs projets d’IA tout en réduisant certains des écueils que les équipes rencontrent inévitablement lorsqu’elles prennent leurs marques.

  1. En regardant vers l’avenir, comment pensez-vous que le paysage des technologies de données pilotées par l’IA va évoluer, et quelles mesures les CTO devraient-ils prendre dès maintenant pour s’assurer que leur organisation soit bien positionnée pour les développements futurs ?

La demande croissante pour des technologies de données d’IA plus performantes, plus flexibles et plus puissantes est quasiment inévitable à l’avenir. Les CTO devraient assurément examiner les solutions logicielles open source qui ont déjà fait leurs preuves en matière de fiabilité, d’évolutivité, de sécurité, d’efficacité et de pérennité à l’échelle de l’entreprise, et réfléchir à la manière dont ces options peuvent s’intégrer à l’infrastructure de données intelligente qui soutient leurs projets d’IA. En fin de compte, le choix des bons outils pour la couche données peut faire toute la différence lorsqu’il s’agit de faire correspondre la vision de l’IA d’entreprise à la réalité de l’IA d’entreprise.

Et après

Alors que les technologies pilotées par l’IA transforment la gestion et l’analyse des données, l’expansion des capacités de recherche vectorielle dans les bases de données open source telles que PostgreSQL et Apache Cassandra offre aux entreprises une base accessible et puissante pour l’innovation en IA. 

Exploiter ces technologies avec une vision stratégique peut permettre aux organisations de faire évoluer efficacement l’IA, de limiter les défis courants de l’implémentation et de garantir l’alignement avec les objectifs de long terme en IA. 

En donnant la priorité aux solutions open source et aux services managés qui supportent les opérations sur les bases de données vectorielles, les CTO peuvent pérenniser leur infrastructure et positionner leur organisation pour profiter de la prochaine vague d’innovations en matière de technologies de données et d’IA.

Abonnez-vous à la newsletter de The CTO Club pour encore plus d’actualités sur l’open source.