Skip to main content

La integración de capacidades de bases de datos vectoriales en bases de datos de código abierto ampliamente utilizadas como PostgreSQL y Apache Cassandra representa un avance significativo para la adopción de la IA en entornos empresariales. 

Pete Lilley, Vicepresidente y Gerente General de NetApp Instaclustr, aporta a la conversación más de 25 años de experiencia en servicios de TI e implementación de soluciones. Con su profundo conocimiento en infraestructuras de datos escalables, Pete comparte perspectivas sobre cómo estos avances de código abierto hacen que la búsqueda vectorial y la Generación Aumentada por Recuperación (RAG) sean una realidad práctica y poderosa para empresas impulsadas por IA.

Estas tecnologías permiten a los CTO acelerar las iniciativas de IA, respaldar el rendimiento de nivel empresarial y abordar las oportunidades y desafíos de incorporar capacidades vectoriales en infraestructuras de datos existentes.

Want more from The CTO Club?

Create a free account to finish this piece and join a community of CTOs and engineering leaders sharing real-world frameworks, tools, and insights for designing, deploying, and scaling AI-driven technology.

Este campo es un campo de validación y debe quedar sin cambios.
Name*
  1. ¿Cómo considera que la integración de capacidades de bases de datos vectoriales en bases de datos de código abierto como PostgreSQL y Apache Cassandra impactará la adopción de tecnologías de IA en entornos empresariales?

La capacidad de aprovechar la búsqueda vectorial utilizando bases de datos de código abierto conocidas como PostgreSQL (con la extensión pgvector), la nueva Apache Cassandra 5.0 y OpenSearch (como un tercer ejemplo) supone un camino más fácil para implementar y escalar iniciativas de IA en empresas. Cada una de estas tecnologías completamente de código abierto—que son tecnologías de código abierto que la mayoría de las empresas ya tienen integradas en su stack—ha evolucionado para proporcionar no solo funciones de búsqueda vectorial de nivel empresarial, que son fundamentales para habilitar la precisión de la IA, sino también la infraestructura de datos subyacente para garantizar que los proyectos de IA prosperen a largo plazo.

Los líderes tecnológicos entienden que necesitan bases de datos vectoriales, pero muchos son cautelosos con la adopción y formación de talento en torno a bases de datos vectoriales propietarias que resultan costosas y fomentan el bloqueo tecnológico. Las alternativas totalmente de código abierto pueden resultar mucho más atractivas, dada la abundancia de expertos, servicios gestionados disponibles y las comunidades de código abierto que rodean cada uno de estos proyectos mencionados. Mientras que las bases de datos vectoriales propietarias implican costos iniciales y pérdida de flexibilidad, las bases de datos vectoriales de código abierto permiten que las empresas inicien proyectos de IA de inmediato y con mayor confianza.

  1. ¿Cuáles son algunas ventajas específicas de implementar Generación Aumentada por Recuperación (RAG) con bases de datos vectoriales de código abierto para casos de uso de IA específicos de la empresa?

En ausencia de una arquitectura RAG y búsqueda vectorial, los LLM empresariales deben recurrir a la tecnología de motores de búsqueda tradicionales para intentar comprender las relaciones entre palabras clave al interpretar las consultas. El resultado suele ser ineficiencia y falta de comprensión contextual, o incluso una total falta de entendimiento del contexto de la consulta, lo que puede provocar alucinaciones en la IA. Si no se cuenta con una manera suficientemente robusta de interpretar la intención contextual de la consulta de un usuario, los proyectos de IA empresariales corren el riesgo de obtener un rendimiento deficiente de los LLM y resultados de baja calidad... si no es que completamente erróneos.

La búsqueda vectorial ofrece un camino superior para alcanzar la comprensión contextual, especialmente cuando está respaldada por una arquitectura RAG que utiliza almacenes de datos vectoriales. Las bases de datos vectoriales almacenan vectores de incrustaciones que asignan datos espaciales a las palabras clave como conjuntos de coordenadas numéricas. Cuanto más cercanos sean esos valores, mayor será la similitud entre dos términos clave. La búsqueda vectorial utiliza estas incrustaciones para focalizar las búsquedas en conjuntos limitados de datos que son más pertinentes para el contexto de la consulta. Ese alcance más reducido permite aprovechar conjuntos de datos masivos de forma más eficiente, lo cual reduce el riesgo de alucinaciones y mejora el rendimiento.

  1. ¿Cuáles son algunos de los principales desafíos a los que podrían enfrentarse los CTO al introducir capacidades de bases de datos vectoriales en su infraestructura de datos existente, y cómo pueden preparar mejor a sus equipos para esta transición?

Los CTO deben anticipar una curva de aprendizaje que sus equipos necesitarán superar antes de que una base de datos vectorial ofrezca las operaciones y el rendimiento rentables que desean. La planificación a largo plazo es fundamental para asegurar que los equipos reciban los recursos y el tiempo necesarios para implementar y optimizar correctamente la base de datos.

Seguir prácticas recomendadas específicas en el manejo de datos también influirá considerablemente en los resultados de los proyectos de IA. Estas deben incluir el uso de datos de alta calidad, el troceado y la incrustación correctos de esos datos, y el uso de metadatos y términos de búsqueda híbridos (combinando métodos de búsqueda tradicionales y vectoriales). Llevar proyectos de IA basados en LLM y búsqueda vectorial desde la etapa de demostración hasta una producción de nivel empresarial requiere dedicación y esfuerzo sostenido. Garantizar que haya talento experimentado en operaciones de bases de datos vectoriales y roles de ciencia de datos—o contar con el apoyo de proveedores de servicios gestionados externos—ayudará a reducir la curva de aprendizaje y a acelerar los proyectos hacia la obtención de resultados significativos.

  1. ¿Cómo visualiza el papel de los servicios gestionados para ayudar a los líderes de TI a implementar y optimizar las capacidades de bases de datos vectoriales, especialmente para aquellos con experiencia interna limitada?

Los servicios gestionados pueden proporcionar a las empresas una vía rápida para poner en marcha su infraestructura de datos inteligente y hacer todo bien a la primera, incluso sin contar con expertos internos en plantilla. Las empresas que utilizan tecnologías open source populares como PostgreSQL, Cassandra 5.0 u OpenSearch no tendrán problemas para encontrar servicios gestionados dispuestos a ayudar a implementar y optimizar sus proyectos de IA mientras reducen algunos de los inconvenientes que los equipos inevitablemente experimentan al orientarse.

  1. De cara al futuro, ¿cómo cree que evolucionará el panorama de las tecnologías de datos impulsadas por IA y qué pasos deberían tomar los CTO ahora para asegurarse de que sus organizaciones estén bien posicionadas ante los próximos avances?

Es casi seguro que la demanda de tecnologías de datos de IA más potentes, flexibles y capaces aumentará en el futuro. Sin duda, los CTO deberían considerar software open source que ya haya demostrado su fiabilidad, escalabilidad, seguridad, eficiencia y permanencia a nivel empresarial, y pensar cómo esas opciones pueden integrarse en la infraestructura de datos inteligente que respalda sus proyectos de IA. Al final del día, elegir las herramientas adecuadas para la capa de datos puede marcar la diferencia a la hora de hacer coincidir la visión de IA empresarial con la realidad de la IA empresarial.

¿Qué viene después?

A medida que las tecnologías impulsadas por IA remodelan la gestión y el análisis de datos, la expansión de las capacidades de búsqueda vectorial en bases de datos open source como PostgreSQL y Apache Cassandra ofrece a las empresas una base accesible y potente para la innovación en IA. 

Aprovechar estas tecnologías con visión estratégica puede permitir que las organizaciones escalen la IA de manera eficaz, mitiguen los desafíos comunes de implementación y aseguren la alineación con los objetivos de IA a largo plazo. 

Al priorizar opciones open source y servicios gestionados que soporten operaciones de bases de datos vectoriales, los CTO pueden preparar su infraestructura para el futuro y posicionar a sus organizaciones para capitalizar la próxima ola de avances en tecnología de datos impulsada por IA.

Suscríbete al boletín de The CTO Club para más información sobre open source.