Depuis six mois, l’IA générative fait le buzz. Pas un jour ne passe sans que l’on entende parler de ChatGPT et consorts. Cependant les LLM (Large Language Models) ne se limitent pas à répondre aux sujets du baccalauréat, entre autres trivialités. Les entreprises elles aussi commencent à s’emparer du sujet. On peut distinguer trois typologies de sociétés, en fonction de leur niveau de maturité. Les plus avancées ont déjà mis en place leur propre « ChatGPT » interne et l’utilisent principalement sur la partie NLP (Natural Language Processing), dans des outils d’aide à la recherche et à la prise d’information. Viennent ensuite les entreprises qui n’ont pas encore intégré ces modèles et se tournent vers des acteurs traditionnels du marché, à l’instar des grands partenaires d’Open AI. Enfin, certaines entreprises souhaitent développer ce type de modèle tout en conservant leur data privacy et optent donc pour des modèles LLM privés, qui se feront dans des environnements complètement cloisonnés. En d’autres termes, d’ici un an, toutes les entreprises auront leur propre ChatGPT pour l’accès à l’information sur des données internes de manière à rendre le collaborateur le plus efficace possible et les plus avancées auront construit des applications innovantes du type : Assistants virtuels, traduction automatique de contenus audios ou génération de contenus.
« Embeddings » et vecteurs
VMware vient aider les entreprises déjà avancées, ainsi que celles qui veulent déployer leurs LLM sur des clouds privés ou on-premise. Ce qui va être intéressant pour ces organisations, c’est d’être en mesure d’utiliser des modèles open source, à l’instar de ceux fournis par HuggingFace, sur le NLP et la Computer Vision, sans « vendor lock-in ». Ces modèles pré-entraînés, avec des milliards de paramètres (40 Milliards de paramètres et 1,000 milliards de tokens dans le cas de falcon 40b de Hugging Face). Par leur biais, on va être capable de transformer le texte, l’audio ou encore l’image en entrée en « embeddings ». Les « embeddings » sont des séries de nombres qui représentent les caractéristiques des données que le modèle traite et génère. Ils peuvent transformer ainsi le langage naturel en fonctions quantitatives pour les applications d’apprentissage automatique.
Ce sont ces tableaux, ces séries que l’on va stocker dans un format désormais extrêmement répandu, dit « vecteurs », puisque les « embeddings » sont des représentations vectorielles de points de données. Cette base de données doit être capable de gérer ce format embeddings, mais aussi de permettre de rechercher de manière extrêmement rapide quelle que soit la volumétrie. Bien entendu, on parle ici d’immenses volumes de données, surtout non structurées (voix, texte, image, etc.). Aujourd’hui, pour la plupart des entreprises, il reste très compliqué de valoriser ce type d’informations. Des applications existent, mais elles s’avèrent limitées en termes de scalabilité et de coûts.
L’IA générative boostée par l’analytique
C’est là que VMware Greenplum va être pertinent. Cette plateforme de traitement massivement parallèle (Massively Parallel Processing) a été conçue pour l’analytique, l’analytique avancée et le data warehousing, on-premise et dans le cloud. Surtout, elle intègre une extension pour gérer les vecteurs et est bâtie sur Postgres, sans doute le meilleur candidat pour les bases destinées aux LLM, car à usage général et donc capable de stocker aussi bien les métadonnées que les « embeddings » au même endroit. Ajoutons-y les fonctionnalités avancées pour interroger et analyser ces dernières. Car, avec un modèle massivement parallèle, il est possible d’avoir une unique machine comme d’en avoir cent. On peut alors avoir une approche « brute force », qui va consister à scanner l’ensemble des machines à la recherche de l’information utile, ou avoir recours à des index intelligents, ou vectoriels, adaptés à ce type de formats, qui vont accélérer l’accès à la donnée. Ce que permet Postgres et, par extension, VMware Greenplum.
La base la plus avancée pour gérer les « embeddings »
Pour utiliser des modèles comme ceux d’Open AI, il faut des bases capables de supporter ces vecteurs. Il existe évidemment des bases spécialisées, dites vectorielles, sur le marché, mais celles-ci sont davantage fournies sur des bases de données relationnelles liées à des applications transactionnelles, plus que sur des services analytiques. VMware Greenplum va permettre de stocker non seulement ce format vecteur mais aussi l’ensemble des formats de données disponibles en entreprise, structurés et non structurés. Et ainsi permettre d’utiliser ces modèles, de transformer les données en entrée en « embeddings » le plus rapidement possible et d’ingérer le tout dans une base de données dans laquelle il est possible de faire des recherches avancées, par similitude par exemple. D’autant que la solution est multi cloud et permet d’ingérer un volume de data massif, jusqu’à plusieurs pétaoctets. Une scalabilité essentielle à l’heure où les entreprises se penchent sur les LLM et veulent y intégrer l’ensemble de leurs données internes, voire celles de leurs partenaires ou issues des réseaux sociaux, que ce soit pour des questions de satisfaction client ou encore de catalogue de produits.