50 Day 2024 Stephan Hadinger AWS Julien Simon Hugging Face

May 28, 2024
Fireside chat entre Julien SIMON, co-fondateur de Hugging Face, et Stephan Hadinger, CTO AWS France, lors de l'événement 50 Day de @50partnersFr du 7 mars 2024. Découvrez les dernières nouveautés des modèles d'IA open source de Hugging Face, et comment ils viennent enrichir les offres d'Amazon Bedrock. Une plongée fascinante dans l'univers prometteur de l'IA accessible à tous.

Transcript

Bonjour à tous ! On était cachés là derrière, donc je n'ai pas vu qui a levé la main, qui n'a pas levé la main. Je vais refaire dans l'autre sens. Qui a déjà utilisé Chajipiti ? Ok, ça va. Donc l'IA générative, ça vous parle. Qui a déjà créé sa propre IA, son propre modèle ? Et qui pense que c'est facile de créer son propre modèle ? Ah, tu es tout seul, Julien. Alors, il y a du boulot. Vas-y. Il y a du boulot. Explique-nous un petit peu. Bonjour à tous. Effectivement, Hugging Face est le promoteur de l'IA open source. Avec Stéphane, aujourd'hui, on va essayer de vous expliquer en quoi l'IA en général, et l'IA open source en particulier, peut vous aider à entraîner vos propres modèles et comment bien le faire sur AWS puisqu'on a la chance d'être partenaire depuis plusieurs années. Oui, et de se connaître aussi. Et de se connaître. Il y a tout un foisonnement autour des modèles. Vous en connaissez certains, même déjà dans les deux semaines précédentes, Mistral a lancé ces nouveaux modèles qui sont disponibles sur Amazon Bedrock. Ce dimanche-là, Anthropic a lancé Cloud3, qui, d'après leurs benchmarks, surperforme GPT-4. Donc il y a toujours cette course à la performance. Mais du coup, ça occulte peut-être aussi un autre aspect. On a ces très larges modèles. Quand je parlais tout à l'heure de créer vos propres modèles, on ne va pas parler de ces modèles à 7 milliards de paramètres et autres où le coût d'apprentissage se chiffre en dizaines de millions d'euros, voire plus. Mais finalement, tout un autre pan qui sont des modèles beaucoup plus petits, essentiellement open source, et sur lequel ça vous donne cette latitude de fine-tuner, de faire quelque chose qui vous ressemble. Et je crois que ce n'est pas si difficile, en tout cas ce n'est pas aussi difficile que certains croient. Non, ce n'est pas aussi difficile que certains croient. Le domaine, effectivement, avance très vite. Il avance très vite sur les modèles commerciaux, les modèles fermés. J'ai l'impression qu'il avance encore plus vite dans le monde de l'open source. Tu peux donner quelques chiffres, peut-être ? Oui, alors sur Hugging Face, sur le site web de Hugging Face qu'on appelle le Hub, aujourd'hui, on héberge plus d'un demi-million de modèles préentraînés. Donc plus de 500 000, on en ajoute des centaines, peut-être même des milliers par jour, le rythme est assez effréné. Des modèles qui sont préentraînés par leurs créateurs, qui peuvent être des grandes entreprises de la tech, des startups, des labos de recherche, des universités. Vous pouvez en quelques secondes télécharger ces modèles et les mettre en œuvre pour un ensemble de tâches comme du traitement du langage naturel, de la traduction, du résumé de texte, des questions-réponses, évidemment, de l'IA générative, des chatbots, mais aussi de la vision artificielle, de la reconnaissance d'images, de la synthèse vocale, de la reconnaissance vocale, la liste est sans fin. Et c'est vraiment cette profusion de modèles, la combinaison de cette profusion de modèles et des outils open source, et en particulier des outils open source de Hugging Face, qui permet à la communauté au sens large, les développeurs, les entreprises, de déployer rapidement des modèles à l'état de l'art. Quand je dis rapidement, ça peut être en quelques heures, en quelques jours, ça dépend à quelle vitesse vous allez en général. Et d'ajouter des capacités d'IA à leurs applications, à des coûts raisonnables, avec des efforts raisonnables, sans avoir besoin d'une équipe de 200 chercheurs. On parle souvent de démocratisation de l'IA, pourquoi pas, je préfère parler de simplification et d'accélération, pour que finalement, quelle que soit la taille de votre organisation, son niveau de maturité, son niveau d'expertise, elle puisse aussi utiliser ces modèles construits par les experts mondiaux, mais de manière simple. On va peut-être revenir un petit peu sur la première expérience, alors que vous soyez dans une startup, dans une grande entreprise, c'est finalement par où on démarre. Et c'est vrai qu'on a cette chance de rencontrer énormément de clients et très souvent il y a cette idée, je vais prendre, je vais choisir un modèle. Et je vais tout résoudre avec ce modèle-là. Je vais vous faire une confession, ça ne marche pas exactement comme ça. Et en fait, on s'aperçoit, on a beaucoup de retours de clients qui ont démarré sur différents, des très larges modèles, qui ont essayé de les utiliser un peu à toutes les sauces. Les résultats ne sont pas forcément aussi spectaculaires qu'ils aimeraient, mais surtout, il y a quelque chose qui vient souvent les mordre à ce moment-là, c'est le prix de la facture. Tu as peut-être quelques... Oui, j'en ai quelques-unes. C'est un thème assez récurrent. Dans la technologie, le mythe du couteau suisse est assez fort. Stéphane et moi sommes encore des jeunes hommes. Mais dans les quelques années qu'on a passées dans la tech, on sait qu'il n'y a pas de couteau suisse. Il n'y a pas de langage universel, de base de données universelle, d'équipement universel, il n'y a pas d'IA et de modèles universels. C'est une tromperie pour être clair. Ça ne marche jamais comme ça. Et effectivement, moi je rencontre aussi beaucoup de clients et j'entends régulièrement : on a essayé de bâtir des solutions avec les modèles d'OpenAI puisque c'était les premières solutions sur le marché, il faut les féliciter pour ça. On a fait des proof of concept, on a découvert notre problème, on a éduqué nos équipes et nos execs sur l'IA, donc tout ça est très positif. On était très contents. Et puis on a voulu passer ce prototype en production en l'ouvrant à des dizaines, des centaines, peut-être même des milliers d'utilisateurs. Et ensuite, on a reçu la facture à la fin du mois. Et étonnamment, le chiffre qui revient souvent, c'est le chiffre de 50 000 dollars. Et alors, on pourrait l'expliquer pourquoi, on n'a pas le temps aujourd'hui, mais effectivement, le coût de ces modèles à l'échelle devient assez vite prohibitif. Et en tout cas, ne vous fournit aucun retour sur investissement. Et donc... C'est très bien de faire de l'IA, encore faut-il savoir pourquoi, et encore faut-il savoir si on veut économiser de l'argent ou si on veut générer du revenu. Mais dans un cas comme dans l'autre, avec de telles factures, il va vous falloir une sacrée innovation pour justifier le coût. Et donc c'est souvent là que les clients se tirent sur la prise et se mettent à réfléchir et se disent : qu'est-ce qu'on peut faire d'autre ? Comment est-ce qu'on peut avoir une expérience utilisateur de très bonne qualité, mais avec des coûts raisonnables et une maîtrise complète de ce qui se passe ? Alors peut-être pour recentrer un petit peu, et je ne suis pas en train de dire qu'il ne faut surtout pas utiliser des très larges modèles, au contraire. Mais en tout cas, ça reste un phénomène itératif, exploratoire, et c'est absolument parfait de commencer par des très grands modèles, des Claude 3, des Mistral, il y en a beaucoup d'autres. Ça permet de dégrossir, ça permet de tester un petit peu. Oui, ils sont très faciles à mettre en œuvre. Très facile. Littéralement, en quelques minutes ou quelques heures, vous avez déjà un prototype qui fonctionne. Ça permet de valider le modèle. Et ensuite, se pose la question de comment passer à l'échelle. Comment ce modèle qu'on a utilisé pour quelques personnes, on va le faire pour potentiellement une entreprise de 100 000 personnes. Et là, on rentre dans cette optimisation. Et c'est là où le fait d'utiliser des modèles plus petits a deux avantages évidents : le premier, c'est que ça coûte moins cher, donc ça devient compatible avec un ROI ; le deuxième, qui est moins connu en général, c'est également qu'ils sont plus rapides. Dans certains cas, on a des exemples, on a un service qui s'appelle Connect de centre d'appel où on fait de l'IA générative pour aller bien sûr faire de la transcription, donc le modèle comprend ce qui est dit et fait aussi de la génération en temps réel de recommandations pour l'agent qui est au téléphone. S'il faut attendre 15 secondes ou 10 secondes que la recommandation arrive, c'est trop tard. La discussion est déjà passée à autre chose. Quels sont tes conseils pour qu'un client fasse cette transition d'un très large modèle à des modèles open source plus ciblés ? Le premier point, c'est d'être très clair sur le cas d'usage. Ça paraît évident, mais le nombre de clients que je peux encore croiser et qui me sortent ma phrase qui est : je veux savoir, je veux voir de quoi la technologie est capable, et encore un peu trop élevée à mon goût, et ça c'est la meilleure façon d'échouer. Donc il faut avoir un objectif clair. On peut se dire : voilà, moi j'ai besoin d'un modèle qui en quasi temps réel, on va dire en 500 millisecondes, est capable de me générer une réponse à une question que me pose un client au téléphone, etc. Quelque chose de cadré, quelque chose de concret, avec une bonne compréhension du domaine. Est-ce qu'on parle du domaine financier ? Est-ce qu'on parle du domaine automobile ? Est-ce qu'on parle d'autre chose ? Quel genre de questions on va poser au modèle ? Avoir une idée du coût qu'on est prêt à supporter, avoir une idée de l'échelle à laquelle on va devoir fonctionner, etc. Il y a un ensemble de paramètres qui sont importants. Ce n'est pas essentiel de tout connaître à la virgule près, mais il faut déjà cadrer ça. Une fois qu'on a ça, on peut commencer à tester les meilleurs modèles open source du marché, si on peut appeler ça un marché. On va les trouver sur Hugging Face. On a d'ailleurs bâti ce qu'on appelle le leaderboard, qui est un classique maintenu en permanence avec les meilleurs modèles, les benchmarks, les performances techniques, etc. Donc ça permet déjà de guider vers le meilleur modèle, mais ça change souvent. Et en fonction de ces différents paramètres, en fonction de mes coûts, en fonction de mon échelle, peut-être que je vais d'abord commencer par des petits modèles parce que peut-être qu'un petit modèle est suffisant pour répondre à des questions hyper ciblées. Voilà, je fais du support client sur des forfaits téléphoniques et je ferai que ça, je vais pas faire de recettes de cuisine, je vais pas faire de questions d'astronomie. Donc assez intuitivement, on comprend que si on a un domaine métier étroit mais sur lequel on a besoin d'énormément de profondeur, on n'aura pas besoin d'un modèle généraliste gigantesque qui lui sera hyper large mais assez peu profond. C'est ça qu'il faut comprendre assez tôt et ensuite expérimenter avec les meilleurs modèles, les tester, les évaluer sur vos données et peut-être à un moment, comme tu le disais au début, les fine-tuner, donc les réentraîner un petit peu sur vos données pour qu'ils comprennent toutes les nuances de vos forfaits, de vos conditions de vente, etc. Et c'est ce process itératif qui permet d'arriver à une solution où on a la meilleure performance du modèle en termes de pertinence et un coût performance technique et donc financier optimisé. Donc j'ai un peu triché tout à l'heure en disant créer son propre modèle. En fait, il s'agit de fine tuning de modèles existants. Mais d'après toi, on peut arriver sur un domaine très précis, au même niveau, voire mieux, qu'un modèle généraliste ? En fait, cette question-là, et on y a répondu depuis juillet-août de l'année dernière. En juillet-août, il y a eu un jalon assez important qui était la sortie du modèle LAMA 2, qui a été publié par Meta, qui fait beaucoup de choses extrêmement intéressantes dans l'IA open source. Et assez vite, on a vu des versions de LAMA 2, y compris des petites versions, donc fine-tunées, donc réentraînées sur des domaines précis. Et on les a vues très vite surperformer GPT 3.5, donc d'OpenAI, voire même, dans certains cas, GPT 4. Donc depuis, voilà. Et beaucoup moins cher, puisque là, on parle de modèles qui font, on va dire, 13 milliards, 30 milliards de paramètres, c'est-à-dire entre 10 et 20 fois plus petits que ce qu'on suppose être GPT 3.5 et GPT 4, puisqu'ils ne le disent pas. Vous pouvez imaginer que quand on travaille avec un modèle qui est littéralement 20 fois plus petit, quand je dis 20 fois plus petit, ça veut dire qu'il occupe 20 fois moins d'espace en mémoire sur votre GPU ou sur votre serveur. Donc forcément, l'économie de coût et la capacité à scaler ce modèle va être importante. Je rebondis sur les GPU. Il y a un peu de tension sur le marché des GPU. Quelqu'un en vend ? Je t'ai déjà entendu parler également de nouveaux algorithmes et de mécanismes de compression. Le CPU n'est pas complètement mort, c'est ça ? Absolument pas ! Nvidia a fait un excellent travail pour convaincre la planète qu'on ne pouvait pas faire d'IA sans GPU. Comme on dit en anglais, we beg to differ. On travaille chez Hugging Face avec des partenaires cloud, AWS étant le plus important pour nous, mais on travaille aussi avec des partenaires hardware, on travaille avec Intel, on travaille avec AMD, on travaille avec d'autres sociétés et on travaille avec eux sur l'optimisation des performances des modèles sur leur plateforme, GPU et CPU. Je vois beaucoup de clients qui font de l'inférence, qui utilisent ces modèles, qui prédisent avec ces modèles sur des plateformes CPU. Pour des cas d'usage où la latence de prédiction est moins sensible, il y a beaucoup de processus qui sont des processus back-office, qui travaillent en mode asynchrone, etc., où finalement il n'y a pas vraiment un utilisateur qui attend la réponse en temps réel. On arrive à des niveaux de coûts performance, parce que la performance elle seule n'a aucun sens, ce qui compte c'est le coût performance. On arrive à des niveaux de coûts performance qui sont vraiment excellents. Et même je dirais dans l'absolu à des niveaux de performance technique, de latence de prédiction qui sont tout à fait corrects. Moi j'ai vu des chatbots qui tombent bien sur CPU parce qu'ils ont effectivement été optimisés, compressés avec des techniques un peu savantes mais qui sont facilitées par nos outils open source. Donc une fois de plus, on a commencé par dire qu'il n'y a pas le modèle couteau suisse, vous savez quoi, il n'y a pas non plus l'accélérateur couteau suisse. Donc il faudra un panel de modèles et il faudra un panel de puces. Alors il faudra des gros GPU. Tu n'as pas cité les puces d'AWS ? Il faudra des grosses puces, ou en tout cas des puces puissantes pour entraîner les modèles, et AWS en a. Il faudra une autre gamme de puces pour prédire, donc faire de l'inférence avec ces modèles. Ça pourra être des GPU, des CPU ou les puces d'AWS, dont Stéphane, je sens, on va nous parler dans 10 secondes. Et puis, il y aura aussi probablement des puces plus petites qui fonctionneront sur vos laptops, sur vos téléphones, etc. Donc voilà, une fois de plus, la technologie ce n'est pas un truc, ce n'est pas une seule solution. Je sais bien qu'on fait du marketing, on essaie de convaincre, mais dans mon monde, dans les tranchées, les choses sont plus complexes. Il y a toujours plein de solutions possibles. Puisque tu me tends une perche, c'est un domaine très actif et je reviens un peu sur les trois points de tout à l'heure, c'est-à-dire les trois grandes questions que les DSI me posent toujours sur l'IA générative. Un, comment vérifier la qualité, la véracité des réponses, faire qu'il n'y ait pas d'hallucination, que ce ne soit pas toxique. Donc la qualité des modèles et surtout du fine-tuning, du prompting-generating, du RAG, il y a beaucoup de technologies pour ça, il y a des solutions. Le deuxième, c'est la sécurité. Alors ça, on a toujours géré ça avec des modèles qui sont isolés, privatisés, et sur lesquels, quel que soit le modèle, que ce soit du Amazon Bedrock, du Hugging Face dans AWS, et ainsi de suite, vos données ne sont qu'à vous, n'appartiennent qu'à vous, ne sont partagées avec personne, et surtout pas avec les créateurs de modèles. Ça, c'est clair, c'est net, c'est précis. Le troisième point, qui est la bonne utilisation des ressources, que ça coûte pas trop cher, c'est un premier aspect. On a aussi 50 partenaires, et aussi que ça ne consomme pas trop d'électricité. C'est absolument vital. Et ce qui est intéressant, c'est que les deux sont fortement corrélés. Si on arrive à baisser la consommation électrique, ça coûte moins cher. Et c'est un domaine où nous sommes aussi très actifs, puisque nous avons deux puces, Inferentia pour l'inférence et Trainium pour l'apprentissage. Notre but avec ces puces, c'est de diviser par deux la consommation électrique par rapport aux puces que tu as citées, et pareil sur le prix. Et ce qui est intéressant, c'est que c'est vraiment un fonctionnement main dans la main à la fois des créateurs de modèles et des algorithmes et de ceux qui font l'électronique pour arriver finalement au meilleur des deux mondes. Peut-être pour terminer, si on revient et pour l'audience, Julien, c'est quoi pour toi le conseil pour bien démarrer ? On a un besoin et finalement, comment ne pas démarrer ? Je l'ai déjà dit tout à l'heure, je veux savoir de quoi la technologie est capable. Vous retournez prendre un café et vous réfléchissez encore un petit peu. La deuxième façon de ne pas démarrer, c'est de réunir un comité de gouvernance d'IA pendant six mois. Ça ne sert à rien. Oui, il y a la régulation. Oui, ça a un certain intérêt, on n'a pas le temps de détailler. Oui, vous devrez cocher un certain nombre de cases si vous êtes soumis à cette régulation, mais ça, c'est un truc à faire en parallèle. Donc, ce qu'il faut faire, c'est commencer à tester ce soir. Donc, vous priorisez avec vos équipes business deux, trois scénarios, et puis vous commencez à regarder des modèles sur étagères qui peuvent être une solution et vous commencez à les tester tout de suite et vous commencez à vous faire un avis sur ce qui marche, ce qui ne marche pas et ensuite quelle est la prochaine étape. Et ça, une fois de plus, pourquoi Hugging Face a un certain succès ? Pourquoi est-ce qu'on a à peu près 100% d'adoption dans la communauté machine learning d'IA ? Tout simplement parce que les outils qu'on construit permettent de télécharger les modèles, de commencer à les tester en quelques minutes. Donc on a notre propre service de déploiement de modèles. Vous pouvez aussi les déployer sur AWS, c'est tout aussi simple. On génère même le code que vous devez exécuter pour les déployer. Donc vous pouvez commencer à tester, à évaluer dans votre bac à sable et à vous faire une idée. Et puis ensuite, voilà, tester différents modèles, et peut-être ensuite commencer à les entraîner, commencer à les spécialiser et avancer, mais de manière concrète. Pas avec des comités de gouvernance ou je ne sais pas quoi. Ça, c'est la machine bureaucratique. Oui, il faudra s'en occuper, mais tant que vous n'avez pas trouvé un ou deux modèles qui sont très prometteurs pour résoudre votre problème, ça ne sert à rien de se poser la question comment on va cocher les cases de la régulation ou comment on va faire plaisir à nos équipes de compliance. Donc ça c'est vraiment la clé. Moi je vois les clients qui échouent, c'est ceux-là. C'est ceux qui tournent en rond parce qu'ils n'ont pas réfléchi vraiment au cas d'usage. Et puis ceux qui veulent faire une stratégie à cinq ans alors qu'ils ont un ou deux mois d'évaluation à commencer tout de suite. Le reste, c'est nous qui nous en occupons avec nos librairies open source et avec nos partenaires. L'an prochain, on revient, il y aura beaucoup plus de bras levés sur l'utilisation d'open source et de modèles. Merci beaucoup. Merci à tous.

Tags

IA générativeModèles open sourceOptimisation de coûtsFine-tuningDémocratisation de l'IA