La startup de l’IA chinoise Deepseek a résolu un problème qui frustra les chercheurs de l’IA depuis plusieurs années. Sa percée dans les modèles de récompense de l’IA pourrait améliorer considérablement la façon dont les systèmes d’IA raisonnent et répondent aux questions.
En partenariat avec les chercheurs de l’Université de Tsinghua, Deepseek a créé une technique détaillée dans un article de recherche, intitulé «Échelle du temps d’inférence pour la modélisation des récompenses généralistes». Il décrit la façon dont une nouvelle approche surpasse les méthodes existantes et comment l’équipe «a obtenu des performances compétitives» par rapport aux modèles de récompense publique solides.
L’innovation se concentre sur l’amélioration de la façon dont les systèmes d’IA apprennent des préférences humaines – un aspect important de la création de l’intelligence artificielle plus utile et alignée.
Que sont les modèles de récompense AI, et pourquoi importent-ils?
Les modèles de récompense AI sont des composants importants de l’apprentissage du renforcement pour les modèles de gros langues. Ils fournissent des signaux de rétroaction qui aident à guider le comportement d’une IA vers les résultats préférés. En termes plus simples, les modèles de récompense sont comme des enseignants numériques qui aident l’IA à comprendre ce que les humains veulent de leurs réponses.
«La modélisation des récompenses est un processus qui guide un LLM vers les préférences humaines», indique le papier Deepseek. La modélisation des récompenses devient importante à mesure que les systèmes d’IA deviennent plus sophistiqués et sont déployés dans des scénarios au-delà des tâches de réponse aux questions simples.
L’innovation de Deepseek relève le défi d’obtenir des signaux de récompense précis pour les LLM dans différents domaines. Bien que les modèles de récompense actuels fonctionnent bien pour des questions vérifiables ou des règles artificielles, elles luttent dans les domaines généraux où les critères sont plus diversifiés et complexes.
La double approche: comment fonctionne la méthode de Deepseek
L’approche de Deepseek combine deux méthodes:
- Modélisation générative des récompenses (GRM): Cette approche permet la flexibilité dans différents types d’entrée et permet la mise à l’échelle pendant le temps d’inférence. Contrairement aux approches scalaires ou semi-scalaires précédentes, GRM fournit une représentation plus riche des récompenses à travers le langage.
- Tuning de la critique auto-impressionnée (SPCT): Une méthode d’apprentissage qui favorise les comportements de génération de récompense évolutifs en GRM par l’apprentissage en ligne, celui qui génère des principes de manière adaptative.
L’un des auteurs de l’article de l’Université Tsinghua et Deepseek-AI, Zijun Liu, a expliqué que la combinaison de méthodes permet de générer des «principes en fonction de la requête et des réponses d’entrée, alignant adaptivement le processus de génération de récompense».
L’approche est particulièrement précieuse pour son potentiel de «mise à l’échelle du temps d’inférence» – améliorant les performances en augmentant les ressources informatiques pendant l’inférence plutôt que pendant la formation.
Les chercheurs ont constaté que leurs méthodes pourraient obtenir de meilleurs résultats avec un échantillonnage accru, permettant aux modèles générer de meilleures récompenses avec plus de calcul.
Implications pour l’industrie de l’IA
L’innovation de Deepseek arrive à un moment important dans le développement de l’IA. L’article indique que «l’apprentissage par renforcement (RL) a été largement adopté dans la formation post-entraînement pour les modèles de grandes langues (…) à grande échelle», conduisant à «des améliorations remarquables de l’alignement de la valeur humaine, du raisonnement à long terme et de l’adaptation de l’environnement pour les LLM».
La nouvelle approche de la modélisation des récompenses pourrait avoir plusieurs implications:
- Rétroaction d’IA plus précise: En créant de meilleurs modèles de récompense, les systèmes d’IA peuvent recevoir des commentaires plus précis sur leurs sorties, conduisant à des réponses améliorées au fil du temps.
- Adaptabilité accrue: La capacité à mettre à l’échelle les performances du modèle pendant l’inférence signifie que les systèmes d’IA peuvent s’adapter à différentes contraintes de calcul et exigences.
- Application plus large: Les systèmes peuvent mieux fonctionner dans une gamme plus large de tâches en améliorant la modélisation des récompenses pour les domaines généraux.
- Utilisation plus efficace des ressources: La recherche montre que la mise à l’échelle du temps d’inférence avec la méthode de Deepseek pourrait surpasser la mise à l’échelle de la taille du modèle en temps de formation, permettant potentiellement aux modèles plus petits de fonctionner de manière comparable à des modèles plus grands avec des ressources de temps d’inférence appropriées.
L’influence croissante de Deepseek
Le dernier développement s’ajoute au profil croissant de Deepseek dans Global IA. Fondée en 2023 par l’entrepreneur Liang Wenfeng, la société basée à Hangzhou a fait des vagues avec ses modèles de raisonnement V3 et R1.
La société a amélioré son modèle V3 (Deepseek-V3-0324), qui, selon la société, a offert «des capacités de raisonnement améliorées, un développement Web frontal optimisé et amélioré la compétence en rédaction chinoise». Deepseek s’est engagé à open source IA, publiant cinq référentiels de code en février qui permettent aux développeurs d’examiner et de contribuer au développement.
Alors que la spéculation se poursuit sur la libération potentielle de Deepseek-R2 (le successeur de R1) – Reuters a spéculé sur d’éventuelles dates de libération – Deepseek n’a pas commenté ses chaînes officielles.
Quelle est la prochaine étape pour les modèles de récompense AI?
Selon les chercheurs, Deepseek a l’intention de faire de la source ouverte des modèles GRM, bien qu’aucune chronologie spécifique n’ait été fournie. Les open source accélèrent les progrès dans le domaine en permettant une expérimentation plus large avec des modèles de récompense.
Alors que l’apprentissage du renforcement continue de jouer un rôle important dans le développement de l’IA, les progrès dans la modélisation des récompenses comme ceux des travaux de Deepseek et de l’Université Tsinghua auront probablement un impact sur les capacités et le comportement des systèmes d’IA.
Les travaux sur les modèles de récompense d’IA démontrent que les innovations dans la façon et le moment où les modèles apprennent peuvent être aussi importants augmenter leur taille. En se concentrant sur la qualité et l’évolutivité de la rétroaction, Deepseek répond à l’un des défis fondamentaux de la création d’une IA qui comprend et s’aligne mieux avec les préférences humaines.