Dark Side of the Moon Company a publié aujourd'hui un nouveau modèle de pensée visuelle k1, basé sur la technologie d'apprentissage par renforcement et qui a réalisé des avancées significatives dans la compréhension et le raisonnement des images. Le modèle k1 prend non seulement en charge la compréhension des images de bout en bout, mais intègre également la technologie de la chaîne de réflexion, étendant son champ d'application aux domaines scientifiques fondamentaux tels que la physique et la chimie, et surpassant les principaux modèles mondiaux dans de multiples tests de référence. Son innovation réside dans l'intégration de la compréhension des images et de la capacité de réflexion. Les utilisateurs peuvent saisir directement des informations sur les images et obtenir des réponses sans recourir à des outils externes, ce qui améliore considérablement l'efficacité de l'interaction et l'expérience utilisateur.
Dark Side of the Moon a annoncé aujourd'hui la sortie d'un nouveau modèle de pensée visuelle k1. Ce modèle est basé sur une technologie d'apprentissage par renforcement, qui prend non seulement en charge la compréhension des images de bout en bout, mais intègre également la technologie de la chaîne de pensée, étendant ses capacités à des domaines scientifiques plus fondamentaux outre les mathématiques, notamment la physique et la chimie. Lors du test de capacité de référence, le modèle k1 a surpassé les principaux modèles de référence mondiaux, tels que o1 d'OpenAI, GPT-4o et Claude3.5Sonnet.
Le modèle de nouvelle génération stimule la génération d'étapes de raisonnement plus détaillées pour former une chaîne de réflexion de haute qualité, améliorant considérablement le taux de réussite dans la résolution de tâches complexes. L'intégration du modèle k1 de Kimi dans les capacités de compréhension et de réflexion des images offre aux utilisateurs une expérience interactive plus fluide. Il peut traiter directement les informations d'image saisies par l'utilisateur et obtenir des réponses sans recourir à l'OCR externe ou à des modèles visuels supplémentaires.
La formation du modèle k1 est divisée en deux étapes. Premièrement, le modèle de base est obtenu par pré-formation, puis la post-formation par apprentissage par renforcement est effectuée sur cette base. Le modèle de base a obtenu un excellent score de 903 sur OCRBench et des performances exceptionnelles sur les benchmarks MathVista-testmini, MMMU-val et DocVQA. La formation par apprentissage post-renforcement est optimisée en termes de qualité des données et d’efficacité de l’apprentissage, permettant ainsi de nouvelles avancées en termes d’échelle.
Kimi a également construit de manière indépendante un ensemble de tests standardisés, Science Vista, couvrant des questions mathématiques, physiques et chimiques de difficulté variable, et qui sera ouvert à l'ensemble de l'industrie. Bien que le modèle k1 ait montré certaines limites lors des tests internes, telles qu'une marge d'amélioration dans la généralisation hors distribution et le taux de réussite sur des problèmes complexes, ses performances dans les scènes de bruit visuel sont meilleures que celles des autres modèles, montrant une très forte capacité de reconnaissance visuelle.
Le modèle de pensée visuelle k1 de l'assistant intelligent Kimi fonctionne non seulement bien dans le domaine des mathématiques, mais s'étend également aux domaines de la physique et de la chimie, démontrant un large éventail de capacités scientifiques de base. De plus, le modèle k1 a démontré une capacité générale à expliquer et à raisonner sur des problèmes non mathématiques, tels que le contenu et l'histoire des manuscrits des scientifiques.
Kimi Smart Assistant a hâte d'explorer un monde plus vaste avec les utilisateurs. Le nouveau modèle k1 a été lancé. Les utilisateurs peuvent découvrir cette nouvelle fonctionnalité via la dernière version de l'application mobile Kimi Smart Assistant ou la version Web.
Le modèle k1 de Kimi a obtenu de bons résultats dans de nombreux tests de référence, démontrant sa puissante capacité de réflexion visuelle et ses larges perspectives d'application. Bien qu'il reste encore quelques domaines à améliorer, ses avancées en matière de reconnaissance d'images et de réponse aux questions scientifiques apporteront sans aucun doute un nouvel élan de développement au domaine de l'intelligence artificielle. Les utilisateurs sont invités à découvrir la nouvelle expérience interactive apportée par le modèle k1 !