Meta a récemment publié discrètement six résultats de recherche majeurs sur l'IA, couvrant plusieurs domaines tels que les modèles multimodaux, la musique générée par texte, la technologie de filigrane audio et les ensembles de données, démontrant son innovation continue et sa force technique dans le domaine de l'intelligence artificielle. Ces résultats de recherche offrent non seulement de nouvelles possibilités d’applications dans le domaine de l’IA, mais constituent également une référence précieuse pour les futures orientations du développement technologique. Ces résultats de recherche impressionnants sont décrits en détail ci-dessous.
Récemment, Meta a discrètement publié six résultats de recherche, apportant de nouvelles applications et avancées technologiques dans le domaine de l'IA. Ceux-ci incluent des modèles multimodaux, des modèles musicaux générés par du texte, une technologie de filigrane audio, des ensembles de données et d'autres projets. Jetons un coup d’œil aux résultats spécifiques de ces études.
Meta Caméléon (modèle "Caméléon")
Tout d'abord, le modèle multimodal « Chameleon » publié peut traiter du texte et des images en même temps, prend en charge un texte d'entrée et de sortie mixte et fournit une nouvelle solution pour le traitement des données multimodales.
Alors que la plupart des modèles de fusion avancés actuels utilisent un apprentissage basé sur la diffusion, Meta Chameleon utilise la tokenisation pour le texte et les images. Cela permet une approche plus unifiée et facilite la conception, la maintenance et l’extension des modèles.
Exemples de vidéos : générez des titres créatifs à partir d'images ou utilisez un mélange d'invites de texte et d'images pour créer une scène complètement nouvelle.
Meta publiera désormais publiquement les composants clés des modèles Chameleon7B et 34B sous une licence de recherche. Son modèle actuellement publié est optimisé pour la sécurité, prend en charge la saisie en mode mixte et la sortie de texte brut et peut être utilisé à des fins de recherche. Le responsable a souligné que le modèle de génération d'images Chameleon ne sera pas publié.
Entrée du produit : https://top.aibase.com/tool/meta-chameleon
Prédiction multi-jetons
La nouvelle méthode de formation du modèle de langage « Multi-Token Prediction » vise à améliorer les capacités du modèle et l'efficacité de la formation. Elle entraîne le modèle à prédire plusieurs mots à la fois, améliorant ainsi la précision de prédiction du modèle.
Grâce à cette approche, les modèles linguistiques peuvent être entraînés pour prédire simultanément plusieurs mots futurs, plutôt que la méthode précédente consistant à prédire un mot à la fois. Cela améliore les capacités du modèle et l'efficacité de la formation tout en augmentant la vitesse. Dans l'esprit d'une science ouverte et responsable, des modèles pré-entraînés seront publiés pour la complétion du code sous une licence non commerciale/réservée à la recherche.
Entrée du produit : https://top.aibase.com/tool/multi-token-prediction
Modèle musical de génération de texte "JASCO"
Alors que les modèles de synthèse texte-musique existants tels que MusicGen s'appuient principalement sur la saisie de texte pour générer de la musique, le nouveau modèle de Meta, Meta-Joint Audio and Symbol Conditioning for Temporally Controlled Text-to-Music Generation (JASCO), est capable d'accepter une variété de modèles. de conditions Entrées, telles que des accords ou des rythmes spécifiques, pour améliorer le contrôle de la sortie musicale résultante. Plus précisément, une couche de goulot d'étranglement d'informations peut être utilisée conjointement avec le flou temporel pour extraire des informations pertinentes pour des contrôles spécifiques. Cela permet de combiner simultanément des conditions symboliques et audio dans le même modèle génératif texte-musique.
JASCO est comparable à la référence d'évaluation en termes de qualité de génération tout en permettant un contrôle meilleur et plus flexible sur la musique générée. Les responsables publieront des documents de recherche et des pages d'exemples, et plus tard ce mois-ci, le code d'inférence sera publié dans le cadre du référentiel AudioCraft sous licence MIT, et le modèle pré-entraîné sera publié sous CC-BY-NC.
Entrée du code : https://top.aibase.com/tool/audiocraft
Technologie de filigrane audio "AudioSeal"
Il s'agit de la première technologie de filigrane audio spécialement conçue pour la détection locale de la parole générée par l'IA, permettant une localisation précise des segments générés par l'IA dans des clips audio plus longs. AudioSeal améliore les filigranes audio traditionnels en se concentrant sur la détection du contenu généré par l'IA plutôt que sur la stéganographie.
Contrairement aux méthodes traditionnelles qui reposent sur des algorithmes de décodage complexes, l'approche de détection locale d'AudioSeal permet une détection plus rapide et plus efficace. Cette conception améliore la vitesse de détection de 485 fois par rapport aux méthodes précédentes, ce qui la rend idéale pour les applications à grande échelle et en temps réel. Notre méthode atteint des performances de pointe en termes de robustesse et d’imperceptibilité des filigranes audio.
AudioSeal est publié sous licence commerciale.
Entrée du produit : https://top.aibase.com/tool/audioseal
Ensemble de données PRISM
Dans le même temps, Meta a également publié l'ensemble de données PRISM en coopération avec des partenaires externes, qui contient les données de dialogue et les préférences de 1 500 participants à travers le monde. Il est utilisé pour améliorer les modèles linguistiques à grande échelle, améliorant ainsi la diversité et les préférences du dialogue. diversité et bénéfices sociaux du modèle.
Cet ensemble de données cartographie les préférences et les commentaires précis de chaque personne sur 8 011 conversations en temps réel avec 21 LLM différents.
Entrée de l'ensemble de données : https://huggingface.co/datasets/HannahRoseKirk/prism-alignment
Indicateur « DIG In »
Utilisé pour évaluer les différences géographiques dans les modèles d'images de génération de texte, fournissant ainsi davantage de données de référence pour l'amélioration du modèle. Pour comprendre comment les habitants de différentes régions perçoivent différemment la représentation géographique, Meta a mené une étude d'annotation à grande échelle. Nous avons collecté plus de 65 000 annotations et plus de 20 réponses à des enquêtes pour chaque exemple, couvrant l'attractivité, la similarité, la cohérence et des recommandations partagées pour améliorer l'évaluation automatique et humaine des modèles texte-image.
Entrée du code : https://top.aibase.com/tool/dig-in
La sortie de ces projets a apporté de nouvelles percées technologiques et perspectives d'application dans le domaine de l'IA, et revêt une grande importance pour promouvoir le développement et l'application de la technologie de l'IA.
Dans l'ensemble, les six résultats de recherche sur l'IA publiés cette fois par Meta démontrent sa technologie de pointe et sa disposition avant-gardiste en matière de multimodalité, de génération de texte, de traitement audio et de construction d'ensembles de données. Les progrès de ces technologies favoriseront le développement futur dans le domaine de l’IA et offriront davantage de possibilités pour de futures applications.