Les chercheurs scientifiques sont-ils toujours préoccupés par les revues de littérature et la rédaction d’articles ? OpenScholar apporté par l'équipe AI2 pourra peut-être résoudre votre problème ! Ce puissant artefact d'efficacité de la recherche scientifique contient 450 millions d'articles en libre accès et 237 millions d'intégrations de paragraphes d'articles. Il peut gérer efficacement divers problèmes de recherche scientifique et améliorer le mécanisme de raisonnement grâce à une récupération d'auto-rétroaction unique pour améliorer continuellement les réponses jusqu'à ce qu'elle satisfasse vos besoins. OpenScholar est non seulement puissant, mais peut également être utilisé pour former des modèles plus efficaces. Il a surpassé les experts humains lors du test SCHOLARQABENCH, démontrant ainsi son énorme potentiel dans le domaine de la recherche scientifique.
Vous veillez tard pour examiner la littérature ? Vous grattez la tête et rédigez un article ? Ne paniquez pas ! Les experts en recherche scientifique d'AI2 sont là pour vous sauver avec leur dernier chef-d'œuvre OpenScholar. Cet artefact d'efficacité de la recherche scientifique peut rendre la révision de la littérature aussi simple et agréable ! comme se promener dans le parc !
La plus grande arme secrète d'OpenScholar est un système appelé OpenScholar-Datastore (OSDS) avec 450 millions d'articles en libre accès et 237 millions de paragraphes d'articles intégrés. Avec une base de connaissances aussi solide, OpenScholar peut facilement résoudre divers problèmes de recherche scientifique.
Lorsque vous rencontrez un problème de recherche scientifique, OpenScholar enverra d'abord ses outils puissants - le chercheur et le réorganisateur, pour filtrer rapidement les paragraphes d'article liés à votre problème depuis OSDS. Ensuite, un modèle de langage (LM) contient la réponse complète pour la référence. Ce qui est encore plus puissant, c'est qu'OpenScholar continuera d'améliorer les réponses en fonction de vos commentaires en langage naturel et de compléter les informations manquantes jusqu'à ce que vous soyez satisfait.
OpenScholar est non seulement puissant en soi, mais peut également aider à former des modèles plus petits et plus efficaces. Les chercheurs ont utilisé le processus d'OpenScholar pour générer des quantités massives de données de formation de haute qualité, et ont utilisé ces données pour former un modèle de langage de 8 milliards de paramètres appelé OpenScholar-8B, ainsi que d'autres modèles de récupération.
Afin de tester de manière exhaustive l'efficacité au combat d'OpenScholar, les chercheurs ont également spécialement créé une nouvelle arène de test appelée SCHOLARQABENCH. Diverses tâches d'analyse de la littérature scientifique sont mises en place dans ce domaine, notamment la classification fermée, les choix multiples et la génération de formulaires longs, couvrant plusieurs domaines tels que l'informatique, la biomédecine, la physique et les neurosciences. Afin de garantir l'équité et la justice de la concurrence, SCHOLARQABENCH utilise également des méthodes d'évaluation à multiples facettes, notamment l'examen par des experts, des indicateurs automatiques et des tests d'expérience utilisateur.
Après de nombreuses séries de compétitions acharnées, OpenScholar s'est finalement démarqué ! Les résultats expérimentaux ont montré qu'il fonctionnait bien dans diverses tâches, surpassant même les experts humains. Ce résultat révolutionnaire déclenchera sûrement une révolution dans le domaine de la recherche scientifique et permettra aux scientifiques de dire au revoir au dur ! un travail de revue de la littérature, axé sur l'exploration des mystères de la science !
Les fonctions puissantes d’OpenScholar bénéficient principalement de son mécanisme de raisonnement amélioré unique de récupération d’auto-rétroaction. Pour faire simple, il se posera d'abord des questions, puis améliorera continuellement les réponses en fonction de ses propres réponses, et enfin vous présentera la réponse la plus parfaite. N'est-ce pas incroyable ?
Plus précisément, le processus de raisonnement par auto-évaluation d'OpenScholar est divisé en trois étapes : la génération de réponses initiales, la génération de commentaires et l'intégration des commentaires. Tout d’abord, le modèle linguistique génère une réponse initiale basée sur les passages d’articles récupérés. Ensuite, comme un examinateur sévère, il autocritiquera ses réponses, identifiera les lacunes et générera des commentaires en langage naturel, tels que « La réponse ne contient que des résultats expérimentaux sur les tâches de questions et réponses, veuillez compléter d'autres types de résultats de tâches ». . Enfin, le modèle linguistique effectuera une recherche dans la littérature pertinente sur la base de ces commentaires et intégrera toutes les informations pour générer une réponse plus complète.
Afin de former des modèles plus petits mais tout aussi puissants, les chercheurs ont également utilisé le processus d'inférence d'auto-rétroaction d'OpenScholar pour générer de grandes quantités de données de formation de haute qualité. Ils ont d'abord sélectionné les articles les plus cités dans la base de données, puis généré des questions de requête d'informations basées sur les résumés de ces articles, et enfin utilisé le processus d'inférence d'OpenScholar pour générer des réponses de haute qualité. Ces réponses et les informations de retour générées au cours du processus constituent des données de formation précieuses. Les chercheurs ont mélangé ces données avec les données de réglage fin des instructions générales existantes et les données de réglage fin des instructions scientifiques pour former un modèle de langage de 8 milliards de paramètres appelé OpenScholar-8B.
Pour évaluer plus complètement les performances d'OpenScholar et d'autres modèles similaires, les chercheurs ont également créé une nouvelle référence appelée SCHOLARQABENCH. Ce benchmark contient 2 967 questions de revue de la littérature rédigées par des experts couvrant quatre domaines : l'informatique, la physique, la biomédecine et les neurosciences. Chaque question a une longue réponse rédigée par un expert, et en moyenne, chaque réponse prend environ une heure à un expert. SCHOLARQABENCH utilise également une approche d'évaluation à multiples facettes qui combine des mesures automatisées et une évaluation manuelle pour fournir une mesure plus complète de la qualité des réponses générées par le modèle.
Les résultats expérimentaux montrent que les performances d'OpenScholar sur SCHOLARQABENCH dépassent de loin les autres modèles et dépassent même les experts humains dans certains aspects. Par exemple, dans le domaine de l'informatique, le taux de correction d'OpenScholar-8B est 5 % plus élevé que celui de GPT-4o, qui est 5 % plus élevé ! que celui de GPT-4o est 7 % plus élevé. De plus, la précision des citations des réponses générées par OpenScholar est comparable à celle des experts humains, tandis que GPT-4o atteint 78 à 90 % de toutes pièces.
L’émergence d’OpenScholar est sans aucun doute une grande aubaine pour le domaine de la recherche scientifique. Elle peut non seulement aider les chercheurs scientifiques à économiser beaucoup de temps et d’énergie, mais également à améliorer la qualité et l’efficacité des revues de littérature ! Je crois que dans un avenir proche, OpenScholar deviendra un assistant indispensable pour les chercheurs scientifiques !
Adresse papier : https://arxiv.org/pdf/2411.14199
Adresse du projet : https://github.com/AkariAsai/OpenScholar
Dans l’ensemble, OpenScholar a apporté des changements révolutionnaires au travail de recherche scientifique grâce à ses puissantes réserves de données, ses mécanismes de raisonnement innovants et ses excellents résultats de tests. Cela améliorera efficacement l’efficacité de la recherche scientifique et aidera les chercheurs à se concentrer sur des explorations scientifiques plus importantes. Il s’agit d’une avancée majeure dans le domaine de la recherche scientifique.