Microsoft a récemment ouvert un système de génération d'améliorations de récupération basé sur des graphiques - GraphRAG sur son site officiel. Ce système améliore considérablement les capacités des grands modèles en matière de recherche, de réponse aux questions, de résumé et de raisonnement en créant des graphiques de connaissances d'entité. Contrairement aux limitations des systèmes RAG traditionnels qui s'appuient trop sur la récupération de fragments de texte locaux, GraphRAG peut capturer des connexions et des interactions complexes dans des ensembles de données pour réaliser une récupération globale, et est particulièrement efficace pour traiter des ensembles de données à grande échelle. Son cœur réside dans les deux étapes de création d'un graphe de connaissances d'entité et de génération de résumés communautaires. Il peut extraire efficacement des informations clés via des résumés communautaires et générer des réponses plus complètes et précises. Ce qui est plus remarquable, c’est que la demande de jetons de GraphRAG est extrêmement faible, ce qui constitue sans aucun doute un énorme avantage en termes de coûts pour les développeurs.
Entrée du projet : https://top.aibase.com/tool/graphrag
Lorsqu'ils traitent des sources de données externes, les systèmes RAG traditionnels s'appuient trop sur la récupération de fragments de texte locaux et ne parviennent pas à capturer l'image complète de l'ensemble des données. GraphRAG aide les grands modèles à mieux capturer les connexions et interactions complexes dans le texte en créant des graphiques de connaissances d'entité, obtenant ainsi des capacités de récupération globales.
Le cœur de GraphRAG se compose de deux étapes : la création d'un graphe de connaissances d'entité et la génération de résumés de communauté. Grâce à la synthèse communautaire, GraphRAG est capable d'extraire des informations pertinentes de l'ensemble de données pour générer des réponses plus complètes et précises. De plus, GraphRAG a une très faible demande de jetons, ce qui signifie qu'il peut aider les développeurs à économiser beaucoup de coûts.
Microsoft a effectué un test complet sur GraphRAG sur un ensemble de données comprenant 1 million de jetons et une structure ultra-complexe. Les résultats ont montré que GraphRAG surpassait les méthodes telles que Naive RAG en termes d'exhaustivité et de diversité, et était plus efficace dans la transcription de podcasts et les données d'articles d'actualité. Tous ces ensembles ont fait preuve de normes extrêmement élevées et constituent actuellement l'une des meilleures méthodes RAG.
Points forts:
- GraphRAG améliore la recherche, la réponse aux questions, la synthèse, le raisonnement et d'autres capacités des grands modèles en créant des graphiques de connaissances d'entité, et est particulièrement efficace pour traiter des ensembles de données à grande échelle.
- Le cœur de GraphRAG comprend deux étapes : la création d'un graphe de connaissances d'entité et la génération de résumés de communauté. Les résumés de communauté sont utilisés pour extraire des informations pertinentes dans l'ensemble de données afin de générer des réponses plus complètes et précises.
- GraphRAG a une très faible demande de jetons et peut aider les développeurs à réduire leurs coûts. Il fonctionne bien lors de tests complets et constitue actuellement l’une des meilleures méthodes RAG.
En résumé, GraphRAG a apporté de nouvelles avancées dans le domaine de la génération d'améliorations de récupération grâce à ses excellentes performances dans le traitement d'ensembles de données à grande échelle et à des avantages de coût significatifs, qui méritent une attention et des recherches plus approfondies. Son open source fournit également aux développeurs des ressources et des outils précieux.