Chercheur
Le chercheur vous fait gagner du temps en utilisant Google et GPT-3 pour répondre aux questions de manière concise et précise. Il comprend des citations afin que vous puissiez rechercher des sources.
Il s'agit d'un paradigme de recherche différent de l'utilisation de Google ou de GPT seuls. Avec Google, vous devez parcourir plusieurs éléments de contenu de spam SEO pour trouver la réponse. Avec GPT, vous ne pouvez pas être sûr si la réponse que vous avez obtenue est correcte ni d'où elle vient.
Le chercheur résout ces problèmes en introduisant les sections pertinentes des résultats de recherche Google dans GPT-3 pour générer un aperçu.
Comparaison
En introduisant le contexte Web dans un grand modèle de langage, vous pouvez améliorer la précision et vérifier les informations. Dans cet exemple, vous n'avez aucun moyen de vérifier les informations de ChatGPT. Ce n'est pas non plus très précis. Le chercheur vous donne des sources citées et des informations plus spécifiques en s'appuyant sur le contexte de Google.
ChatGPT | Chercheur |
---|
| |
Captures d'écran
Questions et réponses techniques | Recommandation |
---|
| |
Installation
- Clonez ce référentiel avec git.
- Assurez-vous que Python 3.8+ est installé. Depuis le 22/12, Pytorch ne prend pas en charge Python 3.11 sur toutes les plates-formes, donc Python 3.10 est recommandé.
- Exécutez
cd researcher
pour accéder au dossier du référentiel. - Exécutez
pip install -r requirements.txt
pour installer les packages nécessaires. - Entrez votre clé API OpenAI dans
settings.py
dans la variable OPENAI_KEY
. - Exécutez
python app.py
pour exécuter l'application. Par défaut, il fonctionnera sur le port 5000
. - [Facultatif] Par défaut, Researcher récupérera les résultats de recherche Google. Ce n'est pas toujours fiable. Si vous souhaitez plus de fiabilité, enregistrez un moteur de recherche personnalisé auprès de Google, puis :
- Entrez la clé API dans
settings.py
dans la variable SEARCH_KEY
. - Saisissez l'ID du moteur de recherche personnalisé dans
SEARCH_ID
. - Remplacez
SEARCH_METHOD
par api
.
Usage
- Visitez
http://127.0.0.1:5000
pour voir l'interface de recherche. - Entrez une requête de recherche et cliquez sur "Rechercher". Les questions fonctionnent mieux.
- L'obtention des résultats peut prendre 10 à 20 secondes, selon la requête. Vous verrez un résumé et les sources utilisées pour générer le résumé.
Comment ça marche
- Les premiers résultats de recherche sont extraits de Google
- Chacun des sites est scrapé à l'aide de requêtes
- Le HTML du site est stocké dans une base de données SQLite locale
- Les résultats sont filtrés pour supprimer les sites contenant trop de publicités ou de trackers
- Des morceaux de texte sont extraits de chaque site et classés par rapport à la requête de recherche
- Les N premiers morceaux de texte sont utilisés pour générer un résumé à l'aide de GPT-3
- Le résumé est affiché avec les sources utilisées pour le générer
FAQ
- Est-ce que cela coûte de l'argent ? Cela utilise l'API OpenAI, qui peut coûter de l'argent en fonction de vos crédits. Chaque requête devrait coûter environ 1/3 de centime. Si vous utilisez le mode API, cela peut également coûter de l'argent en fonction de vos recherches Google. Google Custom Search propose 100 recherches gratuites par jour, cela coûtera alors 5 $ pour 1 000 requêtes.
- Pourquoi faut-il autant de temps pour obtenir des résultats ? Le chercheur effectue une recherche, puis récupère les sites pour obtenir un contexte pertinent, puis appelle une API pour résumer le contexte. Ces opérations prennent beaucoup de temps. L'ajustement de certains paramètres peut accélérer cela. En particulier la longueur des morceaux et le nombre de résultats.
- Pourquoi est-ce que j'obtiens une erreur 429 ? Par défaut, Researcher récupérera les résultats Google. Si vous faites cela trop souvent, vous pouvez obtenir une erreur 429. Passez en mode API (expliqué ci-dessus) pour éviter cela.
- Pourquoi est-ce que j'obtiens une erreur indiquant que le résumé n'a pas pu être généré ? L'API OpenAI aura occasionnellement un problème. Le résumé ne sera alors pas affiché. Exécutez simplement à nouveau la recherche pour résoudre ce problème.
Améliorations futures
- Accélérez le processus de recherche
- Améliorer l'algorithme pour trouver des morceaux de texte optimaux
- Essayez un modèle auto-hébergé au lieu de GPT-3 (peut-être PEGASUS pour le résumé, ou une variante BLOOM ou T5 affinée)
- Résumez les morceaux de texte avant de passer à GPT-3