Investigador
Researcher le ahorra tiempo al utilizar Google y GPT-3 para responder preguntas de manera concisa y precisa. Incluye citas para que puedas buscar fuentes.
Es un paradigma de búsqueda diferente al uso exclusivo de Google o GPT. Con Google, tienes que escanear varios contenidos de spam SEO para encontrar la respuesta. Con GPT, no puedes estar seguro de si la respuesta que obtuviste es correcta o de dónde vino.
El investigador resuelve estos problemas ingresando secciones relevantes de los resultados de búsqueda de Google en GPT-3 para generar una descripción general.
Comparación
Al introducir contexto web en un modelo de lenguaje grande, puede mejorar la precisión y verificar la información. En este ejemplo, no tienes forma de verificar la información de ChatGPT. Tampoco es muy específico. El investigador le brinda fuentes citadas e información más específica basándose en el contexto de Google.
ChatGPT | Investigador |
---|
| |
Capturas de pantalla
Preguntas y respuestas técnicas | Recomendación |
---|
| |
Instalación
- Clona este repositorio con git.
- Asegúrese de tener Python 3.8+ instalado. A partir del 22/12, Pytorch no es compatible con Python 3.11 en todas las plataformas, por lo que se recomienda Python 3.10.
- Ejecute
cd researcher
para ingresar a la carpeta del repositorio. - Ejecute
pip install -r requirements.txt
para instalar los paquetes necesarios. - Ingrese su clave API de OpenAI en
settings.py
en la variable OPENAI_KEY
. - Ejecute
python app.py
para ejecutar la aplicación. Por defecto se ejecutará en el puerto 5000
. - [Opcional] De forma predeterminada, el investigador eliminará los resultados de búsqueda de Google. Esto no siempre es confiable. Si desea mayor confiabilidad, registre un motor de búsqueda personalizado en Google, luego:
- Ingrese la clave API en
settings.py
en la variable SEARCH_KEY
. - Ingrese el ID del motor de búsqueda personalizado en
SEARCH_ID
. - Cambie
SEARCH_METHOD
a api
.
Uso
- Visite
http://127.0.0.1:5000
para ver la interfaz de búsqueda. - Ingrese una consulta de búsqueda y haga clic en "Buscar". Las preguntas funcionan mejor.
- La obtención de resultados puede tardar entre 10 y 20 segundos, según la consulta. Verá un resumen y las fuentes utilizadas para generar el resumen.
como funciona
- Los resultados de búsqueda iniciales se obtienen de Google.
- Cada uno de los sitios se elimina mediante solicitudes.
- El HTML del sitio se almacena en una base de datos sqlite local.
- Los resultados se filtran para eliminar sitios con demasiados anuncios o rastreadores.
- Se extraen fragmentos de texto de cada sitio y se clasifican según la consulta de búsqueda.
- Los N fragmentos de texto principales se utilizan para generar un resumen usando GPT-3
- El resumen se muestra junto con las fuentes utilizadas para generarlo.
Preguntas frecuentes
- ¿Esto cuesta dinero? Esto utiliza la API OpenAI, que puede costar dinero dependiendo de sus créditos. Cada consulta debería costar alrededor de 1/3 de centavo. Si utiliza el modo API, también puede costar dinero según sus búsquedas en Google. La búsqueda personalizada de Google ofrece 100 búsquedas gratuitas por día, luego costará $5 por cada 1000 consultas.
- ¿Por qué se tarda tanto en obtener resultados? El investigador ejecuta una búsqueda, luego extrae los sitios para obtener el contexto relevante y luego llama a una API para resumir el contexto. Estas operaciones llevan mucho tiempo. Ajustar algunas configuraciones puede acelerar esto. Particularmente la longitud del fragmento y el recuento de resultados.
- ¿Por qué recibo un error 429? De forma predeterminada, el investigador eliminará los resultados de Google. Si hace esto con demasiada frecuencia, puede obtener un error 429. Cambie al modo API (explicado anteriormente) para evitar esto.
- ¿Por qué recibo un error que indica que no se pudo generar el resumen? La API de OpenAI ocasionalmente tendrá un problema. Esto hará que el resumen no se muestre. Simplemente ejecute la búsqueda nuevamente para solucionar este problema.
Mejoras futuras
- Acelera el proceso de búsqueda
- Mejorar el algoritmo para encontrar fragmentos de texto óptimos
- Pruebe un modelo autohospedado en lugar de GPT-3 (quizás PEGASUS para resumir, o una variante BLOOM o T5 ajustada)
- Resumir fragmentos de texto antes de pasar a GPT-3