연구원
Researcher는 Google과 GPT-3를 사용하여 질문에 간결하고 정확하게 답변함으로써 시간을 절약해 줍니다. 인용문이 포함되어 있어 출처를 찾아볼 수 있습니다.
Google이나 GPT만 사용하는 것과는 다른 검색 패러다임입니다. Google을 사용하면 답을 찾기 위해 여러 가지 SEO 스팸 콘텐츠를 스캔해야 합니다. GPT를 사용하면 얻은 답변이 올바른지, 그 답변이 어디서 나온 것인지 확신할 수 없습니다.
연구원은 Google 검색 결과의 관련 섹션을 GPT-3에 제공하여 개요를 생성함으로써 이러한 문제를 해결합니다.
비교
대규모 언어 모델에 웹 컨텍스트를 제공하면 정확성을 높이고 정보를 확인할 수 있습니다. 이 예에서는 ChatGPT의 정보를 확인할 수 있는 방법이 없습니다. 또한 그다지 구체적이지 않습니다. 연구원은 Google의 맥락을 바탕으로 인용된 출처와 보다 구체적인 정보를 제공합니다.
채팅GPT | 연구원 |
---|
| |
스크린샷
기술 Q&A | 추천 |
---|
| |
설치
- 이 저장소를 git으로 복제하세요.
- Python 3.8 이상이 설치되어 있는지 확인하십시오. 12/22 현재, Pytorch는 모든 플랫폼에서 Python 3.11을 지원하지 않으므로 Python 3.10을 권장합니다.
-
cd researcher
실행하여 저장소 폴더로 이동합니다. -
pip install -r requirements.txt
실행하여 필요한 패키지를 설치합니다. -
settings.py
의 OPENAI_KEY
변수에 OpenAI API 키를 입력하세요. -
python app.py
실행하여 애플리케이션을 실행합니다. 기본적으로 포트 5000
에서 실행됩니다. - [선택 사항] 기본적으로 연구원은 Google 검색 결과를 스크랩합니다. 이는 항상 신뢰할 수 있는 것은 아닙니다. 안정성을 높이려면 Google에 맞춤 검색 엔진을 등록한 후 다음을 수행하세요.
-
SEARCH_KEY
변수에 settings.py
의 API 키를 입력하세요. -
SEARCH_ID
에 맞춤검색 엔진 ID를 입력하세요. -
SEARCH_METHOD
api
로 변경합니다.
용법
- 검색 인터페이스를 보려면
http://127.0.0.1:5000
방문하세요. - 검색어를 입력하고 "검색"을 클릭하세요. 질문이 가장 효과적입니다.
- 쿼리에 따라 결과를 얻는 데 10~20초가 걸릴 수 있습니다. 요약과 요약을 생성하는 데 사용된 소스가 표시됩니다.
작동 원리
- 초기 검색결과는 Google에서 가져옵니다.
- 각 사이트는 요청을 사용하여 스크랩됩니다.
- 사이트 HTML은 로컬 sqlite 데이터베이스에 저장됩니다.
- 광고나 추적기가 너무 많은 사이트를 제거하기 위해 결과가 필터링됩니다.
- 각 사이트에서 텍스트 덩어리를 가져와 검색어와 비교하여 순위를 매깁니다.
- 상위 N개의 텍스트 청크는 GPT-3을 사용하여 요약을 생성하는 데 사용됩니다.
- 요약은 이를 생성하는 데 사용된 소스와 함께 표시됩니다.
FAQ
- 이거 돈이 드나요? 이는 크레딧에 따라 비용이 발생할 수 있는 OpenAI API를 사용합니다. 각 쿼리 비용은 약 1/3센트입니다. API 모드를 사용하는 경우 Google 검색에 따라 비용이 발생할 수도 있습니다. Google 맞춤 검색은 하루에 100개의 무료 검색을 제공하며, 그 이후에는 1000개의 검색당 5달러의 비용이 듭니다.
- 결과를 얻는 데 왜 그렇게 오랜 시간이 걸리나요? 연구원은 검색을 실행한 다음 사이트를 스크랩하여 관련 컨텍스트를 얻은 다음 API를 호출하여 컨텍스트를 요약합니다. 이러한 작업은 시간이 오래 걸립니다. 일부 설정을 조정하면 속도가 빨라질 수 있습니다. 특히 청크 길이와 결과 개수.
- 429 오류가 발생하는 이유는 무엇입니까? 기본적으로 연구원은 Google 결과를 스크랩합니다. 이 작업을 너무 자주 수행하면 429 오류가 발생할 수 있습니다. 이를 방지하려면 위에서 설명한 API 모드로 전환하세요.
- 요약을 생성할 수 없다는 오류가 나타나는 이유는 무엇입니까? OpenAI API에 때때로 문제가 발생합니다. 이로 인해 요약이 표시되지 않습니다. 이 문제를 해결하려면 검색을 다시 실행하세요.
향후 개선
- 검색 프로세스 속도 향상
- 최적의 텍스트 청크를 찾기 위한 알고리즘 개선
- GPT-3 대신 자체 호스팅 모델을 사용해 보세요(요약을 위해 PEGASUS 또는 미세 조정된 BLOOM 또는 T5 변형).
- GPT-3으로 전달하기 전에 텍스트 청크를 요약합니다.