gpt automated web scraper
1.0.0
이 프로젝트는 사용자 정의 요구 사항을 기반으로 HTML 소스에서 정보를 추출할 수 있는 AI 기반 웹 스크래퍼입니다. 스크래핑 코드를 생성하고 이를 실행하여 원하는 데이터를 검색합니다.
AI Web Scraper를 실행하기 전에 다음 필수 구성 요소가 설치되어 있는지 확인하세요.
requirements.txt
파일에 지정된 필수 Python 패키지프로젝트 저장소를 복제합니다.
git clone https://github.com/dirkjbreeuwer/gpt-automated-web-scraper
프로젝트 디렉터리로 이동합니다.
cd gpt-automated-web-scraper
필수 Python 패키지를 설치합니다.
pip install -r requirements.txt
OpenAI GPT-4 API 키를 설정합니다.
해당 문서에 따라 OpenAI에서 API 키를 얻으세요.
프로젝트 디렉터리에서 .env.example
이라는 파일의 이름을 .env
로 바꿉니다.
.env
파일에 다음 줄을 추가하고 YOUR_API_KEY
실제 API 키로 바꿉니다.
OPENAI_API_KEY=YOUR_API_KEY
AI Web Scraper를 사용하려면 원하는 명령줄 인수를 사용하여 gpt-scraper.py
스크립트를 실행하세요.
다음 명령줄 인수를 사용할 수 있습니다.
--source
: 스크랩할 HTML 소스의 URL 또는 로컬 경로입니다.--source-type
: 소스 유형입니다. "url"
또는 "file"
지정하십시오.--requirements
: 스크래핑을 위한 사용자 정의 요구 사항입니다.--target-string
: GPT-4(4k 토큰)의 최대 토큰 제한으로 인해 AI 모델은 원하는 데이터가 있는 HTML의 더 작은 하위 집합을 처리합니다. 대상 문자열은 스크랩하려는 웹사이트 내에서 찾을 수 있는 예제 문자열이어야 합니다.다음은 AI Web Scraper 사용에 대한 몇 가지 예시 명령입니다.
python3 gpt-scraper.py --source-type " url " --source " https://www.scrapethissite.com/pages/forms/ " --requirements " Print a JSON file with all the information available for the Chicago Blackhawks " --target-string " Chicago Blackhawks "
--source
, --requirements
및 --target-string
값을 특정 값으로 바꿉니다.
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여됩니다. 필요에 따라 자유롭게 수정하여 사용하시기 바랍니다.