3-파이프라인 설계를 사용하여 이 과정에서 구축하는 방법을 배우게 됩니다 ↓
다음과 같은 교육 파이프라인을 제공합니다.
훈련 파이프라인은 Beam을 서버리스 GPU 인프라로 사용하여 배포 됩니다.
-> modules/training_pipeline
디렉토리에 있습니다.
참고: 최소 하드웨어 요구 사항이 없더라도 걱정하지 마십시오. Beam의 서버리스 인프라에 교육 파이프라인을 배포하고 그곳에서 LLM을 교육하는 방법을 보여 드리겠습니다.
다음과 같은 실시간 기능 파이프라인:
스트리밍 파이프라인은 GitHub 작업에 내장된 CI/CD 파이프라인을 사용하여 AWS EC2 시스템에 자동으로 배포됩니다 .
-> modules/streaming_pipeline
디렉토리 아래에 있습니다.
LangChain을 사용하여 다음과 같은 체인을 생성하는 추론 파이프라인:
추론 파이프라인은 Beam을 서버리스 GPU 인프라, RESTful API로 사용하여 배포 됩니다. 또한 Gradio에서 구현된 데모 목적으로 UI 아래에 래핑되어 있습니다.
-> modules/financial_bot
디렉토리에 있습니다.
참고: 최소 하드웨어 요구 사항이 없더라도 걱정하지 마세요. 추론 파이프라인을 Beam의 서버리스 인프라에 배포하고 거기에서 LLM을 호출하는 방법을 보여드리겠습니다.
우리는 GPT3.5
사용하여 금융 Q&A 데이터 세트를 생성하고 금융 용어 사용 및 금융 질문 답변을 전문으로 하는 오픈 소스 LLM을 미세 조정했습니다. GPT3.5
와 같은 대규모 LLM을 사용하여 더 작은 LLM(예: Falcon 7B)을 교육하는 데이터 세트를 생성하는 것은 증류를 통한 미세 조정 으로 알려져 있습니다.
→ 금융 Q&A 데이터 세트를 생성한 방법을 이해하려면 Pau Labarta가 작성한 이 기사를 확인하세요.
→ 금융 Q&A 데이터세트에 대한 전체 분석을 보려면 Alexandru Razvant가 작성한 과정의 데이터세트_분석 하위 섹션을 확인하세요.
모듈을 시작하기 전에 해당 과정을 위한 몇 가지 추가 외부 도구를 설정해야 합니다.
참고: 우리는 모든 모듈에서 필요한 사항을 알려드릴 것이므로 모든 모듈에 대해 설정할 수 있습니다.
financial news data source
이 문서를 따라 무료 계정을 만들고 이 과정에서 필요한 API 키를 생성하는 방법을 보여주세요.
참고: 1x Alpaca 데이터 연결은 무료입니다.
serverless vector DB
Qdrant로 가서 무료 계정을 만드세요.
그런 다음 이 과정에서 필요한 API 키를 생성하는 방법에 대한 이 문서를 따르세요.
참고: 우리는 Qdrant의 프리미엄 플랜만 사용할 것입니다.
serverless ML platform
Comet ML로 이동하여 무료 계정을 만드세요.
그런 다음 이 가이드에 따라 과정 내에서 필요한 API KEY와 새 프로젝트를 생성하세요.
참고: 우리는 Comet ML의 프리미엄 플랜만 사용합니다.
serverless GPU compute | training & inference pipelines
Beam으로 이동하여 무료 계정을 만드세요.
그런 다음 설치 가이드에 따라 CLI를 설치하고 Beam 자격 증명으로 구성해야 합니다.
Beam에 대해 자세히 알아보려면 여기 소개 가이드를 참조하세요.
참고: 최대 10시간의 무료 컴퓨팅 시간이 제공됩니다. 그 후에는 사용한 만큼만 비용을 지불하면 됩니다. Nvidia GPU가 8GB보다 큰 VRAM을 가지고 있고 훈련 및 추론 파이프라인을 배포하고 싶지 않은 경우 Beam 사용은 선택 사항입니다.
Poetry를 사용할 때 Poetry 가상 환경 내에서 Beam CLI를 찾는 데 문제가 있었습니다. 이 문제를 해결하기 위해 Beam을 설치한 후 다음과 같이 Poetry의 바이너리를 가리키는 심볼릭 링크를 만듭니다.
export COURSE_MODULE_PATH= < your-course-module-path > # e.g., modules/training_pipeline
cd $COURSE_MODULE_PATH
export POETRY_ENV_PATH= $( dirname $( dirname $( poetry run which python ) ) )
ln -s /usr/local/bin/beam ${POETRY_ENV_PATH} /bin/beam
cloud compute | feature pipeline
AWS로 이동하여 계정을 생성하고 자격 증명 쌍을 생성하십시오.
그런 다음 AWS CLI v2.11.22를 다운로드하여 설치하고 자격 증명으로 구성하십시오.
참고: 사용한 만큼만 비용을 지불하면 됩니다. 시간당 ~$0.023
에 불과한 t2.small
EC2 VM만 배포합니다. 기능 파이프라인을 배포하지 않으려면 AWS를 사용하는 것은 선택 사항입니다.
모든 모듈에는 종속성과 스크립트가 있습니다. 프로덕션 설정에서는 모든 모듈에 저장소가 있지만 이 사용 사례에서는 학습 목적으로 모든 것을 한 곳에 보관합니다.
따라서 각 모듈의 README를 개별적으로 확인하여 설치 및 사용 방법을 확인하세요.
이 과정을 최대한 활용하려면 이 저장소를 복제하고 우리가 수행한 모든 작업을 복제할 것을 적극 권장합니다.
각 모듈의 비디오 강의, 기사 및 README 문서에서 단계별 지침을 찾을 수 있습니다.
즐거운 학습!
GitHub 코드(MIT 라이선스로 공개)와 동영상 강의(YouTube에 공개)는 전액 무료입니다. 항상 그럴 것입니다.
미디엄 레슨은 미디엄의 유료 월에 공개됩니다. 이미 가지고 있다면 무료입니다. 그렇지 않으면 기사를 읽으려면 월 5달러의 요금을 지불해야 합니다.
과정 중에 질문이나 문제가 있는 경우 이 저장소에서 필요한 모든 것을 심층적으로 설명할 수 있는 문제를 생성하는 것이 좋습니다.
그렇지 않은 경우 LinkedIn에서 교사에게 문의할 수도 있습니다.
비디오를 보려면 여기를 클릭하세요.
비디오를 보려면 여기를 클릭하세요.
비디오를 보려면 여기를 클릭하세요.
비디오를 보려면 여기를 클릭하세요.
비디오를 보려면 여기를 클릭하세요.
To understand the entire code step-by-step, check out our articles
↓
이 강좌는 MIT 라이선스에 따라 공개된 오픈 소스 프로젝트입니다. 따라서 라이센스를 배포하고 작업을 인정하는 한 이 프로젝트를 안전하게 복제하거나 포크하여 원하는 모든 것(예: 대학 프로젝트, 대학 학위 프로젝트 등)에 대한 영감의 원천으로 사용할 수 있습니다.
파우 라바르타 바조 | 수석 ML 및 MLOps 엔지니어 주요 교사. 비디오 레슨에 나온 남자. 링크드인 트위터/X 유튜브 실제 ML 뉴스레터 실제 ML 사이트 | |
알렉산드루 라즈반트 | 수석 ML 엔지니어 두 번째 요리사. 무대 뒤의 엔지니어. 링크드인 뉴라 도약 | |
폴 유스틴 | 수석 ML 및 MLOps 엔지니어 메인 셰프. 영상 레슨에 갑자기 튀어나오는 녀석들. 링크드인 트위터/X ML 뉴스레터 디코딩 개인 사이트 | ML 및 MLOps 허브 |