Trey Grainger, Doug Turnbull 및 Max Irwin이 쓴 AI 기반 검색 책의 코드 예제입니다. 매닝 출판사에서 출판.
AI 기반 검색은 사용자와 콘텐츠로부터 지속적으로 학습하여 더 많은 도메인 인식 및 지능형 검색을 추진하는 검색 엔진을 구축하는 최신 기계 학습 기술을 가르칩니다.
검색 엔진 기술은 인공 지능(AI)을 통해 빠르게 발전하고 있으며 이러한 혁신의 대부분을 주도하고 있습니다. 크라우드소싱 관련성과 GPT 및 기타 기반 모델과 같은 대규모 언어 모델(LLM)의 통합은 검색 기술의 기능과 기대치를 엄청나게 가속화하고 있습니다.
AI 기반 검색은 다음과 같은 현대적인 데이터 과학 기반 검색 기술을 가르쳐줍니다.
오늘날의 검색 엔진은 스마트하여 자연어 쿼리의 미묘한 차이는 물론 각 사용자의 선호도와 상황을 이해해야 합니다. 이 책을 통해 사용자 상호 작용과 콘텐츠의 숨겨진 의미 관계를 활용하여 자동으로 더 좋고 관련성이 높은 검색 경험을 제공하는 검색 엔진을 구축할 수 있습니다.
설정을 단순화하기 위해 모든 코드는 Jupyter Notebook으로 제공되고 Docker 컨테이너로 패키징됩니다. 즉, Docker를 설치한 다음 책의 Docker 컨테이너를 가져오고(또는 빌드하고) 실행하는 것이 유일하게 필요한 설정입니다. 책의 부록 A에서는 코드 예제 실행에 대한 전체 단계별 지침을 제공하지만 다음을 실행하면 빠르게 시작하고 실행할 수 있습니다.
소스 코드를 로컬로 아직 가져오지 않은 경우 다음을 실행하세요.
git clone https://github.com/treygrainger/ai-powered-search.git
그런 다음 대화형 Jupyter Notebook을 사용하여 코드베이스를 빌드하고 시작하려면 다음을 실행하세요.
cd ai-powered-search
docker compose up
그게 전부입니다! 컨테이너가 빌드되고 실행되면(특히 첫 번째 빌드에서 시간이 걸릴 수 있음) http://localhost:8888
방문하여 환영 노트북을 실행하고 전체의 모든 라이브 코드 예제에 대한 목차를 확인하세요. 책.
AI 기반 검색은 기계 학습 접근 방식을 활용하는 다양한 최신 검색 기술을 가르칩니다. 개념을 설명하기 위해 특정 기술을 활용하지만 대부분의 기술은 많은 최신 검색 엔진 및 벡터 데이터베이스에 적용 가능합니다.
책 전반에 걸쳐 모든 코드 예제는 Python 으로 되어 있으며, PySpark ( Apache Spark 에 대한 Python 인터페이스)는 데이터 처리 작업에 많이 활용됩니다. 책의 예제에서 활용되는 기본 검색 엔진은 Apache Solr 이지만 대부분의 예제는 특정 검색 엔진에서 추상화되었으며 스왑 가능한 구현은 가장 널리 사용되는 검색 엔진 및 벡터 데이터베이스에서 곧 사용할 수 있게 될 것입니다. 검색 엔진 추상화 및 사용자 정의 통합에 대한 자세한 내용은 엔진 설명서를 확인하세요.
전체 목록 보기 : 지원되는 검색 엔진 및 벡터 데이터베이스
[ 참고 : 검색 엔진/벡터 데이터베이스 회사, 프로젝트 또는 호스팅 제공업체에서 근무하며 엔진 지원을 받기 위해 당사와 협력하고 싶다면 [email protected]으로 문의하세요.]
AI 기반 검색을 구매하면 Manning의 LiveBook 포럼에 대한 온라인 액세스가 포함됩니다. 이를 통해 책의 모든 부분에 대해 의견을 제시하고 질문을 할 수 있습니다. 또한 https://github.com/treygrainger/ai-powered-search에서 프로젝트의 공식 Github 리포지토리에 끌어오기 요청, Github 문제 또는 의견을 자유롭게 제출하세요.
이 저장소의 모든 코드는 달리 명시되지 않는 한 Apache 라이센스 버전 2.0(ASL 2.0)에 따른 오픈 소스입니다.
코드를 실행할 때 대체 라이선스를 따르는 추가 종속성을 가져올 수 있으므로 프로젝트에서 사용하기 전에 해당 라이선스를 검사하여 적합한지 확인하세요. 또한 코드는 다양한 라이선스가 적용되는 데이터 세트를 가져올 수 있으며, 그 중 일부는 AI 모델에서 파생될 수 있고 일부는 출판 국가(미국)의 저작권법에 따라 공정 사용 대상이 되는 데이터의 웹 크롤링에서 파생될 수 있습니다. . 이러한 데이터 세트는 책의 개념을 보여주기 위한 목적으로만 "있는 그대로" 게시되며 이러한 데이터 세트 및 관련 라이선스는 시간이 지남에 따라 변경될 수 있습니다.
아직 사본이 없다면 AI 기반 검색 사본을 구입하여 저자와 출판사를 지원하십시오. 이 리포지토리의 코드 예제에 표시된 개념과 기술을 단계별로 안내하여 기술을 더 잘 이해하는 데 도움이 되는 필요한 컨텍스트와 통찰력을 제공합니다.