Trey Grainger、Doug Turnbull 和 Max Irwin 所著的《AI-Powered Search 》一书的代码示例。由曼宁出版社出版。
AI 支持的搜索教您最新的机器学习技术来构建搜索引擎,不断向您的用户和内容学习,以推动更多领域感知和智能搜索。
搜索引擎技术正在迅速发展,人工智能 (AI) 推动了大部分创新。众包相关性以及 GPT 等大型语言模型 (LLM) 和其他基础模型的集成正在极大地加速搜索技术的能力和期望。
人工智能驱动的搜索将教您现代的、数据科学驱动的搜索技术,例如:
今天的搜索引擎应该是智能的,能够理解自然语言查询的细微差别,以及每个用户的偏好和上下文。本书使您能够构建搜索引擎,利用用户交互和内容中隐藏的语义关系来自动提供更好、更相关的搜索体验。
为了简化设置,所有代码都在 Jupyter Notebook 中提供并打包在 Docker 容器中。这意味着安装 Docker,然后拉取(或构建)并运行本书的 Docker 容器是唯一必要的设置。本书的附录 A 提供了运行代码示例的完整分步说明,但您可以运行以下命令来快速启动和运行:
如果您尚未在本地提取源代码,请运行:
git clone https://github.com/treygrainger/ai-powered-search.git
然后,要使用交互式 Jupyter 笔记本构建并启动代码库,请运行:
cd ai-powered-search
docker compose up
这就是所需要的一切!容器构建并运行后(这可能需要一段时间,尤其是在第一次构建时),请访问: http://localhost:8888
启动欢迎笔记本并查看整个容器中所有实时代码示例的目录。书。
人工智能驱动的搜索教授许多利用机器学习方法的现代搜索技术。虽然我们利用特定技术来演示概念,但大多数技术适用于许多现代搜索引擎和矢量数据库。
整本书中,所有代码示例均采用Python编写,其中PySpark ( Apache Spark的 Python 接口)大量用于数据处理任务。本书示例使用的默认搜索引擎是Apache Solr ,但大多数示例都是从特定搜索引擎中抽象出来的,并且可交换实现很快将可用于大多数流行的搜索引擎和矢量数据库。有关搜索引擎抽象和自定义集成的更多信息,请查看引擎文档。
查看完整列表:支持的搜索引擎和矢量数据库
[注意:如果您在搜索引擎/矢量数据库公司、项目或托管提供商工作,并希望与我们合作获得您的引擎支持,请联系 [email protected] ]
您购买AI 支持的搜索包括在线访问 Manning 的 LiveBook 论坛。这使您可以对本书的任何部分提供评论并提出问题。此外,请随时提交拉取请求、Github 问题或对项目官方 Github 存储库的评论:https://github.com/treygrainger/ai-powered-search。
除非另有说明,此存储库中的所有代码都是 Apache 许可证版本 2.0 (ASL 2.0) 下的开源代码。
请注意,执行代码时,它可能会提取遵循备用许可证的其他依赖项,因此请务必在项目中使用这些许可证之前检查它们,以确保它们合适。该代码还可能提取受各种许可证约束的数据集,其中一些可能源自人工智能模型,其中一些可能源自根据出版国(美国)版权法合理使用的数据的网络爬行。任何此类数据集均“按原样”发布,其唯一目的是演示书中的概念,并且这些数据集及其相关许可可能会随着时间的推移而发生变化。
如果您还没有副本,请购买AI-Powered Search的副本来支持作者和出版商。它将逐步引导您了解此存储库中的代码示例中显示的概念和技术,提供所需的上下文和见解,以帮助您更好地理解这些技术。