Trey Grainger、Doug Turnbull、Max Irwin 著『 AI-Powered Search』のコード例。マニング出版より出版。
AI を活用した検索では、ユーザーとコンテンツから継続的に学習して、よりドメインを意識したインテリジェントな検索を推進する検索エンジンを構築するための最新の機械学習手法を学習します。
検索エンジン テクノロジーは急速に進化しており、その革新の多くは人工知能 (AI) によって推進されています。クラウドソーシングによる関連性と、GPT やその他の基盤モデルなどの大規模言語モデル (LLM) の統合により、検索テクノロジーの機能と期待が大幅に加速しています。
AI を活用した検索では、次のような最新のデータ サイエンス主導の検索テクニックを学習できます。
今日の検索エンジンには、自然言語クエリのニュアンスだけでなく、各ユーザーの好みやコンテキストも理解できるスマートな機能が求められています。この本では、ユーザー インタラクションとコンテンツ内の隠れた意味関係を利用して、より適切でより関連性の高い検索エクスペリエンスを自動的に提供する検索エンジンを構築できるようにします。
セットアップを簡単にするために、すべてのコードは Jupyter Notebook に同梱され、Docker コンテナーにパッケージ化されています。これは、Docker をインストールし、書籍の Docker コンテナをプル (またはビルド) して実行することだけが必要なセットアップであることを意味します。この本の付録 A には、コード例を実行するための詳細な手順が記載されていますが、次のコマンドを実行すると、すぐに起動して実行できます。
まだソース コードをローカルにプルしていない場合は、次を実行します。
git clone https://github.com/treygrainger/ai-powered-search.git
次に、インタラクティブな Jupyter ノートブックを使用してコードベースを構築して開始するには、次のコマンドを実行します。
cd ai-powered-search
docker compose up
必要なのはそれだけです!コンテナーがビルドされて実行されたら (特に最初のビルドでは時間がかかる場合があります)、 http://localhost:8888
にアクセスしてウェルカム ノートブックを起動し、コンテナ全体のすべてのライブ コード サンプルの目次を確認してください。本。
AI を活用した検索では、機械学習アプローチを活用した多くの最新の検索テクニックを教えます。概念を実証するために特定のテクノロジーを利用していますが、ほとんどのテクニックは多くの最新の検索エンジンやベクター データベースに適用できます。
この本全体を通じて、すべてのコード例はPythonで示されており、データ処理タスクにはPySpark ( Apache Sparkへの Python インターフェイス) が頻繁に使用されています。この本の例で利用されているデフォルトの検索エンジンはApache Solrですが、ほとんどの例は特定の検索エンジンから抽象化されており、最も一般的な検索エンジンとベクター データベースで交換可能な実装がすぐに利用できるようになる予定です。検索エンジンの抽象化とカスタム統合の詳細については、エンジンのドキュメントを参照してください。
完全なリストを参照: サポートされている検索エンジンとベクター データベース
[注: 検索エンジン / ベクター データベースの会社、プロジェクト、またはホスティング プロバイダーに勤務しており、エンジンのサポートについて当社と協力したい場合は、[email protected] までご連絡ください。
AI-Powered Searchを購入すると、Manning の LiveBook フォーラムへのオンライン アクセスが含まれます。これにより、本のあらゆる部分についてコメントを入力したり、質問したりすることができます。さらに、プル リクエスト、Github の問題、またはプロジェクトの公式 Github リポジトリ (https://github.com/treygranger/ai-powered-search) に遠慮なく送信してください。
このリポジトリ内のすべてのコードは、特に指定がない限り、Apache ライセンス バージョン 2.0 (ASL 2.0) に基づくオープン ソースです。
コードを実行すると、代替ライセンスに従う追加の依存関係が取得される可能性があるため、プロジェクトで使用する前にそれらのライセンスを検査して、それらが適切であることを確認してください。このコードは、さまざまなライセンスの対象となるデータセットを取り込むこともあります。その一部は AI モデルから派生したものであり、一部は出版国 (米国) の著作権法に基づく公正使用の対象となるデータの Web クロールから派生したものである可能性があります。 。このようなデータセットは、本書の概念を説明することのみを目的として「現状のまま」公開されており、これらのデータセットとそれに関連するライセンスは時間の経過とともに変更される可能性があります。
まだコピーをお持ちでない場合は、 AI-Powered Searchのコピーを購入して著者と出版社をサポートしてください。このリポジトリのコード例に示されている概念とテクニックを段階的に説明し、テクニックをより深く理解するのに役立つ必要なコンテキストと洞察を提供します。