オープンソースの検索エンジン + Web クローラー。特定の Web サイトまたは Web 全体をキャッシュするために使用できます。これは、Web の特定のサイトを Raspberry Pi にキャッシュし、インターネット アクセスの提供が難しい遠隔地でも情報を自由に利用できるようにするプロジェクトの一部です。
これは進行中の作業であり、非常に初期段階にあるため、実稼働環境での使用には適していません。ただし、単一の Web サイトの場合、この検索エンジンは非常にうまく機能します。
結果
検索エンジンには 2 つのコンポーネントがあります。クローラーとサーバーです。クローラーは Web をクロールし、クロールされたページのコンテンツをサーバーに送り返します。サーバーはこれらのコンテンツをデータベースに保存します。ユーザーが何かを検索したいときはいつでも、サーバーは保存されているコンテンツに対してデータベース検索操作を実行します。
サーバー: PHP7 + MySQL。
クライアント : どこでも実行可能
クローラーフォルダーに main.go ファイルをビルドします: go build main.go
LEMPサーバーをセットアップする
Web サーバー フォルダーの内容をコピーして、Web サーバーをオンラインでセットアップします。
db.sql を MySQL データベースにインポートします。
application/config/database.php に移動して、データベース認証情報を DB サーバーに変更します。
your-server-ip/index.php/Api にアクセスして、動作しているかどうかをテストします。
config.json
ファイル内のリンクをサーバーを指すように変更し、開始 URL も変更します。
クローラーを実行します: ./main ./
。クローラーへの最初の引数は、config.json ファイルを含むディレクトリへのパスです。 (追記: 複数のクローラーを同時に実行できます)
your-server-ip にアクセスして検索ページを表示し、インデックス付けされたページ数の進行状況を確認します。