Eine Open-Source-Suchmaschine + Webcrawler. Kann zum Zwischenspeichern bestimmter Websites oder des gesamten Webs verwendet werden. Dies ist Teil eines Projekts zum Zwischenspeichern bestimmter Websites im Internet auf einem Raspberry Pi und zur freien Bereitstellung von Informationen in abgelegenen Gebieten, in denen der Internetzugang schwierig ist.
Dies ist eine laufende Arbeit und im Anfangsstadium noch nicht für den Produktionseinsatz geeignet. Für einzelne Websites funktioniert diese Suchmaschine jedoch sehr gut.
Ergebnisse
Die Suchmaschine besteht aus 2 Komponenten; ein Crawler und der Server. Der Crawler crawlt das Web und sendet gecrawlte Seiteninhalte zurück an den Server. Der Server speichert diese Inhalte in einer Datenbank. Wann immer ein Benutzer etwas durchsuchen möchte, führt der Server eine Datenbanksuchoperation über die gespeicherten Inhalte durch.
Server: PHP7 + MySQL.
Client: Läuft überall
Erstellen Sie die Datei main.go im Crawler-Ordner: go build main.go
Richten Sie einen LEMP-Server ein
Richten Sie den Webserver online ein, indem Sie Inhalte aus dem Webserver-Ordner kopieren.
Importieren Sie db.sql in Ihre MySQL-Datenbank.
Gehen Sie zu application/config/database.php, um die Datenbankanmeldeinformationen für Ihren Datenbankserver zu ändern.
Testen Sie, ob es funktioniert, indem Sie your-server-ip/index.php/Api besuchen
Ändern Sie die Links in der Datei config.json
so, dass sie auf Ihren Server verweisen, und ändern Sie auch die Start-URL.
Führen Sie den Crawler aus: ./main ./
. Das erste Argument für den Crawler ist der Pfad zu dem Verzeichnis, das die Datei config.json enthält. (PS: Sie können mehrere Crawler gleichzeitig ausführen)
Besuchen Sie Ihre Server-IP, um die Suchseite anzuzeigen und den Fortschritt der Anzahl der indizierten Seiten zu sehen.