Laden Sie eine komplette Website von der Internet Archive Wayback Machine herunter.
Sie müssen Ruby auf Ihrem System installieren (>= 1.9.2) – falls Sie es noch nicht haben. Führen Sie dann Folgendes aus:
gem install wayback_machine_downloader
Tipp: Wenn Sie auf Berechtigungsfehler stoßen, müssen Sie vor diesem Befehl möglicherweise sudo
hinzufügen.
Führen Sie wayback_machine_downloader mit der Basis-URL der Website, die Sie abrufen möchten, als Parameter aus (z. B. http://example.com):
wayback_machine_downloader http://example.com
Die letzte Version jeder auf Wayback Machine vorhandenen Datei wird auf ./websites/example.com/
heruntergeladen. Außerdem wird eine Verzeichnisstruktur neu erstellt und index.html
Seiten automatisch erstellt, um nahtlos mit Apache und Nginx zusammenzuarbeiten. Bei allen heruntergeladenen Dateien handelt es sich um die Originaldateien und nicht um neu geschriebene Versionen von Wayback Machine. Auf diese Weise sind URLs und Linkstruktur dieselben wie zuvor.
Usage: wayback_machine_downloader http://example.com
Download an entire website from the Wayback Machine.
Optional options:
-d, --directory PATH Directory to save the downloaded files into
Default is ./websites/ plus the domain name
-s, --all-timestamps Download all snapshots/timestamps for a given website
-f, --from TIMESTAMP Only files on or after timestamp supplied (ie. 20060716231334)
-t, --to TIMESTAMP Only files on or before timestamp supplied (ie. 20100916231334)
-e, --exact-url Download only the url provided and not the full site
-o, --only ONLY_FILTER Restrict downloading to urls that match this filter
(use // notation for the filter to be treated as a regex)
-x, --exclude EXCLUDE_FILTER Skip downloading of urls that match this filter
(use // notation for the filter to be treated as a regex)
-a, --all Expand downloading to error files (40x and 50x) and redirections (30x)
-c, --concurrency NUMBER Number of multiple files to download at a time
Default is one file at a time (ie. 20)
-p, --maximum-snapshot NUMBER Maximum snapshot pages to consider (Default is 100)
Count an average of 150,000 snapshots per page
-l, --list Only list file urls in a JSON format with the archived timestamps, won't download anything
-d, --directory PATH
Optional. Standardmäßig lädt Wayback Machine Downloader Dateien nach ./websites/
herunter, gefolgt vom Domainnamen der Website. Möglicherweise möchten Sie mit dieser Option Dateien in einem bestimmten Verzeichnis speichern.
Beispiel:
wayback_machine_downloader http://example.com --directory downloaded-backup/
-s, --all-timestamps
Optional. Mit dieser Option werden alle Zeitstempel/Schnappschüsse für eine bestimmte Website heruntergeladen. Als Verzeichnis wird der Zeitstempel jedes Snapshots verwendet.
Beispiel:
wayback_machine_downloader http://example.com --all-timestamps
Will download:
websites/example.com/20060715085250/index.html
websites/example.com/20051120005053/index.html
websites/example.com/20060111095815/img/logo.png
...
-f, --from TIMESTAMP
Optional. Möglicherweise möchten Sie einen Von-Zeitstempel angeben, um Ihr Backup an eine bestimmte Version der Website zu binden. Zeitstempel finden Sie in den URLs der regulären Wayback Machine-Website (z. B. https://web.archive.org/web/20060716231334/http://example.com). Sie können auch Jahre (2006), Jahre + Monat (200607) usw. verwenden. Es kann in Kombination mit „To Timestamp“ verwendet werden. Wayback Machine Downloader ruft dann nur Dateiversionen ab dem angegebenen Zeitstempel ab.
Beispiel:
wayback_machine_downloader http://example.com --from 20060716231334
-t, --to TIMESTAMP
Optional. Möglicherweise möchten Sie einen Zeitstempel angeben, um Ihr Backup an eine bestimmte Version der Website zu binden. Zeitstempel finden Sie in den URLs der regulären Wayback Machine-Website (z. B. https://web.archive.org/web/20100916231334/http://example.com). Sie können auch Jahre (2010), Jahre + Monat (201009) usw. verwenden. Es kann in Kombination mit „From Timestamp“ verwendet werden. Wayback Machine Downloader ruft dann nur Dateiversionen ab dem angegebenen Zeitstempel ab.
Beispiel:
wayback_machine_downloader http://example.com --to 20100916231334
-e, --exact-url
Optional. Wenn Sie nur die Datei abrufen möchten, die genau der angegebenen URL entspricht, können Sie dieses Flag verwenden. Dadurch wird vermieden, dass etwas anderes heruntergeladen wird.
Wenn Sie beispielsweise nur die HTML-Homepage-Datei von example.com herunterladen möchten:
wayback_machine_downloader http://example.com --exact-url
-o, --only ONLY_FILTER
Optional. Möglicherweise möchten Sie Dateien abrufen, die einen bestimmten Typ haben (z. B. .pdf, .jpg, .wrd...) oder sich in einem bestimmten Verzeichnis befinden. Zu diesem Zweck können Sie das Flag --only
mit einer Zeichenfolge oder einem regulären Ausdruck (unter Verwendung der „/regex/“-Notation) versehen, um einzuschränken, welche Dateien Wayback Machine Downloader herunterlädt.
Wenn Sie beispielsweise nur Dateien innerhalb eines bestimmten my_directory
herunterladen möchten:
wayback_machine_downloader http://example.com --only my_directory
Oder wenn Sie alle Bilder ohne weitere Hilfsmittel herunterladen möchten:
wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"
-x, --exclude EXCLUDE_FILTER
Optional. Möglicherweise möchten Sie Dateien abrufen, die nicht von einem bestimmten Typ sind (z. B. .pdf, .jpg, .wrd...) oder sich nicht in einem bestimmten Verzeichnis befinden. Zu diesem Zweck können Sie das Flag --exclude
mit einer Zeichenfolge oder einem regulären Ausdruck (unter Verwendung der „/regex/“-Notation) angeben, um einzuschränken, welche Dateien Wayback Machine Downloader herunterlädt.
Wenn Sie beispielsweise das Herunterladen von Dateien in my_directory
vermeiden möchten:
wayback_machine_downloader http://example.com --exclude my_directory
Oder wenn Sie alles außer Bildern herunterladen möchten:
wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"
-a, --all
Optional. Standardmäßig beschränkt sich Wayback Machine Downloader auf Dateien, die mit dem Code 200 OK geantwortet haben. Wenn Sie auch Fehlerdateien (40x- und 50x-Codes) oder Weiterleitungsdateien (30x-Codes) benötigen, können Sie die Flagge --all
oder -a
verwenden und Wayback Machine Downloader lädt diese zusätzlich zu den 200 OK-Dateien herunter. Außerdem bleiben leere Dateien erhalten, die standardmäßig entfernt werden.
Beispiel:
wayback_machine_downloader http://example.com --all
-l, --list
Es werden lediglich die herunterzuladenden Dateien mit ihren Snapshot-Zeitstempeln und URLs angezeigt. Das Ausgabeformat ist JSON. Es wird nichts heruntergeladen. Dies ist nützlich zum Debuggen oder zum Herstellen einer Verbindung zu einer anderen Anwendung.
Beispiel:
wayback_machine_downloader http://example.com --list
-p, --snapshot-pages NUMBER
Optional. Geben Sie die maximale Anzahl der zu berücksichtigenden Snapshot-Seiten an. Zählen Sie durchschnittlich 150.000 Schnappschüsse pro Seite. 100 ist die standardmäßige maximale Anzahl von Snapshot-Seiten und sollte für die meisten Websites ausreichend sein. Verwenden Sie eine größere Zahl, wenn Sie eine sehr große Website herunterladen möchten.
Beispiel:
wayback_machine_downloader http://example.com --snapshot-pages 300
-c, --concurrency NUMBER
Optional. Geben Sie die Anzahl mehrerer Dateien an, die Sie gleichzeitig herunterladen möchten. Ermöglicht es, den Download einer Website erheblich zu beschleunigen. Standardmäßig wird jeweils eine Datei heruntergeladen.
Beispiel:
wayback_machine_downloader http://example.com --concurrency 20
Als alternative Installationsmöglichkeit bieten wir ein Docker-Image an! Rufen Sie das Docker-Image „wayback-machine-downloader“ auf diese Weise ab:
docker pull hartator/wayback-machine-downloader
Anschließend sollten Sie das Docker-Image zum Herunterladen von Websites verwenden können. Zum Beispiel:
docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com
Beiträge sind willkommen! Senden Sie einfach eine Pull-Anfrage über GitHub.
So führen Sie die Tests aus:
bundle install
bundle exec rake test