wayback machine downloader Download - wayback machine downloader Quellcode herunterladen

wayback machine downloader

Anderer Quellcode

2.3.1

Herunterladen

Wayback Machine Downloader

Laden Sie eine komplette Website von der Internet Archive Wayback Machine herunter.

Installation

Sie müssen Ruby auf Ihrem System installieren (>= 1.9.2) – falls Sie es noch nicht haben. Führen Sie dann Folgendes aus:

 gem install wayback_machine_downloader

Tipp: Wenn Sie auf Berechtigungsfehler stoßen, müssen Sie vor diesem Befehl möglicherweise sudo hinzufügen.

Grundlegende Verwendung

Führen Sie wayback_machine_downloader mit der Basis-URL der Website, die Sie abrufen möchten, als Parameter aus (z. B. http://example.com):

 wayback_machine_downloader http://example.com

Wie es funktioniert

Die letzte Version jeder auf Wayback Machine vorhandenen Datei wird auf ./websites/example.com/ heruntergeladen. Außerdem wird eine Verzeichnisstruktur neu erstellt und index.html Seiten automatisch erstellt, um nahtlos mit Apache und Nginx zusammenzuarbeiten. Bei allen heruntergeladenen Dateien handelt es sich um die Originaldateien und nicht um neu geschriebene Versionen von Wayback Machine. Auf diese Weise sind URLs und Linkstruktur dieselben wie zuvor.

Erweiterte Nutzung

 Usage: wayback_machine_downloader http://example.com

Download an entire website from the Wayback Machine.

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
				     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provided and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to download at a time
				     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
				     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything

Geben Sie das Verzeichnis an, in dem Dateien gespeichert werden sollen

 -d, --directory PATH

Optional. Standardmäßig lädt Wayback Machine Downloader Dateien nach ./websites/ herunter, gefolgt vom Domainnamen der Website. Möglicherweise möchten Sie mit dieser Option Dateien in einem bestimmten Verzeichnis speichern.

Beispiel:

 wayback_machine_downloader http://example.com --directory downloaded-backup/

Alle Zeitstempel

 -s, --all-timestamps

Optional. Mit dieser Option werden alle Zeitstempel/Schnappschüsse für eine bestimmte Website heruntergeladen. Als Verzeichnis wird der Zeitstempel jedes Snapshots verwendet.

Beispiel:

 wayback_machine_downloader http://example.com --all-timestamps 

Will download:
	websites/example.com/20060715085250/index.html
	websites/example.com/20051120005053/index.html
	websites/example.com/20060111095815/img/logo.png
	...

Vom Zeitstempel

 -f, --from TIMESTAMP

Optional. Möglicherweise möchten Sie einen Von-Zeitstempel angeben, um Ihr Backup an eine bestimmte Version der Website zu binden. Zeitstempel finden Sie in den URLs der regulären Wayback Machine-Website (z. B. https://web.archive.org/web/20060716231334/http://example.com). Sie können auch Jahre (2006), Jahre + Monat (200607) usw. verwenden. Es kann in Kombination mit „To Timestamp“ verwendet werden. Wayback Machine Downloader ruft dann nur Dateiversionen ab dem angegebenen Zeitstempel ab.

Beispiel:

 wayback_machine_downloader http://example.com --from 20060716231334

Zum Zeitstempel

 -t, --to TIMESTAMP

Optional. Möglicherweise möchten Sie einen Zeitstempel angeben, um Ihr Backup an eine bestimmte Version der Website zu binden. Zeitstempel finden Sie in den URLs der regulären Wayback Machine-Website (z. B. https://web.archive.org/web/20100916231334/http://example.com). Sie können auch Jahre (2010), Jahre + Monat (201009) usw. verwenden. Es kann in Kombination mit „From Timestamp“ verwendet werden. Wayback Machine Downloader ruft dann nur Dateiversionen ab dem angegebenen Zeitstempel ab.

Beispiel:

 wayback_machine_downloader http://example.com --to 20100916231334

Genaue URL

 -e, --exact-url

Optional. Wenn Sie nur die Datei abrufen möchten, die genau der angegebenen URL entspricht, können Sie dieses Flag verwenden. Dadurch wird vermieden, dass etwas anderes heruntergeladen wird.

Wenn Sie beispielsweise nur die HTML-Homepage-Datei von example.com herunterladen möchten:

 wayback_machine_downloader http://example.com --exact-url

Nur URL-Filter

 -o, --only ONLY_FILTER

Optional. Möglicherweise möchten Sie Dateien abrufen, die einen bestimmten Typ haben (z. B. .pdf, .jpg, .wrd...) oder sich in einem bestimmten Verzeichnis befinden. Zu diesem Zweck können Sie das Flag --only mit einer Zeichenfolge oder einem regulären Ausdruck (unter Verwendung der „/regex/“-Notation) versehen, um einzuschränken, welche Dateien Wayback Machine Downloader herunterlädt.

Wenn Sie beispielsweise nur Dateien innerhalb eines bestimmten my_directory herunterladen möchten:

 wayback_machine_downloader http://example.com --only my_directory

Oder wenn Sie alle Bilder ohne weitere Hilfsmittel herunterladen möchten:

 wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"

URL-Filter ausschließen

 -x, --exclude EXCLUDE_FILTER

Optional. Möglicherweise möchten Sie Dateien abrufen, die nicht von einem bestimmten Typ sind (z. B. .pdf, .jpg, .wrd...) oder sich nicht in einem bestimmten Verzeichnis befinden. Zu diesem Zweck können Sie das Flag --exclude mit einer Zeichenfolge oder einem regulären Ausdruck (unter Verwendung der „/regex/“-Notation) angeben, um einzuschränken, welche Dateien Wayback Machine Downloader herunterlädt.

Wenn Sie beispielsweise das Herunterladen von Dateien in my_directory vermeiden möchten:

 wayback_machine_downloader http://example.com --exclude my_directory

Oder wenn Sie alles außer Bildern herunterladen möchten:

 wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"

Erweitern Sie den Download auf alle Dateitypen

 -a, --all

Optional. Standardmäßig beschränkt sich Wayback Machine Downloader auf Dateien, die mit dem Code 200 OK geantwortet haben. Wenn Sie auch Fehlerdateien (40x- und 50x-Codes) oder Weiterleitungsdateien (30x-Codes) benötigen, können Sie die Flagge --all oder -a verwenden und Wayback Machine Downloader lädt diese zusätzlich zu den 200 OK-Dateien herunter. Außerdem bleiben leere Dateien erhalten, die standardmäßig entfernt werden.

Beispiel:

 wayback_machine_downloader http://example.com --all

Listen Sie nur Dateien auf, ohne sie herunterzuladen

 -l, --list

Es werden lediglich die herunterzuladenden Dateien mit ihren Snapshot-Zeitstempeln und URLs angezeigt. Das Ausgabeformat ist JSON. Es wird nichts heruntergeladen. Dies ist nützlich zum Debuggen oder zum Herstellen einer Verbindung zu einer anderen Anwendung.

Beispiel:

 wayback_machine_downloader http://example.com --list

Maximale Anzahl der zu berücksichtigenden Snapshot-Seiten

 -p, --snapshot-pages NUMBER

Optional. Geben Sie die maximale Anzahl der zu berücksichtigenden Snapshot-Seiten an. Zählen Sie durchschnittlich 150.000 Schnappschüsse pro Seite. 100 ist die standardmäßige maximale Anzahl von Snapshot-Seiten und sollte für die meisten Websites ausreichend sein. Verwenden Sie eine größere Zahl, wenn Sie eine sehr große Website herunterladen möchten.

Beispiel:

 wayback_machine_downloader http://example.com --snapshot-pages 300

Laden Sie mehrere Dateien gleichzeitig herunter

 -c, --concurrency NUMBER

Optional. Geben Sie die Anzahl mehrerer Dateien an, die Sie gleichzeitig herunterladen möchten. Ermöglicht es, den Download einer Website erheblich zu beschleunigen. Standardmäßig wird jeweils eine Datei heruntergeladen.

Beispiel:

 wayback_machine_downloader http://example.com --concurrency 20

Verwendung des Docker-Images

Als alternative Installationsmöglichkeit bieten wir ein Docker-Image an! Rufen Sie das Docker-Image „wayback-machine-downloader“ auf diese Weise ab:

 docker pull hartator/wayback-machine-downloader

Anschließend sollten Sie das Docker-Image zum Herunterladen von Websites verwenden können. Zum Beispiel:

 docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com

Mitwirken

Beiträge sind willkommen! Senden Sie einfach eine Pull-Anfrage über GitHub.

So führen Sie die Tests aus:

 bundle install
bundle exec rake test

Expandieren

Zusätzliche Informationen

Version 2.3.1
Typ Anderer Quellcode
Aktualisierungszeit 2024-12-26
Größe 15.12KB
Kommt von Github

Ähnliche Anwendungen

TikTok Downloader

2024-11-02
Personalmaschine

2022-08-27
Kriegsmaschine

2022-08-16
Krimi-Maschine

2022-08-01
YouTube-Downloader

2009-05-07
RapidGet-Downloader

2009-04-28

wayback machine downloader