Unduh seluruh situs web dari Internet Archive Wayback Machine.
Anda perlu menginstal Ruby di sistem Anda (>= 1.9.2) - jika Anda belum memilikinya. Kemudian jalankan:
gem install wayback_machine_downloader
Tip: Jika Anda mengalami kesalahan izin, Anda mungkin harus menambahkan sudo
di depan perintah ini.
Jalankan wayback_machine_downloader dengan url dasar situs web yang ingin Anda ambil sebagai parameter (misalnya, http://example.com):
wayback_machine_downloader http://example.com
Ini akan mengunduh versi terakhir dari setiap file yang ada di Wayback Machine ke ./websites/example.com/
. Ini juga akan membuat ulang struktur direktori dan membuat halaman index.html
secara otomatis agar berfungsi secara lancar dengan Apache dan Nginx. Semua file yang diunduh adalah yang asli dan bukan versi yang ditulis ulang oleh Wayback Machine. Dengan cara ini, struktur URL dan tautan sama seperti sebelumnya.
Usage: wayback_machine_downloader http://example.com
Download an entire website from the Wayback Machine.
Optional options:
-d, --directory PATH Directory to save the downloaded files into
Default is ./websites/ plus the domain name
-s, --all-timestamps Download all snapshots/timestamps for a given website
-f, --from TIMESTAMP Only files on or after timestamp supplied (ie. 20060716231334)
-t, --to TIMESTAMP Only files on or before timestamp supplied (ie. 20100916231334)
-e, --exact-url Download only the url provided and not the full site
-o, --only ONLY_FILTER Restrict downloading to urls that match this filter
(use // notation for the filter to be treated as a regex)
-x, --exclude EXCLUDE_FILTER Skip downloading of urls that match this filter
(use // notation for the filter to be treated as a regex)
-a, --all Expand downloading to error files (40x and 50x) and redirections (30x)
-c, --concurrency NUMBER Number of multiple files to download at a time
Default is one file at a time (ie. 20)
-p, --maximum-snapshot NUMBER Maximum snapshot pages to consider (Default is 100)
Count an average of 150,000 snapshots per page
-l, --list Only list file urls in a JSON format with the archived timestamps, won't download anything
-d, --directory PATH
Opsional. Secara default, Wayback Machine Downloader akan mengunduh file ke ./websites/
diikuti dengan nama domain situs web. Anda mungkin ingin menyimpan file di direktori tertentu menggunakan opsi ini.
Contoh:
wayback_machine_downloader http://example.com --directory downloaded-backup/
-s, --all-timestamps
Opsional. Opsi ini akan mengunduh semua cap waktu/snapshot untuk situs web tertentu. Ini akan menggunakan stempel waktu setiap snapshot sebagai direktori.
Contoh:
wayback_machine_downloader http://example.com --all-timestamps
Will download:
websites/example.com/20060715085250/index.html
websites/example.com/20051120005053/index.html
websites/example.com/20060111095815/img/logo.png
...
-f, --from TIMESTAMP
Opsional. Anda mungkin ingin memberikan stempel waktu dari untuk mengunci cadangan Anda ke versi situs web tertentu. Stempel waktu dapat ditemukan di dalam url situs web Wayback Machine biasa (misalnya https://web.archive.org/web/20060716231334/http://example.com). Anda juga dapat menggunakan tahun (2006), tahun + bulan (200607), dll. Dapat digunakan dalam kombinasi To Timestamp. Wayback Machine Downloader kemudian hanya akan mengambil versi file pada atau setelah stempel waktu yang ditentukan.
Contoh:
wayback_machine_downloader http://example.com --from 20060716231334
-t, --to TIMESTAMP
Opsional. Anda mungkin ingin memberikan stempel waktu untuk mengunci cadangan Anda ke versi situs web tertentu. Stempel waktu dapat ditemukan di dalam url situs web Wayback Machine biasa (misalnya https://web.archive.org/web/20100916231334/http://example.com). Anda juga dapat menggunakan tahun (2010), tahun + bulan (201009), dll. Dapat digunakan dalam kombinasi Dari Stempel Waktu. Wayback Machine Downloader kemudian hanya akan mengambil versi file pada atau sebelum stempel waktu yang ditentukan.
Contoh:
wayback_machine_downloader http://example.com --to 20100916231334
-e, --exact-url
Opsional. Jika Anda hanya ingin mengambil file yang cocok dengan url yang diberikan, Anda dapat menggunakan tanda ini. Ini akan menghindari pengunduhan apa pun.
Misalnya, jika Anda hanya ingin mengunduh file beranda html example.com saja:
wayback_machine_downloader http://example.com --exact-url
-o, --only ONLY_FILTER
Opsional. Anda mungkin ingin mengambil file dengan tipe tertentu (misalnya, .pdf, .jpg, .wrd...) atau berada di direktori tertentu. Untuk melakukannya, Anda dapat memberikan tanda --only
dengan string atau regex (menggunakan notasi '/regex/') untuk membatasi file mana yang akan diunduh oleh Wayback Machine Downloader.
Misalnya, jika Anda hanya ingin mengunduh file di dalam my_directory
tertentu :
wayback_machine_downloader http://example.com --only my_directory
Atau jika Anda ingin mengunduh semua gambar tanpa hal lain:
wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"
-x, --exclude EXCLUDE_FILTER
Opsional. Anda mungkin ingin mengambil file yang bukan tipe tertentu (misalnya, .pdf, .jpg, .wrd...) atau tidak berada dalam direktori tertentu. Untuk melakukannya, Anda dapat menyediakan flag --exclude
dengan string atau regex (menggunakan notasi '/regex/') untuk membatasi file mana yang akan diunduh oleh Wayback Machine Downloader.
Misalnya, jika Anda ingin menghindari pengunduhan file di dalam my_directory
:
wayback_machine_downloader http://example.com --exclude my_directory
Atau jika Anda ingin mendownload semuanya kecuali gambar:
wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"
-a, --all
Opsional. Secara default, Wayback Machine Downloader membatasi dirinya pada file yang merespons dengan 200 kode OK. Jika Anda juga memerlukan file kesalahan (kode 40x dan 50x) atau file pengalihan (kode 30x), Anda dapat menggunakan tanda --all
atau -a
dan Wayback Machine Downloader akan mengunduhnya sebagai tambahan dari 200 file OK. Itu juga akan menyimpan file kosong yang dihapus secara default.
Contoh:
wayback_machine_downloader http://example.com --all
-l, --list
Itu hanya akan menampilkan file yang akan diunduh dengan stempel waktu dan url snapshotnya. Format keluarannya adalah JSON. Itu tidak akan mengunduh apa pun. Ini berguna untuk debugging atau untuk terhubung ke aplikasi lain.
Contoh:
wayback_machine_downloader http://example.com --list
-p, --snapshot-pages NUMBER
Opsional. Tentukan jumlah maksimum halaman snapshot yang akan dipertimbangkan. Hitung rata-rata 150.000 cuplikan per halaman. 100 adalah jumlah maksimum halaman snapshot default dan seharusnya cukup untuk sebagian besar situs web. Gunakan angka yang lebih besar jika Anda ingin mendownload website yang sangat besar.
Contoh:
wayback_machine_downloader http://example.com --snapshot-pages 300
-c, --concurrency NUMBER
Opsional. Tentukan jumlah beberapa file yang ingin Anda unduh secara bersamaan. Memungkinkan seseorang untuk mempercepat pengunduhan situs web secara signifikan. Standarnya adalah mengunduh satu file dalam satu waktu.
Contoh:
wayback_machine_downloader http://example.com --concurrency 20
Sebagai cara instalasi alternatif, kami memiliki image Docker! Ambil gambar Docker wayback-machine-downloader dengan cara ini:
docker pull hartator/wayback-machine-downloader
Kemudian, Anda seharusnya dapat menggunakan image Docker untuk mengunduh situs web. Misalnya:
docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com
Kontribusi dipersilahkan! Cukup kirimkan permintaan tarik melalui GitHub.
Untuk menjalankan tes:
bundle install
bundle exec rake test