Unduh wayback machine downloader - wayback machine downloader Unduh kode sumber

wayback machine downloader

Kode sumber lainnya

2.3.1

Unduh

Pengunduh Mesin Wayback

Unduh seluruh situs web dari Internet Archive Wayback Machine.

Instalasi

Anda perlu menginstal Ruby di sistem Anda (>= 1.9.2) - jika Anda belum memilikinya. Kemudian jalankan:

 gem install wayback_machine_downloader

Tip: Jika Anda mengalami kesalahan izin, Anda mungkin harus menambahkan sudo di depan perintah ini.

Penggunaan Dasar

Jalankan wayback_machine_downloader dengan url dasar situs web yang ingin Anda ambil sebagai parameter (misalnya, http://example.com):

 wayback_machine_downloader http://example.com

Bagaimana cara kerjanya

Ini akan mengunduh versi terakhir dari setiap file yang ada di Wayback Machine ke ./websites/example.com/ . Ini juga akan membuat ulang struktur direktori dan membuat halaman index.html secara otomatis agar berfungsi secara lancar dengan Apache dan Nginx. Semua file yang diunduh adalah yang asli dan bukan versi yang ditulis ulang oleh Wayback Machine. Dengan cara ini, struktur URL dan tautan sama seperti sebelumnya.

Penggunaan Tingkat Lanjut

 Usage: wayback_machine_downloader http://example.com

Download an entire website from the Wayback Machine.

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
				     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provided and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to download at a time
				     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
				     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything

Tentukan direktori untuk menyimpan file

 -d, --directory PATH

Opsional. Secara default, Wayback Machine Downloader akan mengunduh file ke ./websites/ diikuti dengan nama domain situs web. Anda mungkin ingin menyimpan file di direktori tertentu menggunakan opsi ini.

Contoh:

 wayback_machine_downloader http://example.com --directory downloaded-backup/

Semua Stempel Waktu

 -s, --all-timestamps

Opsional. Opsi ini akan mengunduh semua cap waktu/snapshot untuk situs web tertentu. Ini akan menggunakan stempel waktu setiap snapshot sebagai direktori.

Contoh:

 wayback_machine_downloader http://example.com --all-timestamps 

Will download:
	websites/example.com/20060715085250/index.html
	websites/example.com/20051120005053/index.html
	websites/example.com/20060111095815/img/logo.png
	...

Dari Stempel Waktu

 -f, --from TIMESTAMP

Opsional. Anda mungkin ingin memberikan stempel waktu dari untuk mengunci cadangan Anda ke versi situs web tertentu. Stempel waktu dapat ditemukan di dalam url situs web Wayback Machine biasa (misalnya https://web.archive.org/web/20060716231334/http://example.com). Anda juga dapat menggunakan tahun (2006), tahun + bulan (200607), dll. Dapat digunakan dalam kombinasi To Timestamp. Wayback Machine Downloader kemudian hanya akan mengambil versi file pada atau setelah stempel waktu yang ditentukan.

Contoh:

 wayback_machine_downloader http://example.com --from 20060716231334

Ke Stempel Waktu

 -t, --to TIMESTAMP

Opsional. Anda mungkin ingin memberikan stempel waktu untuk mengunci cadangan Anda ke versi situs web tertentu. Stempel waktu dapat ditemukan di dalam url situs web Wayback Machine biasa (misalnya https://web.archive.org/web/20100916231334/http://example.com). Anda juga dapat menggunakan tahun (2010), tahun + bulan (201009), dll. Dapat digunakan dalam kombinasi Dari Stempel Waktu. Wayback Machine Downloader kemudian hanya akan mengambil versi file pada atau sebelum stempel waktu yang ditentukan.

Contoh:

 wayback_machine_downloader http://example.com --to 20100916231334

Url Tepat

 -e, --exact-url

Opsional. Jika Anda hanya ingin mengambil file yang cocok dengan url yang diberikan, Anda dapat menggunakan tanda ini. Ini akan menghindari pengunduhan apa pun.

Misalnya, jika Anda hanya ingin mengunduh file beranda html example.com saja:

 wayback_machine_downloader http://example.com --exact-url

Hanya Filter URL

 -o, --only ONLY_FILTER

Opsional. Anda mungkin ingin mengambil file dengan tipe tertentu (misalnya, .pdf, .jpg, .wrd...) atau berada di direktori tertentu. Untuk melakukannya, Anda dapat memberikan tanda --only dengan string atau regex (menggunakan notasi '/regex/') untuk membatasi file mana yang akan diunduh oleh Wayback Machine Downloader.

Misalnya, jika Anda hanya ingin mengunduh file di dalam my_directory tertentu :

 wayback_machine_downloader http://example.com --only my_directory

Atau jika Anda ingin mengunduh semua gambar tanpa hal lain:

 wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"

Kecualikan Filter URL

 -x, --exclude EXCLUDE_FILTER

Opsional. Anda mungkin ingin mengambil file yang bukan tipe tertentu (misalnya, .pdf, .jpg, .wrd...) atau tidak berada dalam direktori tertentu. Untuk melakukannya, Anda dapat menyediakan flag --exclude dengan string atau regex (menggunakan notasi '/regex/') untuk membatasi file mana yang akan diunduh oleh Wayback Machine Downloader.

Misalnya, jika Anda ingin menghindari pengunduhan file di dalam my_directory :

 wayback_machine_downloader http://example.com --exclude my_directory

Atau jika Anda ingin mendownload semuanya kecuali gambar:

 wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"

Perluas pengunduhan ke semua jenis file

 -a, --all

Opsional. Secara default, Wayback Machine Downloader membatasi dirinya pada file yang merespons dengan 200 kode OK. Jika Anda juga memerlukan file kesalahan (kode 40x dan 50x) atau file pengalihan (kode 30x), Anda dapat menggunakan tanda --all atau -a dan Wayback Machine Downloader akan mengunduhnya sebagai tambahan dari 200 file OK. Itu juga akan menyimpan file kosong yang dihapus secara default.

Contoh:

 wayback_machine_downloader http://example.com --all

Hanya daftar file tanpa mengunduh

 -l, --list

Itu hanya akan menampilkan file yang akan diunduh dengan stempel waktu dan url snapshotnya. Format keluarannya adalah JSON. Itu tidak akan mengunduh apa pun. Ini berguna untuk debugging atau untuk terhubung ke aplikasi lain.

Contoh:

 wayback_machine_downloader http://example.com --list

Jumlah maksimum halaman snapshot yang perlu dipertimbangkan

 -p, --snapshot-pages NUMBER

Opsional. Tentukan jumlah maksimum halaman snapshot yang akan dipertimbangkan. Hitung rata-rata 150.000 cuplikan per halaman. 100 adalah jumlah maksimum halaman snapshot default dan seharusnya cukup untuk sebagian besar situs web. Gunakan angka yang lebih besar jika Anda ingin mendownload website yang sangat besar.

Contoh:

 wayback_machine_downloader http://example.com --snapshot-pages 300

Unduh banyak file sekaligus

 -c, --concurrency NUMBER

Opsional. Tentukan jumlah beberapa file yang ingin Anda unduh secara bersamaan. Memungkinkan seseorang untuk mempercepat pengunduhan situs web secara signifikan. Standarnya adalah mengunduh satu file dalam satu waktu.

Contoh:

 wayback_machine_downloader http://example.com --concurrency 20

Menggunakan gambar Docker

Sebagai cara instalasi alternatif, kami memiliki image Docker! Ambil gambar Docker wayback-machine-downloader dengan cara ini:

 docker pull hartator/wayback-machine-downloader

Kemudian, Anda seharusnya dapat menggunakan image Docker untuk mengunduh situs web. Misalnya:

 docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com

Berkontribusi

Kontribusi dipersilahkan! Cukup kirimkan permintaan tarik melalui GitHub.

Untuk menjalankan tes:

 bundle install
bundle exec rake test

Memperluas

Informasi Tambahan

Versi 2.3.1
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-26
ukuran 15.12KB
Berasal dari Github

Aplikasi Terkait

TikTok Downloader

2024-11-02
Mesin Sumber Daya Manusia

2022-08-27
Mesin Perang

2022-08-16
Mesin Misteri Pembunuhan

2022-08-01
Pengunduh YouTube

2009-05-07
Pengunduh RapidGet

2009-04-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua