wayback machine downloader تحميل - wayback machine downloader تحميل كود المصدر

wayback machine downloader

شفرة المصدر الأخرى

2.3.1

تنزيل

تحميل آلة Wayback

قم بتنزيل موقع ويب كاملاً من Internet Archive Wayback Machine.

تثبيت

تحتاج إلى تثبيت Ruby على نظامك (>= 1.9.2) - إذا لم يكن لديك بالفعل. ثم قم بتشغيل:

 gem install wayback_machine_downloader

نصيحة: إذا واجهت أخطاء في الأذونات، فقد يتعين عليك إضافة sudo أمام هذا الأمر.

الاستخدام الأساسي

قم بتشغيل wayback_machine_downloader باستخدام عنوان URL الأساسي لموقع الويب الذي تريد استرداده كمعلمة (على سبيل المثال، http://example.com):

 wayback_machine_downloader http://example.com

كيف يعمل

سيتم تنزيل الإصدار الأخير من كل ملف موجود على Wayback Machine إلى ./websites/example.com/ . كما سيقوم أيضًا بإعادة إنشاء بنية الدليل وإنشاء صفحات index.html تلقائيًا للعمل بسلاسة مع Apache وNginx. جميع الملفات التي تم تنزيلها هي الملفات الأصلية وليست إصدارات Wayback Machine المعاد كتابتها. بهذه الطريقة، تكون بنية عناوين URL والروابط هي نفسها كما كانت من قبل.

الاستخدام المتقدم

 Usage: wayback_machine_downloader http://example.com

Download an entire website from the Wayback Machine.

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
				     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provided and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to download at a time
				     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
				     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything

تحديد الدليل لحفظ الملفات إليه

 -d, --directory PATH

خياري. افتراضيًا، سيقوم Wayback Machine Downloader بتنزيل الملفات إلى ./websites/ متبوعة باسم المجال الخاص بموقع الويب. قد ترغب في حفظ الملفات في دليل محدد باستخدام هذا الخيار.

مثال:

 wayback_machine_downloader http://example.com --directory downloaded-backup/

جميع الطوابع الزمنية

 -s, --all-timestamps

خياري. سيؤدي هذا الخيار إلى تنزيل جميع الطوابع الزمنية/اللقطات لموقع ويب معين. وسوف يستخدم الطابع الزمني لكل لقطة كدليل.

مثال:

 wayback_machine_downloader http://example.com --all-timestamps 

Will download:
	websites/example.com/20060715085250/index.html
	websites/example.com/20051120005053/index.html
	websites/example.com/20060111095815/img/logo.png
	...

من الطابع الزمني

 -f, --from TIMESTAMP

خياري. قد ترغب في توفير طابع زمني من لقفل النسخة الاحتياطية الخاصة بك على إصدار معين من موقع الويب. يمكن العثور على الطوابع الزمنية داخل عناوين URL لموقع Wayback Machine العادي (على سبيل المثال، https://web.archive.org/web/20060716231334/http://example.com). يمكنك أيضًا استخدام السنوات (2006)، والسنوات + الشهر (200607)، وما إلى ذلك. ويمكن استخدامها مع To Timestamp. سيقوم Wayback Machine Downloader بعد ذلك بجلب إصدارات الملفات فقط عند الطابع الزمني المحدد أو بعده.

مثال:

 wayback_machine_downloader http://example.com --from 20060716231334

إلى الطابع الزمني

 -t, --to TIMESTAMP

خياري. قد ترغب في توفير طابع زمني لقفل النسخة الاحتياطية الخاصة بك على إصدار معين من موقع الويب. يمكن العثور على الطوابع الزمنية داخل عناوين URL لموقع Wayback Machine العادي (على سبيل المثال، https://web.archive.org/web/20100916231334/http://example.com). يمكنك أيضًا استخدام السنوات (2010)، والسنوات + الشهر (201009)، وما إلى ذلك. ويمكن استخدامها مع من الطابع الزمني. سيقوم Wayback Machine Downloader بعد ذلك بجلب إصدارات الملفات فقط عند الطابع الزمني المحدد أو قبله.

مثال:

 wayback_machine_downloader http://example.com --to 20100916231334

عنوان URL الدقيق

 -e, --exact-url

خياري. إذا كنت تريد استرداد الملف المطابق تمامًا لعنوان URL المقدم فقط، فيمكنك استخدام هذه العلامة. وسوف تجنب تحميل أي شيء آخر.

على سبيل المثال، إذا كنت تريد فقط تنزيل ملف الصفحة الرئيسية بتنسيق html من example.com:

 wayback_machine_downloader http://example.com --exact-url

مرشح URL فقط

 -o, --only ONLY_FILTER

خياري. قد ترغب في استرداد الملفات التي هي من نوع معين (على سبيل المثال، .pdf، .jpg، .wrd...) أو الموجودة في دليل محدد. للقيام بذلك، يمكنك تزويد العلامة --only بسلسلة أو regex (باستخدام تدوين '/regex/') لتحديد الملفات التي سيقوم Wayback Machine Downloader بتنزيلها.

على سبيل المثال، إذا كنت تريد فقط تنزيل الملفات داخل my_directory محدد:

 wayback_machine_downloader http://example.com --only my_directory

أو إذا كنت تريد تنزيل كل الصور دون أي شيء آخر:

 wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"

استبعاد عامل تصفية URL

 -x, --exclude EXCLUDE_FILTER

خياري. قد ترغب في استرداد الملفات التي ليست من نوع معين (على سبيل المثال، .pdf، .jpg، .wrd...) أو ليست موجودة في دليل محدد. للقيام بذلك، يمكنك تزويد علامة --exclude بسلسلة أو regex (باستخدام تدوين '/regex/') لتحديد الملفات التي سيقوم Wayback Machine Downloader بتنزيلها.

على سبيل المثال، إذا كنت تريد تجنب تنزيل الملفات داخل my_directory :

 wayback_machine_downloader http://example.com --exclude my_directory

أو إذا كنت تريد تنزيل كل شيء باستثناء الصور:

 wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"

قم بتوسيع التنزيل لجميع أنواع الملفات

 -a, --all

خياري. افتراضيًا، يقتصر Wayback Machine Downloader على الملفات التي استجابت برمز 200 OK. إذا كنت بحاجة أيضًا إلى ملفات أخطاء (رموز 40x و50x) أو ملفات إعادة توجيه (رموز 30x)، فيمكنك استخدام علامة --all أو -a وسيقوم Wayback Machine Downloader بتنزيلها بالإضافة إلى 200 ملف OK. وسيحتفظ أيضًا بالملفات الفارغة التي تتم إزالتها افتراضيًا.

مثال:

 wayback_machine_downloader http://example.com --all

قائمة الملفات فقط دون تحميل

 -l, --list

سيعرض فقط الملفات التي سيتم تنزيلها مع الطوابع الزمنية للقطات وعناوين URL الخاصة بها. تنسيق الإخراج هو JSON. لن يتم تنزيل أي شيء. إنه مفيد لتصحيح الأخطاء أو للاتصال بتطبيق آخر.

مثال:

 wayback_machine_downloader http://example.com --list

الحد الأقصى لعدد صفحات اللقطات التي يجب مراعاتها

 -p, --snapshot-pages NUMBER

خياري. حدد الحد الأقصى لعدد صفحات اللقطات التي يجب مراعاتها. قم بحساب ما متوسطه 150.000 لقطة لكل صفحة. 100 هو الحد الأقصى الافتراضي لعدد صفحات اللقطات ويجب أن يكون كافيًا لمعظم مواقع الويب. استخدم رقمًا أكبر إذا كنت تريد تنزيل موقع ويب كبير جدًا.

مثال:

 wayback_machine_downloader http://example.com --snapshot-pages 300

تنزيل ملفات متعددة في وقت واحد

 -c, --concurrency NUMBER

خياري. حدد عدد الملفات المتعددة التي تريد تنزيلها في نفس الوقت. يسمح للمرء بتسريع تنزيل موقع الويب بشكل ملحوظ. الافتراضي هو تنزيل ملف واحد في كل مرة.

مثال:

 wayback_machine_downloader http://example.com --concurrency 20

باستخدام صورة عامل الميناء

كطريقة تثبيت بديلة، لدينا صورة Docker! استرجع صورة Docker wayback-machine-downloader بهذه الطريقة:

 docker pull hartator/wayback-machine-downloader

بعد ذلك، يجب أن تكون قادرًا على استخدام صورة Docker لتنزيل مواقع الويب. على سبيل المثال:

 docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com

المساهمة

المساهمات هي موضع ترحيب! ما عليك سوى تقديم طلب سحب عبر GitHub.

لتشغيل الاختبارات:

 bundle install
bundle exec rake test

يوسع

معلومات إضافية

الإصدار 2.3.1
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-26
الحجم 15.12KB
من Github

تطبيقات ذات صلة

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل

wayback machine downloader

تحميل آلة Wayback

تثبيت

الاستخدام الأساسي

كيف يعمل

الاستخدام المتقدم

تحديد الدليل لحفظ الملفات إليه

جميع الطوابع الزمنية

من الطابع الزمني

إلى الطابع الزمني

عنوان URL الدقيق

مرشح URL فقط

استبعاد عامل تصفية URL

قم بتوسيع التنزيل لجميع أنواع الملفات

قائمة الملفات فقط دون تحميل

الحد الأقصى لعدد صفحات اللقطات التي يجب مراعاتها

تنزيل ملفات متعددة في وقت واحد

باستخدام صورة عامل الميناء

المساهمة

TikTok Downloader

آلة الموارد البشرية

آلة الحرب

آلة القتل الغامضة

يوتيوب داونلودر

برنامج تحميل RapidGet

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions