Descarga wayback machine downloader - descarga de código fuente wayback machine downloader

wayback machine downloader

Otro código fuente

2.3.1

Descargar

Descargador de Wayback Machine

Descargue un sitio web completo desde Internet Archive Wayback Machine.

Instalación

Necesita instalar Ruby en su sistema (>= 1.9.2), si aún no lo tiene. Luego ejecuta:

 gem install wayback_machine_downloader

Consejo: si encuentra errores de permisos, es posible que deba agregar sudo delante de este comando.

Uso básico

Ejecute wayback_machine_downloader con la URL base del sitio web que desea recuperar como parámetro (por ejemplo, http://example.com):

 wayback_machine_downloader http://example.com

como funciona

Descargará la última versión de cada archivo presente en Wayback Machine en ./websites/example.com/ . También recreará una estructura de directorios y creará automáticamente páginas index.html para que funcionen perfectamente con Apache y Nginx. Todos los archivos descargados son los originales y no las versiones reescritas de Wayback Machine. De esta manera, las URL y la estructura de los enlaces son los mismos que antes.

Uso avanzado

 Usage: wayback_machine_downloader http://example.com

Download an entire website from the Wayback Machine.

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
				     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provided and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to download at a time
				     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
				     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything

Especificar el directorio donde guardar los archivos

 -d, --directory PATH

Opcional. De forma predeterminada, Wayback Machine Downloader descargará archivos a ./websites/ seguido del nombre de dominio del sitio web. Es posible que desee guardar archivos en un directorio específico usando esta opción.

Ejemplo:

 wayback_machine_downloader http://example.com --directory downloaded-backup/

Todas las marcas de tiempo

 -s, --all-timestamps

Opcional. Esta opción descargará todas las marcas de tiempo/instantáneas de un sitio web determinado. Utilizará la marca de tiempo de cada instantánea como directorio.

Ejemplo:

 wayback_machine_downloader http://example.com --all-timestamps 

Will download:
	websites/example.com/20060715085250/index.html
	websites/example.com/20051120005053/index.html
	websites/example.com/20060111095815/img/logo.png
	...

De la marca de tiempo

 -f, --from TIMESTAMP

Opcional. Es posible que desees proporcionar una marca de tiempo desde para bloquear tu copia de seguridad en una versión específica del sitio web. Las marcas de tiempo se pueden encontrar dentro de las URL del sitio web habitual de Wayback Machine (por ejemplo, https://web.archive.org/web/20060716231334/http://example.com). También puede utilizar años (2006), años + mes (200607), etc. Se puede utilizar en combinación con To Timestamp. Wayback Machine Downloader recuperará solo las versiones de archivos a partir de la marca de tiempo especificada.

Ejemplo:

 wayback_machine_downloader http://example.com --from 20060716231334

A marca de tiempo

 -t, --to TIMESTAMP

Opcional. Es posible que desees proporcionar una marca de tiempo para bloquear tu copia de seguridad en una versión específica del sitio web. Las marcas de tiempo se pueden encontrar dentro de las URL del sitio web habitual de Wayback Machine (por ejemplo, https://web.archive.org/web/20100916231334/http://example.com). También puede utilizar años (2010), años + mes (201009), etc. Se puede utilizar en combinación con From Timestamp. Wayback Machine Downloader recuperará solo las versiones de archivos anteriores o iguales a la marca de tiempo especificada.

Ejemplo:

 wayback_machine_downloader http://example.com --to 20100916231334

URL exacta

 -e, --exact-url

Opcional. Si desea recuperar sólo el archivo que coincide exactamente con la URL proporcionada, puede utilizar esta marca. Evitará descargar cualquier otra cosa.

Por ejemplo, si solo desea descargar el archivo html de la página de inicio de example.com:

 wayback_machine_downloader http://example.com --exact-url

Sólo filtro de URL

 -o, --only ONLY_FILTER

Opcional. Es posible que desee recuperar archivos que sean de cierto tipo (por ejemplo, .pdf, .jpg, .wrd...) o que se encuentren en un directorio específico. Para hacerlo, puede proporcionar el indicador --only con una cadena o una expresión regular (usando la notación '/regex/') para limitar qué archivos descargará Wayback Machine Downloader.

Por ejemplo, si solo desea descargar archivos dentro de un my_directory específico:

 wayback_machine_downloader http://example.com --only my_directory

O si quieres descargar todas las imágenes sin nada más:

 wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"

Excluir filtro de URL

 -x, --exclude EXCLUDE_FILTER

Opcional. Es posible que desee recuperar archivos que no sean de un tipo determinado (por ejemplo, .pdf, .jpg, .wrd...) o que no se encuentren en un directorio específico. Para hacerlo, puede proporcionar el indicador --exclude con una cadena o una expresión regular (usando la notación '/regex/') para limitar qué archivos descargará Wayback Machine Downloader.

Por ejemplo, si desea evitar descargar archivos dentro de my_directory :

 wayback_machine_downloader http://example.com --exclude my_directory

O si quieres descargar todo excepto imágenes:

 wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"

Ampliar la descarga a todos los tipos de archivos

 -a, --all

Opcional. De forma predeterminada, Wayback Machine Downloader se limita a archivos que respondieron con el código 200 OK. Si también necesita archivos de errores (códigos 40x y 50x) o archivos de redirecciones (códigos 30x), puede usar el indicador --all o -a y Wayback Machine Downloader los descargará además de los 200 archivos OK. También mantendrá los archivos vacíos que se eliminan de forma predeterminada.

Ejemplo:

 wayback_machine_downloader http://example.com --all

Solo enumera archivos sin descargarlos

 -l, --list

Simplemente mostrará los archivos que se descargarán con sus marcas de tiempo y URL de instantáneas. El formato de salida es JSON. No descargará nada. Es útil para depurar o conectarse a otra aplicación.

Ejemplo:

 wayback_machine_downloader http://example.com --list

Número máximo de páginas de instantáneas a considerar

 -p, --snapshot-pages NUMBER

Opcional. Especifique el número máximo de páginas de instantáneas a considerar. Cuente una media de 150.000 instantáneas por página. 100 es el número máximo predeterminado de páginas de instantáneas y debería ser suficiente para la mayoría de los sitios web. Utilice un número mayor si desea descargar un sitio web muy grande.

Ejemplo:

 wayback_machine_downloader http://example.com --snapshot-pages 300

Descargar varios archivos a la vez

 -c, --concurrency NUMBER

Opcional. Especifique la cantidad de archivos múltiples que desea descargar al mismo tiempo. Permite acelerar significativamente la descarga de un sitio web. El valor predeterminado es descargar un archivo a la vez.

Ejemplo:

 wayback_machine_downloader http://example.com --concurrency 20

Usando la imagen de Docker

Como forma de instalación alternativa, ¡tenemos una imagen de Docker! Recupere la imagen de Docker wayback-machine-downloader de esta manera:

 docker pull hartator/wayback-machine-downloader

Entonces, debería poder utilizar la imagen de Docker para descargar sitios web. Por ejemplo:

 docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com

Contribuyendo

¡Las contribuciones son bienvenidas! Simplemente envíe una solicitud de extracción a través de GitHub.

Para ejecutar las pruebas:

 bundle install
bundle exec rake test

Expandir

Información adicional

Versión 2.3.1
Tipo Otro código fuente
Fecha de actualización 2024-12-26
tamaño 15.12KB
Proviene de Github

Aplicaciones relacionadas

TikTok Downloader

2024-11-02
Máquina de recursos humanos

2022-08-27
maquina de guerra

2022-08-16
Máquina de misterio de asesinato

2022-08-01
Descargador de YouTube

2009-05-07
Descargador RapidGet

2009-04-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo