wayback machine downloader 다운로드 - wayback machine downloader 소스 코드 다운로드

wayback machine downloader

기타 소스코드

2.3.1

다운로드

웨이백 머신 다운로더

Internet Archive Wayback Machine에서 전체 웹사이트를 다운로드하세요.

설치

아직 설치하지 않은 경우 시스템에 Ruby를 설치해야 합니다(>= 1.9.2). 그런 다음 다음을 실행하십시오.

 gem install wayback_machine_downloader

팁: 권한 오류가 발생하면 이 명령 앞에 sudo 추가해야 할 수도 있습니다.

기본 사용법

매개변수로 검색하려는 웹사이트의 기본 URL(예: http://example.com)을 사용하여 wayback_machine_downloader를 실행합니다.

 wayback_machine_downloader http://example.com

작동 원리

Wayback Machine에 있는 모든 파일의 마지막 버전을 ./websites/example.com/ 에 다운로드합니다. 또한 Apache 및 Nginx와 원활하게 작동하도록 디렉토리 구조를 다시 생성하고 index.html 페이지를 자동 생성합니다. 다운로드한 모든 파일은 원본 파일이며 Wayback Machine이 재작성된 버전이 아닙니다. 이렇게 하면 URL과 링크 구조가 이전과 동일합니다.

고급 사용법

 Usage: wayback_machine_downloader http://example.com

Download an entire website from the Wayback Machine.

Optional options:
    -d, --directory PATH             Directory to save the downloaded files into
				     Default is ./websites/ plus the domain name
    -s, --all-timestamps             Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP             Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP               Only files on or before timestamp supplied (ie. 20100916231334)
    -e, --exact-url                  Download only the url provided and not the full site
    -o, --only ONLY_FILTER           Restrict downloading to urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -x, --exclude EXCLUDE_FILTER     Skip downloading of urls that match this filter
				     (use // notation for the filter to be treated as a regex)
    -a, --all                        Expand downloading to error files (40x and 50x) and redirections (30x)
    -c, --concurrency NUMBER         Number of multiple files to download at a time
				     Default is one file at a time (ie. 20)
    -p, --maximum-snapshot NUMBER    Maximum snapshot pages to consider (Default is 100)
				     Count an average of 150,000 snapshots per page
    -l, --list                       Only list file urls in a JSON format with the archived timestamps, won't download anything

파일을 저장할 디렉터리를 지정하세요.

 -d, --directory PATH

선택 과목. 기본적으로 Wayback Machine Downloader는 ./websites/ 뒤에 웹사이트의 도메인 이름이 오는 위치에 파일을 다운로드합니다. 이 옵션을 사용하여 특정 디렉터리에 파일을 저장할 수 있습니다.

예:

 wayback_machine_downloader http://example.com --directory downloaded-backup/

모든 타임스탬프

 -s, --all-timestamps

선택 과목. 이 옵션은 특정 웹사이트의 모든 타임스탬프/스냅샷을 다운로드합니다. 각 스냅샷의 타임스탬프를 디렉터리로 사용합니다.

예:

 wayback_machine_downloader http://example.com --all-timestamps 

Will download:
	websites/example.com/20060715085250/index.html
	websites/example.com/20051120005053/index.html
	websites/example.com/20060111095815/img/logo.png
	...

타임스탬프에서

 -f, --from TIMESTAMP

선택 과목. 백업을 웹 사이트의 특정 버전으로 잠그기 위해 타임스탬프를 제공할 수 있습니다. 타임스탬프는 일반 Wayback Machine 웹사이트(예: https://web.archive.org/web/20060716231334/http://example.com)의 URL 내에서 찾을 수 있습니다. 연도(2006), 연도+월(200607) 등을 사용할 수도 있습니다. To Timestamp와 조합하여 사용할 수 있습니다. 그러면 Wayback Machine Downloader는 지정된 타임스탬프 이후의 파일 버전만 가져옵니다.

예:

 wayback_machine_downloader http://example.com --from 20060716231334

타임스탬프로

 -t, --to TIMESTAMP

선택 과목. 백업을 웹 사이트의 특정 버전으로 잠그기 위해 타임스탬프를 제공할 수 있습니다. 타임스탬프는 일반 Wayback Machine 웹사이트(예: https://web.archive.org/web/20100916231334/http://example.com)의 URL 내에서 찾을 수 있습니다. 연도(2010), 연도+월(201009) 등을 사용할 수도 있습니다. From Timestamp를 조합하여 사용할 수 있습니다. 그러면 Wayback Machine Downloader는 지정된 타임스탬프 또는 그 이전의 파일 버전만 가져옵니다.

예:

 wayback_machine_downloader http://example.com --to 20100916231334

정확한 URL

 -e, --exact-url

선택 과목. 제공된 URL과 정확히 일치하는 파일만 검색하려면 이 플래그를 사용할 수 있습니다. 다른 것을 다운로드하지 않아도 됩니다.

예를 들어, example.com의 html 홈페이지 파일만 다운로드하려는 경우:

 wayback_machine_downloader http://example.com --exact-url

URL 필터만

 -o, --only ONLY_FILTER

선택 과목. 특정 유형(예: .pdf, .jpg, .wrd...)이거나 특정 디렉토리에 있는 파일을 검색할 수 있습니다. 그렇게 하려면 문자열이나 정규식('/regex/' 표기 사용)과 함께 --only 플래그를 제공하여 Wayback Machine Downloader가 다운로드할 파일을 제한할 수 있습니다.

예를 들어, 특정 my_directory 내의 파일만 다운로드하려는 경우:

 wayback_machine_downloader http://example.com --only my_directory

또는 다른 것 없이 모든 이미지를 다운로드하려면:

 wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"

URL 필터 제외

 -x, --exclude EXCLUDE_FILTER

선택 과목. 특정 유형(예: .pdf, .jpg, .wrd...)이 아니거나 특정 디렉토리에 없는 파일을 검색할 수 있습니다. 그렇게 하려면 문자열이나 정규식('/regex/' 표기 사용)과 함께 --exclude 플래그를 제공하여 Wayback Machine Downloader가 다운로드할 파일을 제한할 수 있습니다.

예를 들어, my_directory 내부의 파일 다운로드를 피하려는 경우:

 wayback_machine_downloader http://example.com --exclude my_directory

또는 이미지를 제외한 모든 것을 다운로드하려면:

 wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"

모든 파일 형식으로 다운로드 확장

 -a, --all

선택 과목. 기본적으로 Wayback Machine Downloader는 200 OK 코드로 응답한 파일로 제한됩니다. 오류 파일(40x 및 50x 코드) 또는 리디렉션 파일(30x 코드)도 필요한 경우 --all 또는 -a 플래그를 사용하면 Wayback Machine Downloader가 200 OK 파일과 함께 해당 파일을 다운로드합니다. 또한 기본적으로 제거되는 빈 파일을 유지합니다.

예:

 wayback_machine_downloader http://example.com --all

다운로드하지 않고 파일만 나열

 -l, --list

스냅샷 타임스탬프 및 URL과 함께 다운로드할 파일만 표시됩니다. 출력 형식은 JSON입니다. 아무것도 다운로드되지 않습니다. 디버깅하거나 다른 애플리케이션에 연결하는 데 유용합니다.

예:

 wayback_machine_downloader http://example.com --list

고려해야 할 최대 스냅샷 페이지 수

 -p, --snapshot-pages NUMBER

선택 과목. 고려할 최대 스냅샷 페이지 수를 지정합니다. 페이지당 평균 150,000개의 스냅샷을 계산합니다. 100은 기본 최대 스냅샷 페이지 수이며 대부분의 웹사이트에 충분합니다. 매우 큰 웹사이트를 다운로드하려면 더 큰 숫자를 사용하세요.

예:

 wayback_machine_downloader http://example.com --snapshot-pages 300

한 번에 여러 파일 다운로드

 -c, --concurrency NUMBER

선택 과목. 동시에 다운로드하려는 여러 파일의 수를 지정하세요. 웹사이트 다운로드 속도를 크게 높일 수 있습니다. 기본값은 한 번에 하나의 파일을 다운로드하는 것입니다.

예:

 wayback_machine_downloader http://example.com --concurrency 20

도커 이미지 사용

대체 설치 방법으로 Docker 이미지가 있습니다! 다음 방법으로 wayback-machine-downloader Docker 이미지를 검색합니다.

 docker pull hartator/wayback-machine-downloader

그러면 Docker 이미지를 사용하여 웹사이트를 다운로드할 수 있습니다. 예를 들어:

 docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com

기여

기여를 환영합니다! GitHub를 통해 풀 요청을 제출하면 됩니다.

테스트를 실행하려면 다음 안내를 따르세요.

 bundle install
bundle exec rake test

확장하다

추가 정보

버전 2.3.1
유형 기타 소스코드
업데이트 시간 2024-12-26
크기 15.12KB
출처 Github

wayback machine downloader

웨이백 머신 다운로더

설치

기본 사용법

작동 원리

고급 사용법

파일을 저장할 디렉터리를 지정하세요.

모든 타임스탬프

타임스탬프에서

타임스탬프로

정확한 URL

URL 필터만

URL 필터 제외

모든 파일 형식으로 다운로드 확장

다운로드하지 않고 파일만 나열

고려해야 할 최대 스냅샷 페이지 수

한 번에 여러 파일 다운로드

도커 이미지 사용

기여

TikTok Downloader

인적 자원 기계

군사력

살인 미스터리 기계

YouTube 다운로더

RapidGet 다운로더

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions