Internet Archive Wayback Machine에서 전체 웹사이트를 다운로드하세요.
아직 설치하지 않은 경우 시스템에 Ruby를 설치해야 합니다(>= 1.9.2). 그런 다음 다음을 실행하십시오.
gem install wayback_machine_downloader
팁: 권한 오류가 발생하면 이 명령 앞에 sudo
추가해야 할 수도 있습니다.
매개변수로 검색하려는 웹사이트의 기본 URL(예: http://example.com)을 사용하여 wayback_machine_downloader를 실행합니다.
wayback_machine_downloader http://example.com
Wayback Machine에 있는 모든 파일의 마지막 버전을 ./websites/example.com/
에 다운로드합니다. 또한 Apache 및 Nginx와 원활하게 작동하도록 디렉토리 구조를 다시 생성하고 index.html
페이지를 자동 생성합니다. 다운로드한 모든 파일은 원본 파일이며 Wayback Machine이 재작성된 버전이 아닙니다. 이렇게 하면 URL과 링크 구조가 이전과 동일합니다.
Usage: wayback_machine_downloader http://example.com
Download an entire website from the Wayback Machine.
Optional options:
-d, --directory PATH Directory to save the downloaded files into
Default is ./websites/ plus the domain name
-s, --all-timestamps Download all snapshots/timestamps for a given website
-f, --from TIMESTAMP Only files on or after timestamp supplied (ie. 20060716231334)
-t, --to TIMESTAMP Only files on or before timestamp supplied (ie. 20100916231334)
-e, --exact-url Download only the url provided and not the full site
-o, --only ONLY_FILTER Restrict downloading to urls that match this filter
(use // notation for the filter to be treated as a regex)
-x, --exclude EXCLUDE_FILTER Skip downloading of urls that match this filter
(use // notation for the filter to be treated as a regex)
-a, --all Expand downloading to error files (40x and 50x) and redirections (30x)
-c, --concurrency NUMBER Number of multiple files to download at a time
Default is one file at a time (ie. 20)
-p, --maximum-snapshot NUMBER Maximum snapshot pages to consider (Default is 100)
Count an average of 150,000 snapshots per page
-l, --list Only list file urls in a JSON format with the archived timestamps, won't download anything
-d, --directory PATH
선택 과목. 기본적으로 Wayback Machine Downloader는 ./websites/
뒤에 웹사이트의 도메인 이름이 오는 위치에 파일을 다운로드합니다. 이 옵션을 사용하여 특정 디렉터리에 파일을 저장할 수 있습니다.
예:
wayback_machine_downloader http://example.com --directory downloaded-backup/
-s, --all-timestamps
선택 과목. 이 옵션은 특정 웹사이트의 모든 타임스탬프/스냅샷을 다운로드합니다. 각 스냅샷의 타임스탬프를 디렉터리로 사용합니다.
예:
wayback_machine_downloader http://example.com --all-timestamps
Will download:
websites/example.com/20060715085250/index.html
websites/example.com/20051120005053/index.html
websites/example.com/20060111095815/img/logo.png
...
-f, --from TIMESTAMP
선택 과목. 백업을 웹 사이트의 특정 버전으로 잠그기 위해 타임스탬프를 제공할 수 있습니다. 타임스탬프는 일반 Wayback Machine 웹사이트(예: https://web.archive.org/web/20060716231334/http://example.com)의 URL 내에서 찾을 수 있습니다. 연도(2006), 연도+월(200607) 등을 사용할 수도 있습니다. To Timestamp와 조합하여 사용할 수 있습니다. 그러면 Wayback Machine Downloader는 지정된 타임스탬프 이후의 파일 버전만 가져옵니다.
예:
wayback_machine_downloader http://example.com --from 20060716231334
-t, --to TIMESTAMP
선택 과목. 백업을 웹 사이트의 특정 버전으로 잠그기 위해 타임스탬프를 제공할 수 있습니다. 타임스탬프는 일반 Wayback Machine 웹사이트(예: https://web.archive.org/web/20100916231334/http://example.com)의 URL 내에서 찾을 수 있습니다. 연도(2010), 연도+월(201009) 등을 사용할 수도 있습니다. From Timestamp를 조합하여 사용할 수 있습니다. 그러면 Wayback Machine Downloader는 지정된 타임스탬프 또는 그 이전의 파일 버전만 가져옵니다.
예:
wayback_machine_downloader http://example.com --to 20100916231334
-e, --exact-url
선택 과목. 제공된 URL과 정확히 일치하는 파일만 검색하려면 이 플래그를 사용할 수 있습니다. 다른 것을 다운로드하지 않아도 됩니다.
예를 들어, example.com의 html 홈페이지 파일만 다운로드하려는 경우:
wayback_machine_downloader http://example.com --exact-url
-o, --only ONLY_FILTER
선택 과목. 특정 유형(예: .pdf, .jpg, .wrd...)이거나 특정 디렉토리에 있는 파일을 검색할 수 있습니다. 그렇게 하려면 문자열이나 정규식('/regex/' 표기 사용)과 함께 --only
플래그를 제공하여 Wayback Machine Downloader가 다운로드할 파일을 제한할 수 있습니다.
예를 들어, 특정 my_directory
내의 파일만 다운로드하려는 경우:
wayback_machine_downloader http://example.com --only my_directory
또는 다른 것 없이 모든 이미지를 다운로드하려면:
wayback_machine_downloader http://example.com --only "/.(gif|jpg|jpeg)$/i"
-x, --exclude EXCLUDE_FILTER
선택 과목. 특정 유형(예: .pdf, .jpg, .wrd...)이 아니거나 특정 디렉토리에 없는 파일을 검색할 수 있습니다. 그렇게 하려면 문자열이나 정규식('/regex/' 표기 사용)과 함께 --exclude
플래그를 제공하여 Wayback Machine Downloader가 다운로드할 파일을 제한할 수 있습니다.
예를 들어, my_directory
내부의 파일 다운로드를 피하려는 경우:
wayback_machine_downloader http://example.com --exclude my_directory
또는 이미지를 제외한 모든 것을 다운로드하려면:
wayback_machine_downloader http://example.com --exclude "/.(gif|jpg|jpeg)$/i"
-a, --all
선택 과목. 기본적으로 Wayback Machine Downloader는 200 OK 코드로 응답한 파일로 제한됩니다. 오류 파일(40x 및 50x 코드) 또는 리디렉션 파일(30x 코드)도 필요한 경우 --all
또는 -a
플래그를 사용하면 Wayback Machine Downloader가 200 OK 파일과 함께 해당 파일을 다운로드합니다. 또한 기본적으로 제거되는 빈 파일을 유지합니다.
예:
wayback_machine_downloader http://example.com --all
-l, --list
스냅샷 타임스탬프 및 URL과 함께 다운로드할 파일만 표시됩니다. 출력 형식은 JSON입니다. 아무것도 다운로드되지 않습니다. 디버깅하거나 다른 애플리케이션에 연결하는 데 유용합니다.
예:
wayback_machine_downloader http://example.com --list
-p, --snapshot-pages NUMBER
선택 과목. 고려할 최대 스냅샷 페이지 수를 지정합니다. 페이지당 평균 150,000개의 스냅샷을 계산합니다. 100은 기본 최대 스냅샷 페이지 수이며 대부분의 웹사이트에 충분합니다. 매우 큰 웹사이트를 다운로드하려면 더 큰 숫자를 사용하세요.
예:
wayback_machine_downloader http://example.com --snapshot-pages 300
-c, --concurrency NUMBER
선택 과목. 동시에 다운로드하려는 여러 파일의 수를 지정하세요. 웹사이트 다운로드 속도를 크게 높일 수 있습니다. 기본값은 한 번에 하나의 파일을 다운로드하는 것입니다.
예:
wayback_machine_downloader http://example.com --concurrency 20
대체 설치 방법으로 Docker 이미지가 있습니다! 다음 방법으로 wayback-machine-downloader Docker 이미지를 검색합니다.
docker pull hartator/wayback-machine-downloader
그러면 Docker 이미지를 사용하여 웹사이트를 다운로드할 수 있습니다. 예를 들어:
docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com
기여를 환영합니다! GitHub를 통해 풀 요청을 제출하면 됩니다.
테스트를 실행하려면 다음 안내를 따르세요.
bundle install
bundle exec rake test