Скачать snowball uploader - Скачать исходный код snowball uploader

snowball uploader

Другой исходный код

1.0.0

Скачать

Снежныйбол загрузчик

Сценарий для эффективного перемещения миллиардов файлов в Snowballedge

Дата: 20 февраля 2021 г.
Автор: yongki Kim ([email protected])

Изменить журналы

  - 2022.01.19
    - added option to bypass setting the auto-extract metadata tag
  - 2021.02.20
    - save filelist_dir as filelist-currentdata.gz when executing genlist
  - 2021.02.20
    - performance improvement of genlist; dumping file list, not each line
  - 2021.02.20
    - replacing scandir.walk to os.walk. already os.walk module patched with scandir after python3.5
  - 2021.02.10
    - replacing os.path with scandir.path to improve performance of file listing
  - 2021.02.09
    - python2 compatibility for "open(filename, endoding)"
  - 2021.02.01
    - modifying to support Windows
    - refactoring for more accurate defining of variables
  - 2021.01.26
    - multi processing support for parallel uploading of tar files
    - relevant parameter: max_process
  - 2021.01.25
    - removing yaml feature, due for it to cause too much cpu consumtion and low performance
    - fixing bug which use two profiles(sbe1, default), now only use "sbe1" profile
    - showing progress
  - 2020.02.25
    - changing filelist file to contain the target filename
  - 2020.02.24
    - fixing FIFO error
    - adding example of real snowball configuration
  - 2020.02.22 - limiting multi-thread numbers
    - adding multi-threading to improve performance 
    - adding fifo operation to reducing for big file which is over max_part_size 
  - 2020.02.19
    - removing tarfiles_one_time logic
    - spliting buffer by max_part_size
  - 2020.02.18:
    - supprt snowball limit:
      - max_part_size: 512mb
      - min_part_size: 5mb
  - 2020.02.14: 
    - modifying for python3 
    - support korean in Windows
  - 2020.02.12: adding features 
    - gen_filelist by size
  - 2020.02.10: changing filename from tar_to_s3_v7_multipart.py to snowball_uploader_8.py
  - adding features which can split tar file by size and count.
  - adding feature which create file list
  - showing help message

Введение

Snowball_uploader разработан для эффективного перемещения многих файлов в снежный ком или снежный шлик , который является прибором AWS для миграции файлов Petabyte на S3. Особенно, когда есть миллионы небольших файлов, для их передачи требуется слишком много времени, а затем задержит проект и приведет к высокой стоимости для предоставления снежного кома. Однако, используя Snowball_uploader , вы можете сократить время передачи. Он архивирует файлы в детали в памяти, отправляет большую часть и агрегирует в нескольких файлах TAR.

Сравнение производительности между загрузкой файлов индивидуально и загрузкой с помощью скрипта

Сначала я покажу вам результат производительности. 1 -й результат снежного кома измеряется при загрузке каждого файла при изменении имени, и 2 -й результат измеряется при применении сценария, который делает архивные файлы с смолой и отправляется в снежный ком. С таблицей ниже и номерами вы заметите, по крайней мере, в 7 раз лучше со 2 -м вариантом.

1 -й производительность снежного кома: загрузка каждого файла с помощью AWS S3 CP
2 -е выступление снежного кома: загрузка Chunked Files Snowball_uploader Draft версию

Цель	Количество файлов	Общая мощность	NAS -> время снежного кома	Снежный ком -> S3 Time	Неудачные объекты
1 -е выступление снежного кома	19 567 430	2408 ГБ	1 Вт	113 часа	954
2 -е выступление снежного кома	примерно 119 577 235	14 708 ГБ	1 Вт	26 часов	0

Руководство по краю снежного кома

Миграция данных края снежного кома: https://d1.awsstatic.com/whitepapers/snowball-edge-data-migration-guide.pdf?did=wp_card&trk=wp_card

Использование

Предварительные условия

Python3.5
- Python2 также будет работать, но только английское имя файла
Бото3
awscli

Исполнение

Изменение параметров

 bucket_name = "your-own-bucket"
session = boto3 . Session ( profile_name = 'sbe1' )
s3 = session . client ( 's3' , endpoint_url = 'http://10.10.10.10:8080' )
# or below
#s3 = boto3.client('s3', endpoint_url='https://s3.ap-northeast-2.amazonaws.com')
#s3 = boto3.client('s3', region_name='ap-northeast-2', endpoint_url='https://s3.ap-northeast-2.amazonaws.com', aws_access_key_id=None, aws_secret_access_key=None)
target_path = '/move/to/s3/orgin/'   ## very important!! change to your source directory
max_tarfile_size = 10 * 1024 ** 3 # 10GB
max_part_size = 300 * 1024 ** 2 # 300MB
min_part_size = 5 * 1024 ** 2 # 5MB
max_process = 5  # concurrent processes, set the value to less than filelist files in file list_dir
if os . name == 'nt' :
    filelist_dir = "C:/Temp/fl_logdir_dkfjpoiwqjefkdjf/"  #for windows
else :
    filelist_dir = '/tmp/fl_logdir_dkfjpoiwqjefkdjf/'    #for linux

Эти параметры имеют решающее значение для работы по мере того, как вы хотите

bucket_name : введите имя своего ведра
SESSION = BOTO3
target_path : путь каталога ввода, который вы хотите перенести в снежный ком.
- Если target_path = '/move/to/s3/origin/', он перейдет к s3: // 'bucket_name'/move/to/s3/origin/inory/
- Если target_path = '.', он перейдет к s3: // 'bucet_name'/
- Итак, очень важно, когда вы выполняете команду Snowball_uploader и исправляете Target_path
- Я предлагаю, чтобы вы протестировали сценарий с помощью образцов данных перед применением ваших данных.
MAX_TARFILE_SIZE : Размер файла TAR, который будет загружен в Snowball
- Значение должно быть менее 100 ГБ
- Snowball_uploader Archives файлы в файл смолы в снежном коме , и этот файл TAR будет извлечен автоматически.
- Metadata = {"Снежок-авто-экстракт": "true"} , эти метаданные добавляют в файл смолы.
- Snowball Limit Ref: https://docs.aws.amazon.com/snowball/latest/developer-guide/batching-small-files.html
MAX_PART_SIZE : MAX Multi Part Sife, снежный ком ограничивает максимальный размер частей до 512 МБ.
- В этом скрипте использовалась функция с несколькими частями S3 для агрегирования файлов в один большой файл TAR
- Snowball Limit Ref: https://docs.aws.amazon.com/snowball/latest/ug/limits.html
min_part_size : минимальный размер мульти-деталей, ограничивает снежный ком .
- Ссылка: https://docs.aws.amazon.com/snowball/latest/ug/limits.html
max_process : номера одновременных процессов, Snowball_uploader использует несколько процессов для увеличения скорости загрузки
FILELIST_DIR : где сгенерирован файл FILELIST
- /tmp/fl_logdir_dkfjpoiwqjefkdjf/каталог исправлен, и этот каталог удаляется и воссоздается всякий раз, когда вы запускаете сценарий с помощью параметра Genlist .

Genlist

ec2-user > python3 snowball_uploader.py genlist

Параметр GenList генерирует манифестные файлы, содержащие исходные файлы и целевые файлы. Этот параметр следует запускать, прежде чем преодолеть файлы.

Список файлов для передачи списка файлов, разделенный на сумму файлов, чтобы исправить размер файла TAR, максимальный размер файла TAR должен быть менее 100 ГБ.

ec2-user > ls /tmp/fl_logdir_dkfjpoiwqjefkdjf
fl_1.yml fl_2.yml fl_3.yml fl_4.yml fl_5.yml

Содержимое списка файлов

ec2-suer > cat f1_1.yaml
- ./snowball_uploader_11_failed.py: ./snowball_uploader_11_failed.py
- ./success_fl_2.yaml_20200226_002049.log: ./success_fl_2.yaml_20200226_002049.log
- ./file_list.txt: ./file_list.txt
- ./snowball-fl_1-20200218_151840.tar: ./snowball-fl_1-20200218_151840.tar
- ./bytesio_test.py: ./bytesio_test.py
- ./filelist_dir1_10000.txt: ./filelist_dir1_10000.txt
- ./snowball_uploader_14_success.py: ./snowball_uploader_14_success.py
- ./error_fl_1.txt_20200225_022018.log: ./error_fl_1.txt_20200225_022018.log
- ./snowball_uploader_debug_success.py: ./snowball_uploader_debug_success.py
- ./success_fl_1.txt_20200225_022018.log: ./success_fl_1.txt_20200225_022018.log
- ./snowball_uploader_20_thread.py: ./snowball_uploader_20_thread.py
- ./success_fl_1.yml_20200229_173222.log: ./success_fl_1.yml_20200229_173222.log
- ./snowball_uploader_14_ing.py: ./snowball_uploader_14_ing.py

Манифестный файл записан в формате YAML
Левый ключ - это исходное имя файла
Правильное значение - это имя целевого файла, если вы хотите изменить имя файла на S3, вы можете изменить его с помощью метода rename_file .

 def rename_file ( org_file ):
    target_file = org_file  ##
return target_file

cp_snowball

Параметр cp_snowball будет передавать файлы в снежный шлик
Когда сценарий запускается, он создает два файла журнала, Success_’'file_name ' ' TimeStamp'.log и ошибка 'file_name' _ 'timeStamp'.log
- Success_'file_name '_' TimeStamp'.log: он содержит имя файлов, которые успешно архивировали в Tarfile
- error_''file_name '_' TimeStamp'.log: он содержит имя файлов, которых не существует в файловой системе, хотя и записано в FileList.
- С этими журналами вы можете проверить, что передается, а что нет.

Как это работает

    #print ('n')
    print ( 'genlist: ' )
    print ( 'this option will generate files which are containing target files list in %s' % ( filelist_dir ))
    #print ('n')
    print ( 'cp_snowball: ' )
    print ( 'cp_snowball option will copy the files on server to snowball efficiently' )
    print ( 'the mechanism is here:' )
    print ( '1. reads the target file name from the one filelist file in filelist directory' )
    print ( '2. accumulates files to max_part_size in memory' )
    print ( '3. if it reachs max_part_size, send it to snowball using MultiPartUpload' )
    print ( '4. during sending data chunk, threads are invoked to max_thread' )
    print ( '5. after complete to send, tar file is generated in snowball' )
    print ( '6. then, moves to the next filelist file recursively' )

Заключение

Я не профессиональный программист, поэтому может быть какой -то недостаток, обработка ошибок очень плохая. И этот скрипт может потреблять огромный объем памяти, если вы устанавливаете слишком большое количество параметров (max_threads, max_part_size и max_tarfile_size), тогда он может вызвать замораживание системы. Так что протестируйте его несколько раз с помощью образцов данных. Когда я использовал его на сайтах клиентов, он сократил время потребления более 10 раз. Я надеюсь, что вы сможете получить помощь от этого сценария.

Расширять

Дополнительная информация