Descargar snowball uploader - Descargar el código fuente snowball uploader

snowball uploader

Otro código fuente

1.0.0

Descargar

Cargador de bola de nieve

Un script para mover miles de millones de archivos a Snowballedge de manera eficiente

Fecha: 20 de febrero de 2021
Escrito por: Yongki Kim ([email protected])

Cambiar registros

  - 2022.01.19
    - added option to bypass setting the auto-extract metadata tag
  - 2021.02.20
    - save filelist_dir as filelist-currentdata.gz when executing genlist
  - 2021.02.20
    - performance improvement of genlist; dumping file list, not each line
  - 2021.02.20
    - replacing scandir.walk to os.walk. already os.walk module patched with scandir after python3.5
  - 2021.02.10
    - replacing os.path with scandir.path to improve performance of file listing
  - 2021.02.09
    - python2 compatibility for "open(filename, endoding)"
  - 2021.02.01
    - modifying to support Windows
    - refactoring for more accurate defining of variables
  - 2021.01.26
    - multi processing support for parallel uploading of tar files
    - relevant parameter: max_process
  - 2021.01.25
    - removing yaml feature, due for it to cause too much cpu consumtion and low performance
    - fixing bug which use two profiles(sbe1, default), now only use "sbe1" profile
    - showing progress
  - 2020.02.25
    - changing filelist file to contain the target filename
  - 2020.02.24
    - fixing FIFO error
    - adding example of real snowball configuration
  - 2020.02.22 - limiting multi-thread numbers
    - adding multi-threading to improve performance 
    - adding fifo operation to reducing for big file which is over max_part_size 
  - 2020.02.19
    - removing tarfiles_one_time logic
    - spliting buffer by max_part_size
  - 2020.02.18:
    - supprt snowball limit:
      - max_part_size: 512mb
      - min_part_size: 5mb
  - 2020.02.14: 
    - modifying for python3 
    - support korean in Windows
  - 2020.02.12: adding features 
    - gen_filelist by size
  - 2020.02.10: changing filename from tar_to_s3_v7_multipart.py to snowball_uploader_8.py
  - adding features which can split tar file by size and count.
  - adding feature which create file list
  - showing help message

Introducción

Snowball_uploader está desarrollado para mover muchos de los archivos de manera eficiente a Snowball o Snowballedge, que es el dispositivo de AWS para migrar los archivos de petabyte a S3. Especialmente, cuando hay millones de archivos pequeños, lleva demasiado tiempo transferirlos, luego retrasará el proyecto y causará un alto costo para prestar la bola de nieve. Sin embargo, con Snowball_uploader , puede acortar el tiempo de transferencia. Archiva los archivos en una parte de la memoria y envía una gran parte y se agrega en varios archivos de TAR.

Comparación de rendimiento entre cargar archivos individualmente y cargar con script

Al principio, te mostraría el resultado de rendimiento. El primer resultado de la bola de nieve se mide al cargar cada archivo mientras cambia el nombre, y el segundo resultado se mide al aplicar el script que hace que los archivos de archivo con alquitrán y envíen a la bola de nieve en la memoria. Con la siguiente tabla y números, notará al menos 7 veces mejor rendimiento con la segunda opción.

El primer rendimiento de la bola de nieve: cargar cada archivos con AWS S3 CP
El segundo rendimiento de la bola de nieve: cargar archivos fortados snowball_uploader draft versión

Objetivo	No. de archivos	Capacidad total	NAS -> Tiempo de bola de nieve	Bola de nieve -> s3 tiempo	Objetos fallidos
la primera actuación de bola de nieve	19,567,430	2,408 GB	1W	113 horas	954
la segunda actuación de la bola de nieve	aprox. 119,577,235	14,708 GB	1W	26 horas	0

Manual de bola de nieve

Snowball Edge Migration: https://d1.awsstatic.com/whitePapers/snowball-eded-data-migration-guide.pdf?did=wp_card&trk=wp_card

USO

Requisitos previos

python3.5
- Python2 también funcionaría, pero solo el nombre del archivo en inglés
boto3
awscli

Ejecución

Cambio de parámetros

 bucket_name = "your-own-bucket"
session = boto3 . Session ( profile_name = 'sbe1' )
s3 = session . client ( 's3' , endpoint_url = 'http://10.10.10.10:8080' )
# or below
#s3 = boto3.client('s3', endpoint_url='https://s3.ap-northeast-2.amazonaws.com')
#s3 = boto3.client('s3', region_name='ap-northeast-2', endpoint_url='https://s3.ap-northeast-2.amazonaws.com', aws_access_key_id=None, aws_secret_access_key=None)
target_path = '/move/to/s3/orgin/'   ## very important!! change to your source directory
max_tarfile_size = 10 * 1024 ** 3 # 10GB
max_part_size = 300 * 1024 ** 2 # 300MB
min_part_size = 5 * 1024 ** 2 # 5MB
max_process = 5  # concurrent processes, set the value to less than filelist files in file list_dir
if os . name == 'nt' :
    filelist_dir = "C:/Temp/fl_logdir_dkfjpoiwqjefkdjf/"  #for windows
else :
    filelist_dir = '/tmp/fl_logdir_dkfjpoiwqjefkdjf/'    #for linux

Estos parámetros son cruciales para ejecutarse como desee

bucket_name : ingrese el nombre de su cubo
sesión = boto3.session (perfil_name = 'sbe1') : nombre de perfil de entrada AWS
Target_path : ruta de directorio de entrada que desea transferir a Snowball
- Si Target_Path = '/Move/To/S3/Origin/', se moverá a S3: // 'Bucket_name'/Move/To/S3/Origin/
- if target_path = '.', se moverá a s3: // 'bucket_name'/
- Por lo tanto, es muy importante cuando ejecute el comando snowball_uploader y arregle el path
- Sugiero que pruebe el script con datos de muestra antes de aplicar a sus datos.
max_tarfile_size : tamaño del archivo de alquitrán que se cargará en bola de nieve
- El valor debe tener menos de 100 GB
- Snowball_uploader archiva archivos para el archivo de alquitrán en bola de nieve , y este archivo de alquitrán se extraerá automáticamente.
- Metadata = {"Snowball-Auto-Exact": "True"} , este metadato se suma al archivo TAR.
- Ref.
Max_part_Size : tamaño de pieza múltiple máximo, Snowball Limits Max-Multi-Part a 512Mb
- Este script utilizó la función de S3 de S3 de S3 para agregar los archivos en un archivo de alquitrán grande
- Ref.
min_part_size : tamaño mínimo de múltiples piezas, límites de bola de nieve Min-Multi-Part a 5 MB
- Ref: https://docs.aws.amazon.com/snowball/latest/ug/limits.html
max_process : números de procesos concurrentes, Snowball_uploader utiliza múltiples procesos para aumentar la velocidad de carga
filelist_dir : donde se genera el archivo filelista
- /TMP/FL_LOGDIR_DKFJPOIWQJEFKDJF/DIRECTORIO se soluciona, y este directorio se elimina y recreada cada vez que ejecuta el script con el parámetro GenList .

genlista

ec2-user > python3 snowball_uploader.py genlist

El parámetro Genlist genera los archivos de manifiesto que contienen archivos originales y archivos de destino. Este parámetro debe ejecutarse antes de hacer frente a los archivos.

Lista de archivos que se transferirá la lista de archivos dividido por la suma de los archivos para corregir el tamaño del archivo TAR, el tamaño del archivo máximo de alquitrán debe estar bajo 100 GB.

ec2-user > ls /tmp/fl_logdir_dkfjpoiwqjefkdjf
fl_1.yml fl_2.yml fl_3.yml fl_4.yml fl_5.yml

el contenido de la lista de archivos

ec2-suer > cat f1_1.yaml
- ./snowball_uploader_11_failed.py: ./snowball_uploader_11_failed.py
- ./success_fl_2.yaml_20200226_002049.log: ./success_fl_2.yaml_20200226_002049.log
- ./file_list.txt: ./file_list.txt
- ./snowball-fl_1-20200218_151840.tar: ./snowball-fl_1-20200218_151840.tar
- ./bytesio_test.py: ./bytesio_test.py
- ./filelist_dir1_10000.txt: ./filelist_dir1_10000.txt
- ./snowball_uploader_14_success.py: ./snowball_uploader_14_success.py
- ./error_fl_1.txt_20200225_022018.log: ./error_fl_1.txt_20200225_022018.log
- ./snowball_uploader_debug_success.py: ./snowball_uploader_debug_success.py
- ./success_fl_1.txt_20200225_022018.log: ./success_fl_1.txt_20200225_022018.log
- ./snowball_uploader_20_thread.py: ./snowball_uploader_20_thread.py
- ./success_fl_1.yml_20200229_173222.log: ./success_fl_1.yml_20200229_173222.log
- ./snowball_uploader_14_ing.py: ./snowball_uploader_14_ing.py

El archivo manifiesto está escrito en formato YAML
La tecla izquierda es el nombre del archivo original
El valor correcto es el nombre del archivo de destino, si desea cambiar el nombre del archivo en el S3, puede cambiarlo con el método Rename_File .

 def rename_file ( org_file ):
    target_file = org_file  ##
return target_file

cp_snowball

El parámetro CP_SNOWBall transferirá archivos a Snowball
Cuando se ejecuta el script, crea dos archivos de registro, Success_'File_Name ' ' Timestamp'.log y Error 'file_name' _ 'timestamp'.log
- Success_'file_name '_' Timestamp'.log: contiene el nombre de los archivos que se archivan en tarfil con éxito
- ERROR_'FILE_NAME '_' TIMESTAMP'.LOG: contiene el nombre de los archivos que no existe en el sistema de archivos, aunque escrito en Filelist.
- Con estos registros, puede verificar cuál se transfiere y cuál no.

Cómo funciona

    #print ('n')
    print ( 'genlist: ' )
    print ( 'this option will generate files which are containing target files list in %s' % ( filelist_dir ))
    #print ('n')
    print ( 'cp_snowball: ' )
    print ( 'cp_snowball option will copy the files on server to snowball efficiently' )
    print ( 'the mechanism is here:' )
    print ( '1. reads the target file name from the one filelist file in filelist directory' )
    print ( '2. accumulates files to max_part_size in memory' )
    print ( '3. if it reachs max_part_size, send it to snowball using MultiPartUpload' )
    print ( '4. during sending data chunk, threads are invoked to max_thread' )
    print ( '5. after complete to send, tar file is generated in snowball' )
    print ( '6. then, moves to the next filelist file recursively' )

Conclusión

No soy un programador profesional, por lo que puede tener algo de falla, el manejo de errores es muy pobre. Y este script puede consumir una gran cantidad de memoria si establece un número demasiado alto de parámetros (max_threads, max_part_size y max_tarfile_size), entonces puede causar congelación del sistema. Así que pruebe varias veces con datos de muestra. Cuando lo usé en sitios de clientes, redujo el tiempo de consumo más de 10 veces. Espero que también puedas obtener ayuda de este guión.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-21
tamaño 41.89KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Bola de nieve.io

2024-09-11
Explosión de bolas de nieve última versión

2024-05-31
cargador-de-imagenes-ajax

2010-09-29
Cargador Celerondude

2009-04-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
Sunamu

Otro código fuente

Release 2.2.0
MySchedule.py

Otro código fuente

Updates to the fetching of week codes
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo