find duplicates Скачать - find duplicates Скачать исходный код

find duplicates

Другой исходный код

1.0.0

Скачать

`find-duplicates`

find-duplicates быстро находит дубликаты файлов на основе xxHash-кодов их содержимого.

Установка

$ go install github.com/twpayne/find-duplicates@latest

Пример

$ find-duplicates
{
  "cdb8979062cbdf9c169563ccc54704f0": [
    ".git/refs/remotes/origin/main",
    ".git/refs/heads/main",
    ".git/ORIG_HEAD"
  ]
}

Использование

 find-duplicates [options] [paths...]

paths — это каталоги для рекурсивного обхода. Если paths не указаны, то выполняется обход текущего каталога.

Выходные данные представляют собой объект JSON со свойствами для каждого наблюдаемого xxHash и массивами значений имен файлов с содержимым с этим xxHash.

Варианты:

--keep-going или -k продолжать работу после ошибок.

--output=<file> или -o <file> записать вывод в <file> , по умолчанию — стандартный вывод.

--threshold=<int> или -t <int> устанавливает минимальное количество файлов с одинаковым содержимым, которые будут считаться дубликатами. Значение по умолчанию — 2.

--statistics или -s выводит статистику в stderr.

Как работает `find-duplicates` ?

Цель find-duplicates — работать как можно быстрее, выполняя как можно меньше работы, эффективно используя каждое ядро ЦП и все ядра ЦП на вашем компьютере.

Он состоит из нескольких компонентов:

Во-первых, он одновременно обходит файловую систему, создавая по одной горутине на каждый подкаталог.
Во-вторых, с учетом того, что файлы могут быть дубликатами только в том случае, если они имеют одинаковый размер, он считывает содержимое файла только в том случае, если обнаружено более одного файла одинакового размера. Это значительно уменьшает как количество системных вызовов, так и объем считываемых данных. Кроме того, поскольку наименьшее возможное время выполнения — это время, необходимое для чтения самого большого файла, файлы большего размера считываются раньше.
В-третьих, содержимое файлов хэшируется с помощью быстрого некриптографического хеширования.

Все компоненты работают одновременно.