find duplicates Download - find duplicates Download des Quellcodes

find duplicates

Anderer Quellcode

1.0.0

Herunterladen

`find-duplicates`

find-duplicates findet doppelte Dateien schnell anhand der xxHashes ihres Inhalts.

Installation

$ go install github.com/twpayne/find-duplicates@latest

Beispiel

$ find-duplicates
{
  "cdb8979062cbdf9c169563ccc54704f0": [
    ".git/refs/remotes/origin/main",
    ".git/refs/heads/main",
    ".git/ORIG_HEAD"
  ]
}

Verwendung

 find-duplicates [options] [paths...]

paths sind Verzeichnisse, die rekursiv durchlaufen werden können. Wenn keine paths angegeben sind, wird das aktuelle Verzeichnis durchlaufen.

Die Ausgabe ist ein JSON-Objekt mit Eigenschaften für jeden beobachteten xxHash und wertet Arrays von Dateinamen mit Inhalten mit diesem xxHash aus.

Optionen sind:

--keep-going oder -k weitermachen nach Fehlern.

--output=<file> oder -o <file> schreibt die Ausgabe in <file> , Standard ist stdout.

--threshold=<int> oder -t <int> legt die Mindestanzahl von Dateien mit demselben Inhalt fest, die als Duplikate betrachtet werden sollen. Der Standardwert ist 2.

--statistics oder -s gibt Statistiken an stderr aus.

Wie funktioniert `find-duplicates` ?

find-duplicates zielt darauf ab, so schnell wie möglich zu sein, indem es so wenig Arbeit wie möglich erledigt, jeden CPU-Kern effizient nutzt und alle CPU-Kerne auf Ihrem Computer nutzt.

Es besteht aus mehreren Komponenten:

Erstens durchsucht es das Dateisystem gleichzeitig und erzeugt eine Goroutine pro Unterverzeichnis.
Zweitens: Aufgrund der Beobachtung, dass Dateien nur dann Duplikate sein können, wenn sie die gleiche Größe haben, werden Dateiinhalte erst dann gelesen, wenn mehr als eine Datei mit der gleichen Größe gefunden wurde. Dadurch wird sowohl die Anzahl der Systemaufrufe als auch die Menge der gelesenen Daten erheblich reduziert. Da außerdem die kürzestmögliche Laufzeit die Zeit ist, die zum Lesen der größten Datei benötigt wird, werden größere Dateien früher gelesen.
Drittens werden die Dateiinhalte mit einem schnellen, nicht kryptografischen Hash gehasht.

Alle Komponenten laufen gleichzeitig.