vsearch Download – Download des vsearch Quellcodes

vsearch

Anderer Quellcode

VSEARCH 2.29.1

Herunterladen

VSEARCH

Einführung

Ziel dieses Projekts ist es, eine Alternative zum von Robert C. Edgar (2010) entwickelten USEARCH-Tool zu schaffen. Das neue Tool sollte:

über Open-Source-Code mit einer entsprechenden Open-Source-Lizenz verfügen
kostenlos sein, gratis
verfügen über ein 64-Bit-Design, das sehr große Datenbanken und weit mehr als 4 GB Speicher verarbeiten kann
genauso genau oder genauer sein als userarch
genauso schnell oder schneller sein als userarch

Wir haben ein Tool namens VSEARCH implementiert, das De-novo- und referenzbasierte Chimärenerkennung, Clustering, Dereplikation in voller Länge und Präfix, Neureplikation, umgekehrte Komplementierung, Maskierung, paarweise globale All-vs-all-Ausrichtung, exakte und globale Ausrichtungssuche, Shuffling, unterstützt. Unterabtastung und Sortierung. Es unterstützt auch die FASTQ-Dateianalyse, Filterung, Konvertierung und Zusammenführung von Paired-End-Lesevorgängen.

VSEARCH steht für vektorisierte Suche, da das Tool die Parallelität in Form der SIMD-Vektorisierung sowie mehrere Threads nutzt, um genaue Ausrichtungen mit hoher Geschwindigkeit durchzuführen. VSEARCH verwendet einen optimalen globalen Aligner (vollständige dynamische Programmierung Needleman-Wunsch), im Gegensatz zu USEARCH, das standardmäßig einen heuristischen Seed-and-Extend-Aligner verwendet. Dies führt in der Regel zu genaueren Alignments und einer insgesamt verbesserten Empfindlichkeit (Recall) mit VSEARCH, insbesondere bei Alignments mit Lücken.

VSEARCH-Binärdateien werden für GNU/Linux auf fünf 64-Bit-Prozessorarchitekturen bereitgestellt: x86_64, POWER8 (ppc64le), ARMv8 (aarch64), Little-Endian 64-Bit RISC-V (riscv64) und Little-Endian 64-Bit MIPS ( mips64el). Binärdateien werden auch für macOS (Version 10.9 Mavericks oder höher) auf Intel (x86_64) und Apple Silicon (ARMv8) sowie Windows (64-Bit, Version 7 oder höher, auf x86_64) bereitgestellt. VSEARCH enthält nativen SIMD-Code für drei Prozessorarchitekturen (SSE2/SSSE3, AltiVec/VMX/VSX, Neon). Darüber hinaus nutzt VSEARCH die SIMD Everywhere (SIMDe)-Bibliothek, um den Aufbau auf riscv64, mips64el und anderen Little-Endian-Architekturen zu ermöglichen, allerdings ist die Leistung möglicherweise geringer als bei einer nativen Implementierung.

CPU Betriebssystem	GNU/Linux	macOS	Windows
x86_64	✔	✔	✔
ARMv8	✔	✔
POWER8	✔
RISC-V 64 LE	✔
MIPS 64 LE	nicht getestet

Verschiedene Pakete, Plugins und Wrapper für VSEARCH sind auch von anderen Quellen erhältlich – siehe unten.

Der Quellcode wird mit gcc (Versionen 4.8.5 bis 14.0) und llvm-clang (3.8 bis 19.0) korrekt kompiliert. Der Quellcode sollte auch auf FreeBSD- und NetBSD-Systemen kompilierbar sein.

VSEARCH kann Eingabeabfrage- und Datenbankdateien, die mit gzip (.gz) und bzip2 (.bz2) komprimiert sind, direkt lesen, wenn die Bibliotheken zlib und bzip2 verfügbar sind.

Die meisten nukleotidbasierten Befehle und Optionen in USEARCH Version 7 werden unterstützt, einige auch in Version 8. Es wurden die gleichen Optionsnamen wie in USEARCH Version 7 verwendet, um VSEARCH zu einem nahezu lückenlosen Ersatz zu machen. VSEARCH unterstützt keine Aminosäuresequenzen oder lokalen Alignments. Diese Funktionen werden möglicherweise in Zukunft hinzugefügt.

Hilfe bekommen

Wenn Sie in der VSEARCH-Dokumentation keine Antwort finden, besuchen Sie bitte das VSEARCH-Webforum, um eine Frage zu stellen oder eine Diskussion zu starten.

Beispiel

Im folgenden Beispiel identifiziert VSEARCH Sequenzen in der Datei „database.fsa“, die im Plusstrang zu mindestens 90 % mit den Abfragesequenzen in der Datei „queries.fsa“ identisch sind, und schreibt die Ergebnisse in die Datei alnout.txt.

./vsearch --usearch_global queries.fsa --db database.fsa --id 0.9 --alnout alnout.txt

Herunterladen und installieren

Quellverteilung Um die Quelldistribution von einer Version herunterzuladen und die ausführbare Datei und die Dokumentation zu erstellen, verwenden Sie die folgenden Befehle:

 wget https://github.com/torognes/vsearch/archive/v2.29.1.tar.gz
tar xzf v2.29.1.tar.gz
cd vsearch-2.29.1
./autogen.sh
./configure CFLAGS="-O3" CXXFLAGS="-O3"
make ARFLAGS="cr"
sudo make install

Sie können das Installationsverzeichnis mithilfe der Option --prefix=DIR zur configure anpassen. Wenn die Komprimierungsbibliotheken zlib und/oder bzip2 auf dem System installiert sind, werden sie automatisch erkannt und die Unterstützung für komprimierte Dateien wird in vsearch aufgenommen (siehe Abschnitt Abhängigkeiten unten). Die Unterstützung für komprimierte Dateien kann mithilfe der configure --disable-zlib und --disable-bzip2 deaktiviert werden. Eine PDF-Version des Handbuchs wird aus der vsearch.1 Handbuchdatei erstellt, wenn ps2pdf verfügbar ist, es sei denn, dies wird mit der Option --disable-pdfman zum configure deaktiviert. Es wird empfohlen, configure mit den Optionen CFLAGS="-O3" und CXXFLAGS="-O3" auszuführen. Es können auch andere Optionen auf configure angewendet werden. Führen Sie bitte configure -h aus, um alle anzuzeigen. Zum Erstellen von vsearch sind GNU autoconf (Version 2.63 oder höher), automake und der GCC C++ ( g++ ) Compiler erforderlich. Unter Linux ist möglicherweise Version 3.82 oder höher von make erforderlich, während Version 3.81 unter macOS ausreichend ist.

Um VSEARCH auf Debian und ähnlichen Linux-Distributionen (Ubuntu usw.) zu erstellen, benötigen Sie die folgenden Pakete: autoconf, automake, g++, ghostscript, groff, libbz2-dev, make, zlib1g-dev. Schließen Sie libsimde-dev ein, um auf riscv64 oder mips64el zu bauen.

Um VSEARCH auf Fedora und ähnlichen Linux-Distributionen (RHEL, Centos usw.) zu erstellen, benötigen Sie die folgenden Pakete: autoconf, automake, bzip2-devel, gcc-c++, ghostscript, groff-base, make, zlib-devel.

Anstatt die Quelldistribution als komprimiertes Archiv herunterzuladen, können Sie das Repo klonen und wie unten gezeigt erstellen. Die oben beschriebenen configure bleiben weiterhin gültig.

 git clone https://github.com/torognes/vsearch.git
cd vsearch
./autogen.sh
./configure CFLAGS="-O3" CXXFLAGS="-O3"
make ARFLAGS="cr"
sudo make install

Binärverteilung : Ab Version 1.4.0 werden Binärverteilungsdateien, die vorkompilierte Binärdateien sowie die Dokumentation enthalten, als Teil jeder Version zur Verfügung gestellt. Die enthaltenen ausführbaren Dateien unterstützen Eingabedateien, die von zlib und bzip2 komprimiert wurden (wobei Dateien normalerweise auf .gz oder .bz2 enden).

Binärverteilungen werden für x86-64-Systeme mit GNU/Linux, macOS (Version 10.7 oder höher) oder Windows (64-Bit, Version 7 oder höher) sowie 64-Bit-AMDv8-Systeme (aarch64) mit GNU/Linux oder macOS bereitgestellt sowie POWER8 (ppc64le), 64-Bit-Little-Endian-RISC-V (risv64) und 64-Bit-Little-Endian-MIPS (mips64el)-Systeme, auf denen GNU/Linux ausgeführt wird. Eine universelle macOS-Binärdatei wird ebenfalls bereitgestellt. Darüber hinaus wird eine x86_64-Binärdatei bereitgestellt, die für die eingestellten Linux-Distributionen RHEL 7 und CentOS 7 erstellt wurde. Die anderen Linux-Binärdateien basieren auf Debian 11 (oldstable, Bullseye). Statische Binärdateien sind für alle Linux-Architekturen außer x86_64 verfügbar. Diese können auf Systemen verwendet werden, auf denen nicht alle erforderlichen Bibliotheken installiert sind. Die Windows-Binärdatei wurde mit Cross-Compilation mit Mingw-w64 erstellt.

Laden Sie die entsprechende ausführbare Datei für Ihr System mit den folgenden Befehlen herunter, wenn Sie ein Linux- oder macOS-System verwenden:

wget https://github.com/torognes/vsearch/releases/download/v{VERSION}/vsearch-{VERSION}-{OS}-{ARCH}.tar.gz
tar xzf vsearch-{VERSION}-{OS}-{ARCH}.tar.gz

Ersetzen Sie {VERSION} durch die VSEARCH-Versionsnummer (z. B. 2.29.1 ), {OS} durch das Zielbetriebssystem ( linux oder macos ) und {ARCH} durch die Architektur ( x86_64 , aarch64 , ppc64le , riscv64 oder mips64el ). Sie könnten -static nach {ARCH} hinzufügen, um eine statisch kompilierte Version für Linux (außer x86_64) zu erhalten. Der Name der Binärdatei für die Linux-Distributionen RHEL 7 und CentOS 7 endet auf -ubi7 .

Wenn Sie Windows verwenden, laden Sie den Inhalt dieser Datei herunter und extrahieren (entpacken):

 https://github.com/torognes/vsearch/releases/download/v{VERSION}/vsearch-{VERSION}-win-x86_64.zip

Linux und Mac : Sie haben jetzt die Binärdistribution in einem Ordner namens vsearch-{VERSION}-{OS}-{ARCH} in dem Sie drei Unterordner bin , man und doc finden. Wir empfehlen, eine Kopie oder einen symbolischen Link zur vsearch-Binärdatei bin/vsearch in einem in Ihrem $PATH enthaltenen Ordner sowie eine Kopie oder einen symbolischen Link zur vsearch-Manpage man/vsearch.1 in einem in Ihrem $MANPATH enthaltenen Ordner zu erstellen . Die PDF-Version des Handbuchs ist unter doc/vsearch_manual.pdf verfügbar.

Windows : Sie haben jetzt die Binärverteilung in einem Ordner namens vsearch-{VERSION}-win-x86_64 . Die ausführbare vsearch-Datei heißt vsearch.exe . Das Handbuch im PDF-Format heißt vsearch_manual.pdf . Wenn Sie vsearch.exe von jedem Eingabeaufforderungsfenster aus aufrufen möchten, können Sie die ausführbare VSEARCH-Datei in einem Ordner ablegen (z. B. C:Users<yourname>bin ) und den neuen Ordner zum Path hinzufügen : Öffnen Sie das Fenster Environment Variables indem Sie im Startmenü danach suchen, Benutzervariablen Edit , ;C:Users<yourname>bin am Ende der Path hinzufügen und Ihre Änderungen speichern. Die Windows-Distribution enthält außerdem die Dateien libbz2.dll und zlib1.dll die zum Lesen komprimierter Eingabedateien erforderlich sind. Diese DLLs wurden für mingw-w64 von der MSYS2-Plattform bezogen.

Dokumentation: Das VSEARCH-Benutzerhandbuch ist im man -Ordner in Form einer Manpage verfügbar. Eine PDF-Version (vsearch_manual.pdf) wird von make generiert. Um die Manpage manuell zu installieren, kopieren Sie die Datei vsearch.1 oder erstellen Sie einen symbolischen Link zu vsearch.1 in einem Ordner, der in Ihrem $MANPATH enthalten ist. Das Handbuch in beiden Formaten ist auch mit der Binärdistribution verfügbar. Das Handbuch im PDF-Format (vsearch_manual.pdf) ist ebenfalls der neuesten Version beigefügt.

Pakete, Plugins und Wrapper

Conda-Paket Dank des BioConda-Teams gibt es jetzt ein vsearch-Paket in Conda.

Debian-Paket Dank des Debian Med-Teams gibt es jetzt ein vsearch-Paket in Debian.

FreeBSD-Ports-Paket Dank Jason Bacon ist ein vsearch-FreeBSD-Ports-Paket verfügbar. Installieren Sie das Binärpaket mit pkg install vsearch oder erstellen Sie es mit zusätzlichen Optimierungen aus dem Quellcode.

Galaxy Wrapper Dank der Arbeit der Mitglieder der Intergalactic Utilities Commission ist VSEARCH nun Teil des Galaxy ToolShed.

Homebrew-Paket Dank Torsten Seeman wurde ein vsearch-Paket für Homebrew erstellt.

Pkgsrc-Paket Dank Jason Bacon ist ein vsearch pkgsrc-Paket für NetBSD und andere UNIX-ähnliche Systeme verfügbar. Installieren Sie das Binärpaket mit pkgin install vsearch oder erstellen Sie es mit zusätzlichen Optimierungen aus dem Quellcode.

QIIME 2-Plugin Dank des QIIME 2-Teams gibt es jetzt ein Plugin namens q2-vsearch für QIIME 2.

Konvertieren der Ausgabe in eine Biom-Datei zur Verwendung in QIIME und anderer Software

Mit dem Befehl from-uc in Biom 2.1.5 oder höher ist es möglich, Daten in einer von vsearch erstellten .uc Datei in eine Biom-Datei zu konvertieren, die von QIIME und anderer Software gelesen werden kann. Es wird hier beschrieben.

Bitte beachten Sie, dass VSEARCH Version 2.2.0 und höher in der Lage ist, OTU-Tabellen direkt im Biom 1.0-Format sowie im klassischen und Mothur-Format auszugeben.

Details zur Umsetzung und erste Einschätzung

Einzelheiten entnehmen Sie bitte dem Papier:

Rognes T, Flouri T, Nichols B, Quince C, Mahé F. (2016) VSEARCH: ein vielseitiges Open-Source-Tool für Metagenomik. PeerJ 4:e2584 doi: 10.7717/peerj.2584

Abhängigkeiten

Das Kompilieren von VSEARCH erfordert entweder GCC ( g++ ) oder clang , make und die Autotools ( ui-auto auf Debian-basierten Distributionen). Optional sind die Header-Dateien für die folgenden beiden optionalen Bibliotheken erforderlich, wenn Unterstützung für mit gzip und bzip2 komprimierte FASTA- und FASTQ-Eingabedateien benötigt wird:

libz (zlib-Bibliothek) ( zlib.h Header-Datei, verfügbar als zlib1g-dev auf Debian-basierten Distributionen) (optional)
libbz2 (bzip2lib-Bibliothek) ( bzlib.h Header-Datei, verfügbar als libbz2-dev auf Debian-basierten Distributionen) (optional)

VSEARCH prüft automatisch, ob diese Bibliotheken verfügbar sind und lädt sie dynamisch.

Unter Windows heißen diese Bibliotheken zlib1.dll und libbz2.dll . Diese DLLs sind in der veröffentlichten Distribution von vsearch 2.29.1 und höher enthalten.

Um die PDF-Datei mit dem Handbuch zu erstellen, wird das Tool ps2pdf benötigt. Es ist Teil des ghostscript Pakets.

VSEARCH-Lizenz und Lizenzen von Drittanbietern

Der VSEARCH-Code ist doppelt lizenziert, entweder unter der GNU General Public License Version 3 oder unter der BSD-2-Klausel-Lizenz. Weitere Informationen finden Sie in LICENSE.txt.

VSEARCH enthält Code aus mehreren anderen Projekten. Wir danken den Autoren für die Bereitstellung ihres Quellcodes.

VSEARCH enthält Code aus Googles CityHash-Projekt von Geoff Pike und Jyrki Alakuijala und bietet einige hervorragende Hash-Funktionen, die unter einer MIT-Lizenz verfügbar sind.

VSEARCH enthält Code, der aus dem DUST-Programm von Tatusov und Lipman stammt und gemeinfrei ist.

VSEARCH enthält gemeinfreien Code, der von Alexander Peslyak für den MD5-Message-Digest-Algorithmus geschrieben wurde.

VSEARCH enthält gemeinfreien Code, der von Steve Reid und anderen für den SHA1-Message-Digest-Algorithmus geschrieben wurde.

Die VSEARCH-Distribution enthält Code von GNU Autoconf, der normalerweise unter der GNU General Public License verfügbar ist, aber möglicherweise mit der speziellen Autoconf-Konfigurationsskriptausnahme verteilt wird.

VSEARCH kann Code aus der zlib-Bibliothek enthalten, der von Jean-loup Gailly und Mark Adler urheberrechtlich geschützt ist und unter der zlib-Lizenz vertrieben wird.

VSEARCH kann Code aus der bzip2-Bibliothek enthalten, der von Julian R. Seward urheberrechtlich geschützt ist und unter einer BSD-ähnlichen Lizenz vertrieben wird.

Code

Der Code ist größtenteils in C++ geschrieben.

Datei	Beschreibung
align_simd.cc	SIMD parallele globale Ausrichtung von 1 Abfrage mit 8 Datenbanksequenzen
allpairs.cc	Alles-gegen-Alle optimale globale paarweise Ausrichtung (keine Heuristik)
arch.cc	Architekturspezifischer Code (Mac/Linux)
attributes.cc	Extrahieren und Drucken von Attributen in FASTA-Headern
bitmap.cc	Implementierung von Bitmaps
chimera.cc	Chimärenerkennung
city.cc	CityHash-Code
Cluster.cc	Clustering (cluster_fast und cluster_smallmem)
cpu.cc	Code abhängig von bestimmten CPU-Funktionen (z. B. ssse3)
geschnitten.cc	Schneiden der Restriktionsstelle
db.cc	Verwaltet das Lesen, den Zugriff usw. der Datenbankdatei
dbhash.cc	Datenbank-Hashing für exakte Suchen
dbindex.cc	Indiziert die Datenbank durch Identifizierung eindeutiger kmer in den Sequenzen
derep.cc	Dereplikation, in voller Länge
derep_prefix.cc	Dereplikation, Präfix
derep_smallmem.cc	Dereplikation, geringer Speicherverbrauch
dynlibs.cc	Dynamisches Laden von Komprimierungsbibliotheken
eestats.cc	Erstellen Sie Statistiken für den Befehl fastq_eestats
fasta.cc	FASTA-Dateiparser
fasta2fastq.cc	FASTA-zu-FASTQ-Konvertierung
fastq.cc	FASTQ-Dateiparser
fastq_chars.cc	FASTQ-Statistiken
fastq_join.cc	FASTQ Paired-End-Leseverbindungen
fastqops.cc	FASTQ-Dateistatistiken usw
fastx.cc	Erkennung von FASTA- und FASTQ-Dateien, Wrapper für FASTA- und FASTQ-Parser
filter.cc	Trimmen und Filtern von Sequenzen in FASTA- und FASTQ-Dateien
getseq.cc	Extraktion von Sequenzen basierend auf Header-Labels
kmerhash.cc	Hash für kmer, der von der Paired-End-Lesezusammenführung verwendet wird
linmemalign.cc	Globaler Sequenz-Aligner mit linearem Speicher
Karten.cc	Verschiedene Zeichenzuordnungs-Arrays
mask.cc	Maskierung (STAUB)
md5.c	MD5-Nachrichtenauszug
mergepairs.cc	Paired-End-Lesezusammenführung
minheap.cc	Eine Minheap-Implementierung für die Liste der besten kmer-Übereinstimmungen
msa.cc	Einfaches Mehrfachsequenz-Alignment und Konsensus-Sequenzberechnung für Cluster
orient.cc	Orientierungsrichtung von Sequenzen anhand der Referenzdatenbank
otutable.cc	Generieren Sie OTU-Tabellen in verschiedenen Formaten
rereplicate.cc	Neuvervielfältigung
Ergebnisse.cc	Ausgabeergebnisse in verschiedenen Formaten (Alnout, Userout, Blast6, UC)
search.cc	Implementiert die Suche mithilfe der globalen Ausrichtung
search_exact.cc	Exakte Suchfunktionen
searchcore.cc	Kernsuchfunktionen für Suche, Clustering und Chimärenerkennung
sff_convert.cc	SFF-zu-FASTQ-Dateikonvertierung
sha1.c	SHA1-Nachrichtenauszug
showalign.cc	Geben Sie anhand einer CIGAR-Zeichenfolge und der Sequenzen ein Alignment in einer für Menschen lesbaren Weise aus
shuffle.cc	Sequenzen mischen
sintax.cc	Taxonomische Klassifizierung mit der Sintax-Methode
sortbylength.cc	Code zum Sortieren nach Länge
sortbysize.cc	Code zum Sortieren nach Größe (Häufigkeit)
subsample.cc	Unterabtastung liest aus einer FASTA-Datei
tax.cc	Analyse von Taxonomieinformationen
udb.cc	Handhabung von UDB-Datenbankdateien
unique.cc	Finden Sie einzigartige Kilometer in einer Sequenz
userfields.cc	Code zum Parsen des Userfields-Optionsarguments
util.cc	Verschiedene allgemeine Dienstprogrammfunktionen
vsearch.cc	Hauptprogrammdatei, allgemeine Initialisierung, liest Argumente und analysiert Optionen, schreibt Informationen.
utils/maps.cc	Dienstprogramme, Karten zur Kodierung von Nukleotiden
utils/seqcmp.cc	Dienstprogramme, Sequenzvergleich

VSEARCH kann mit zlib- oder bzip2-Integration kompiliert werden, was das Lesen komprimierter FASTA-Dateien ermöglicht. Hierzu werden die Bibliotheken zlib und bzip2 benötigt.

Käfer

Alle Fehlerberichte werden sehr geschätzt. Sie können hier auf GitHub einen Fehlerbericht als Problem einreichen (bevorzugt), eine Nachricht im VSEARCH-Webforum posten oder eine E-Mail an [email protected] senden.

Einschränkungen

VSEARCH ist für eher kurze Sequenzen konzipiert und wird langsam, wenn Sequenzen länger als etwa 5.000 bp sind. Dies liegt daran, dass für ausgewählte Sequenzen immer eine optimale globale Ausrichtung durchgeführt wird.

Das VSEARCH-Team

Die Hauptmitwirkenden an VSEARCH:

Torbjørn Rognes [email protected] (Kodierung, Tests, Dokumentation, Bewertung)
Frédéric Mahé [email protected] (Dokumentation, Tests, Funktionsvorschläge)
Tomáš Flouri [email protected] (Codierung, Test)
Christopher Quince [email protected] (Initiator, Funktionsvorschläge, Bewertung)
Ben Nichols [email protected] (Bewertung)

Danksagungen

Besonderer Dank geht an die folgenden Personen für Patches, Vorschläge, Computerzugriff usw.:

Davide Albanese
Colin Brislawn
Michael R. Crusoe
Jeff Epler
Christopher M. Sullivan
Andreas Tille
Sarah Westcott

Unter Berufung auf VSEARCH

Bitte zitieren Sie die folgende Veröffentlichung, wenn Sie VSEARCH verwenden:

Rognes T, Flouri T, Nichols B, Quince C, Mahé F. (2016) VSEARCH: ein vielseitiges Open-Source-Tool für Metagenomik. PeerJ 4:e2584. doi: 10.7717/peerj.2584

Bitte beachten Sie, dass auch die Nennung eines der zugrunde liegenden Algorithmen, z. B. UCHIME, angemessen sein kann.

Testdatensätze

Testdatensätze (im separaten vsearch-data-Repository zu finden) wurden aus dem BioMarks-Projekt (Logares et al. 2014), dem TARA OCEANS-Projekt (Karsenti et al. 2011) und der Protist Ribosomal Reference Database (PR ² ) (Guillou et al.) bezogen al. 2013).

Referenzen

Edgar RC (2010) Suche und Clustering um Größenordnungen schneller als BLAST. Bioinformatik , 26 (19): 2460-2461. doi:10.1093/bioinformatics/btq461
Edgar RC (2016) SINTAX: ein einfacher nicht-Bayesianischer Taxonomie-Klassifikator für 16S- und ITS-Sequenzen. bioRxiv . doi:10.1101/074161
Edgar RC (2016) UNOISE2: verbesserte Fehlerkorrektur für Illumina 16S und ITS-Amplikonsequenzierung. bioRxiv . doi:10.1101/081257
Edgar RC, Flyvbjerg H (2015) Fehlerfilterung, Paarzusammenstellung und Fehlerkorrektur für Sequenzierungslesevorgänge der nächsten Generation. Bioinformatik , 31 (21): 3476-3482. doi:10.1093/bioinformatics/btv401
Edgar RC, Haas BJ, Clemente JC, Quince C, Knight R (2011) UCHIME verbessert die Empfindlichkeit und Geschwindigkeit der Chimärenerkennung. Bioinformatik , 27 (16): 2194-2200. doi:10.1093/bioinformatics/btr381
Guillou L, Bachar D, Audic S, Bass D, Berney C, Bittner L, Boutte C, Burgaud G, de Vargas C, Decelle J, del Campo J, Dolan J, Dunthorn M, Edvardsen B, Holzmann M, Kooistra W, Lara E, Lebescot N, Logares R, Mahé F, Massana R, Montresor M, Morard R, Not F, Pawlowski J, Probert I, Sauvadet AL, Siano R, Stoeck T, Vaulot D, Zimmermann P & Christen R (2013) The Protist Ribosomal Reference Database (PR2): ein Katalog einzelliger eukaryotischer Small Sub-Unit rRNA-Sequenzen mit kuratierter Taxonomie. Nucleic Acids Research , 41 (D1), D597-D604. doi:10.1093/nar/gks1160
Karsenti E, González Acinas S, Bork P, Bowler C, de Vargas C, Raes J, Sullivan MB, Arendt D, Benzoni F, Claverie JM, Follows M, Jaillon O, Gorsky G, Hingamp P, Iudicone D, Kandels-Lewis S, Krzic U, Not F, Ogata H, Pesant S, Reynaud EG, Sardet C, Sieracki ME, Speich S, Velayoudon D, Weissenbach J, Wincker P & the Tara Oceans Consortium (2011) Ein ganzheitlicher Ansatz zur marinen Ökosystembiologie. PLoS Biology , 9(10), e1001177. doi:10.1371/journal.pbio.1001177
Logares R, Audic S, Bass D, Bittner L, Boutte C, Christen R, Claverie JM, Decelle J, Dolan JR, Dunthorn M, Edvardsen B, Gobet A, Kooistra WHCF, Mahé F, Not F, Ogata H, Pawlowski J , Pernice MC, Romac S, Shalchian-Tabrizi K, Simon N, Stoeck T, Santini S, Siano R, Wincker P, Zingone A, Richards T, de Vargas C & Massana R (2014) Die Strukturierung seltener und reichlich vorhandener Gemeinschaftsgemeinschaften in marinen planktonischen mikrobiellen Eukaryoten an der Küste. Current Biology , 24(8), 813-821. doi:10.1016/j.cub.2014.02.050
Rognes T (2011) Schnellere Smith-Waterman-Datenbanksuchen durch Intersequenz-SIMD-Parallelisierung. BMC Bioinformatics , 12: 221. doi:10.1186/1471-2105-12-221