Ziel dieses Projekts ist es, eine Alternative zum von Robert C. Edgar (2010) entwickelten USEARCH-Tool zu schaffen. Das neue Tool sollte:
Wir haben ein Tool namens VSEARCH implementiert, das De-novo- und referenzbasierte Chimärenerkennung, Clustering, Dereplikation in voller Länge und Präfix, Neureplikation, umgekehrte Komplementierung, Maskierung, paarweise globale All-vs-all-Ausrichtung, exakte und globale Ausrichtungssuche, Shuffling, unterstützt. Unterabtastung und Sortierung. Es unterstützt auch die FASTQ-Dateianalyse, Filterung, Konvertierung und Zusammenführung von Paired-End-Lesevorgängen.
VSEARCH steht für vektorisierte Suche, da das Tool die Parallelität in Form der SIMD-Vektorisierung sowie mehrere Threads nutzt, um genaue Ausrichtungen mit hoher Geschwindigkeit durchzuführen. VSEARCH verwendet einen optimalen globalen Aligner (vollständige dynamische Programmierung Needleman-Wunsch), im Gegensatz zu USEARCH, das standardmäßig einen heuristischen Seed-and-Extend-Aligner verwendet. Dies führt in der Regel zu genaueren Alignments und einer insgesamt verbesserten Empfindlichkeit (Recall) mit VSEARCH, insbesondere bei Alignments mit Lücken.
VSEARCH-Binärdateien werden für GNU/Linux auf fünf 64-Bit-Prozessorarchitekturen bereitgestellt: x86_64, POWER8 (ppc64le), ARMv8 (aarch64), Little-Endian 64-Bit RISC-V (riscv64) und Little-Endian 64-Bit MIPS ( mips64el). Binärdateien werden auch für macOS (Version 10.9 Mavericks oder höher) auf Intel (x86_64) und Apple Silicon (ARMv8) sowie Windows (64-Bit, Version 7 oder höher, auf x86_64) bereitgestellt. VSEARCH enthält nativen SIMD-Code für drei Prozessorarchitekturen (SSE2/SSSE3, AltiVec/VMX/VSX, Neon). Darüber hinaus nutzt VSEARCH die SIMD Everywhere (SIMDe)-Bibliothek, um den Aufbau auf riscv64, mips64el und anderen Little-Endian-Architekturen zu ermöglichen, allerdings ist die Leistung möglicherweise geringer als bei einer nativen Implementierung.
CPU Betriebssystem | GNU/Linux | macOS | Windows |
---|---|---|---|
x86_64 | ✔ | ✔ | ✔ |
ARMv8 | ✔ | ✔ | |
POWER8 | ✔ | ||
RISC-V 64 LE | ✔ | ||
MIPS 64 LE | nicht getestet |
Verschiedene Pakete, Plugins und Wrapper für VSEARCH sind auch von anderen Quellen erhältlich – siehe unten.
Der Quellcode wird mit gcc
(Versionen 4.8.5 bis 14.0) und llvm-clang
(3.8 bis 19.0) korrekt kompiliert. Der Quellcode sollte auch auf FreeBSD- und NetBSD-Systemen kompilierbar sein.
VSEARCH kann Eingabeabfrage- und Datenbankdateien, die mit gzip (.gz) und bzip2 (.bz2) komprimiert sind, direkt lesen, wenn die Bibliotheken zlib und bzip2 verfügbar sind.
Die meisten nukleotidbasierten Befehle und Optionen in USEARCH Version 7 werden unterstützt, einige auch in Version 8. Es wurden die gleichen Optionsnamen wie in USEARCH Version 7 verwendet, um VSEARCH zu einem nahezu lückenlosen Ersatz zu machen. VSEARCH unterstützt keine Aminosäuresequenzen oder lokalen Alignments. Diese Funktionen werden möglicherweise in Zukunft hinzugefügt.
Wenn Sie in der VSEARCH-Dokumentation keine Antwort finden, besuchen Sie bitte das VSEARCH-Webforum, um eine Frage zu stellen oder eine Diskussion zu starten.
Im folgenden Beispiel identifiziert VSEARCH Sequenzen in der Datei „database.fsa“, die im Plusstrang zu mindestens 90 % mit den Abfragesequenzen in der Datei „queries.fsa“ identisch sind, und schreibt die Ergebnisse in die Datei alnout.txt.
./vsearch --usearch_global queries.fsa --db database.fsa --id 0.9 --alnout alnout.txt
Quellverteilung Um die Quelldistribution von einer Version herunterzuladen und die ausführbare Datei und die Dokumentation zu erstellen, verwenden Sie die folgenden Befehle:
wget https://github.com/torognes/vsearch/archive/v2.29.1.tar.gz
tar xzf v2.29.1.tar.gz
cd vsearch-2.29.1
./autogen.sh
./configure CFLAGS="-O3" CXXFLAGS="-O3"
make ARFLAGS="cr"
sudo make install
Sie können das Installationsverzeichnis mithilfe der Option --prefix=DIR
zur configure
anpassen. Wenn die Komprimierungsbibliotheken zlib und/oder bzip2 auf dem System installiert sind, werden sie automatisch erkannt und die Unterstützung für komprimierte Dateien wird in vsearch aufgenommen (siehe Abschnitt Abhängigkeiten unten). Die Unterstützung für komprimierte Dateien kann mithilfe der configure
--disable-zlib
und --disable-bzip2
deaktiviert werden. Eine PDF-Version des Handbuchs wird aus der vsearch.1
Handbuchdatei erstellt, wenn ps2pdf
verfügbar ist, es sei denn, dies wird mit der Option --disable-pdfman
zum configure
deaktiviert. Es wird empfohlen, configure mit den Optionen CFLAGS="-O3"
und CXXFLAGS="-O3"
auszuführen. Es können auch andere Optionen auf configure
angewendet werden. Führen Sie bitte configure -h
aus, um alle anzuzeigen. Zum Erstellen von vsearch sind GNU autoconf (Version 2.63 oder höher), automake und der GCC C++ ( g++
) Compiler erforderlich. Unter Linux ist möglicherweise Version 3.82 oder höher von make
erforderlich, während Version 3.81 unter macOS ausreichend ist.
Um VSEARCH auf Debian und ähnlichen Linux-Distributionen (Ubuntu usw.) zu erstellen, benötigen Sie die folgenden Pakete: autoconf, automake, g++, ghostscript, groff, libbz2-dev, make, zlib1g-dev. Schließen Sie libsimde-dev ein, um auf riscv64 oder mips64el zu bauen.
Um VSEARCH auf Fedora und ähnlichen Linux-Distributionen (RHEL, Centos usw.) zu erstellen, benötigen Sie die folgenden Pakete: autoconf, automake, bzip2-devel, gcc-c++, ghostscript, groff-base, make, zlib-devel.
Anstatt die Quelldistribution als komprimiertes Archiv herunterzuladen, können Sie das Repo klonen und wie unten gezeigt erstellen. Die oben beschriebenen configure
bleiben weiterhin gültig.
git clone https://github.com/torognes/vsearch.git
cd vsearch
./autogen.sh
./configure CFLAGS="-O3" CXXFLAGS="-O3"
make ARFLAGS="cr"
sudo make install
Binärverteilung : Ab Version 1.4.0 werden Binärverteilungsdateien, die vorkompilierte Binärdateien sowie die Dokumentation enthalten, als Teil jeder Version zur Verfügung gestellt. Die enthaltenen ausführbaren Dateien unterstützen Eingabedateien, die von zlib und bzip2 komprimiert wurden (wobei Dateien normalerweise auf .gz
oder .bz2
enden).
Binärverteilungen werden für x86-64-Systeme mit GNU/Linux, macOS (Version 10.7 oder höher) oder Windows (64-Bit, Version 7 oder höher) sowie 64-Bit-AMDv8-Systeme (aarch64) mit GNU/Linux oder macOS bereitgestellt sowie POWER8 (ppc64le), 64-Bit-Little-Endian-RISC-V (risv64) und 64-Bit-Little-Endian-MIPS (mips64el)-Systeme, auf denen GNU/Linux ausgeführt wird. Eine universelle macOS-Binärdatei wird ebenfalls bereitgestellt. Darüber hinaus wird eine x86_64-Binärdatei bereitgestellt, die für die eingestellten Linux-Distributionen RHEL 7 und CentOS 7 erstellt wurde. Die anderen Linux-Binärdateien basieren auf Debian 11 (oldstable, Bullseye). Statische Binärdateien sind für alle Linux-Architekturen außer x86_64 verfügbar. Diese können auf Systemen verwendet werden, auf denen nicht alle erforderlichen Bibliotheken installiert sind. Die Windows-Binärdatei wurde mit Cross-Compilation mit Mingw-w64 erstellt.
Laden Sie die entsprechende ausführbare Datei für Ihr System mit den folgenden Befehlen herunter, wenn Sie ein Linux- oder macOS-System verwenden:
wget https://github.com/torognes/vsearch/releases/download/v{VERSION}/vsearch-{VERSION}-{OS}-{ARCH}.tar.gz
tar xzf vsearch-{VERSION}-{OS}-{ARCH}.tar.gz
Ersetzen Sie {VERSION}
durch die VSEARCH-Versionsnummer (z. B. 2.29.1
), {OS}
durch das Zielbetriebssystem ( linux
oder macos
) und {ARCH}
durch die Architektur ( x86_64
, aarch64
, ppc64le
, riscv64
oder mips64el
). Sie könnten -static
nach {ARCH}
hinzufügen, um eine statisch kompilierte Version für Linux (außer x86_64) zu erhalten. Der Name der Binärdatei für die Linux-Distributionen RHEL 7 und CentOS 7 endet auf -ubi7
.
Wenn Sie Windows verwenden, laden Sie den Inhalt dieser Datei herunter und extrahieren (entpacken):
https://github.com/torognes/vsearch/releases/download/v{VERSION}/vsearch-{VERSION}-win-x86_64.zip
Linux und Mac : Sie haben jetzt die Binärdistribution in einem Ordner namens vsearch-{VERSION}-{OS}-{ARCH}
in dem Sie drei Unterordner bin
, man
und doc
finden. Wir empfehlen, eine Kopie oder einen symbolischen Link zur vsearch-Binärdatei bin/vsearch
in einem in Ihrem $PATH
enthaltenen Ordner sowie eine Kopie oder einen symbolischen Link zur vsearch-Manpage man/vsearch.1
in einem in Ihrem $MANPATH
enthaltenen Ordner zu erstellen . Die PDF-Version des Handbuchs ist unter doc/vsearch_manual.pdf
verfügbar.
Windows : Sie haben jetzt die Binärverteilung in einem Ordner namens vsearch-{VERSION}-win-x86_64
. Die ausführbare vsearch-Datei heißt vsearch.exe
. Das Handbuch im PDF-Format heißt vsearch_manual.pdf
. Wenn Sie vsearch.exe
von jedem Eingabeaufforderungsfenster aus aufrufen möchten, können Sie die ausführbare VSEARCH-Datei in einem Ordner ablegen (z. B. C:Users<yourname>bin
) und den neuen Ordner zum Path
hinzufügen : Öffnen Sie das Fenster Environment Variables
indem Sie im Startmenü danach suchen, Benutzervariablen Edit
, ;C:Users<yourname>bin
am Ende der Path
hinzufügen und Ihre Änderungen speichern. Die Windows-Distribution enthält außerdem die Dateien libbz2.dll
und zlib1.dll
die zum Lesen komprimierter Eingabedateien erforderlich sind. Diese DLLs wurden für mingw-w64 von der MSYS2-Plattform bezogen.
Dokumentation: Das VSEARCH-Benutzerhandbuch ist im man
-Ordner in Form einer Manpage verfügbar. Eine PDF-Version (vsearch_manual.pdf) wird von make
generiert. Um die Manpage manuell zu installieren, kopieren Sie die Datei vsearch.1
oder erstellen Sie einen symbolischen Link zu vsearch.1
in einem Ordner, der in Ihrem $MANPATH
enthalten ist. Das Handbuch in beiden Formaten ist auch mit der Binärdistribution verfügbar. Das Handbuch im PDF-Format (vsearch_manual.pdf) ist ebenfalls der neuesten Version beigefügt.
Conda-Paket Dank des BioConda-Teams gibt es jetzt ein vsearch-Paket in Conda.
Debian-Paket Dank des Debian Med-Teams gibt es jetzt ein vsearch-Paket in Debian.
FreeBSD-Ports-Paket Dank Jason Bacon ist ein vsearch-FreeBSD-Ports-Paket verfügbar. Installieren Sie das Binärpaket mit pkg install vsearch
oder erstellen Sie es mit zusätzlichen Optimierungen aus dem Quellcode.
Galaxy Wrapper Dank der Arbeit der Mitglieder der Intergalactic Utilities Commission ist VSEARCH nun Teil des Galaxy ToolShed.
Homebrew-Paket Dank Torsten Seeman wurde ein vsearch-Paket für Homebrew erstellt.
Pkgsrc-Paket Dank Jason Bacon ist ein vsearch pkgsrc-Paket für NetBSD und andere UNIX-ähnliche Systeme verfügbar. Installieren Sie das Binärpaket mit pkgin install vsearch
oder erstellen Sie es mit zusätzlichen Optimierungen aus dem Quellcode.
QIIME 2-Plugin Dank des QIIME 2-Teams gibt es jetzt ein Plugin namens q2-vsearch für QIIME 2.
Mit dem Befehl from-uc
in Biom 2.1.5 oder höher ist es möglich, Daten in einer von vsearch erstellten .uc
Datei in eine Biom-Datei zu konvertieren, die von QIIME und anderer Software gelesen werden kann. Es wird hier beschrieben.
Bitte beachten Sie, dass VSEARCH Version 2.2.0 und höher in der Lage ist, OTU-Tabellen direkt im Biom 1.0-Format sowie im klassischen und Mothur-Format auszugeben.
Einzelheiten entnehmen Sie bitte dem Papier:
Rognes T, Flouri T, Nichols B, Quince C, Mahé F. (2016) VSEARCH: ein vielseitiges Open-Source-Tool für Metagenomik. PeerJ 4:e2584 doi: 10.7717/peerj.2584
Das Kompilieren von VSEARCH erfordert entweder GCC ( g++
) oder clang
, make
und die Autotools ( ui-auto
auf Debian-basierten Distributionen). Optional sind die Header-Dateien für die folgenden beiden optionalen Bibliotheken erforderlich, wenn Unterstützung für mit gzip und bzip2 komprimierte FASTA- und FASTQ-Eingabedateien benötigt wird:
zlib.h
Header-Datei, verfügbar als zlib1g-dev
auf Debian-basierten Distributionen) (optional)bzlib.h
Header-Datei, verfügbar als libbz2-dev
auf Debian-basierten Distributionen) (optional)VSEARCH prüft automatisch, ob diese Bibliotheken verfügbar sind und lädt sie dynamisch.
Unter Windows heißen diese Bibliotheken zlib1.dll
und libbz2.dll
. Diese DLLs sind in der veröffentlichten Distribution von vsearch 2.29.1 und höher enthalten.
Um die PDF-Datei mit dem Handbuch zu erstellen, wird das Tool ps2pdf benötigt. Es ist Teil des ghostscript
Pakets.
Der VSEARCH-Code ist doppelt lizenziert, entweder unter der GNU General Public License Version 3 oder unter der BSD-2-Klausel-Lizenz. Weitere Informationen finden Sie in LICENSE.txt.
VSEARCH enthält Code aus mehreren anderen Projekten. Wir danken den Autoren für die Bereitstellung ihres Quellcodes.
VSEARCH enthält Code aus Googles CityHash-Projekt von Geoff Pike und Jyrki Alakuijala und bietet einige hervorragende Hash-Funktionen, die unter einer MIT-Lizenz verfügbar sind.
VSEARCH enthält Code, der aus dem DUST-Programm von Tatusov und Lipman stammt und gemeinfrei ist.
VSEARCH enthält gemeinfreien Code, der von Alexander Peslyak für den MD5-Message-Digest-Algorithmus geschrieben wurde.
VSEARCH enthält gemeinfreien Code, der von Steve Reid und anderen für den SHA1-Message-Digest-Algorithmus geschrieben wurde.
Die VSEARCH-Distribution enthält Code von GNU Autoconf, der normalerweise unter der GNU General Public License verfügbar ist, aber möglicherweise mit der speziellen Autoconf-Konfigurationsskriptausnahme verteilt wird.
VSEARCH kann Code aus der zlib-Bibliothek enthalten, der von Jean-loup Gailly und Mark Adler urheberrechtlich geschützt ist und unter der zlib-Lizenz vertrieben wird.
VSEARCH kann Code aus der bzip2-Bibliothek enthalten, der von Julian R. Seward urheberrechtlich geschützt ist und unter einer BSD-ähnlichen Lizenz vertrieben wird.
Der Code ist größtenteils in C++ geschrieben.
Datei | Beschreibung |
---|---|
align_simd.cc | SIMD parallele globale Ausrichtung von 1 Abfrage mit 8 Datenbanksequenzen |
allpairs.cc | Alles-gegen-Alle optimale globale paarweise Ausrichtung (keine Heuristik) |
arch.cc | Architekturspezifischer Code (Mac/Linux) |
attributes.cc | Extrahieren und Drucken von Attributen in FASTA-Headern |
bitmap.cc | Implementierung von Bitmaps |
chimera.cc | Chimärenerkennung |
city.cc | CityHash-Code |
Cluster.cc | Clustering (cluster_fast und cluster_smallmem) |
cpu.cc | Code abhängig von bestimmten CPU-Funktionen (z. B. ssse3) |
geschnitten.cc | Schneiden der Restriktionsstelle |
db.cc | Verwaltet das Lesen, den Zugriff usw. der Datenbankdatei |
dbhash.cc | Datenbank-Hashing für exakte Suchen |
dbindex.cc | Indiziert die Datenbank durch Identifizierung eindeutiger kmer in den Sequenzen |
derep.cc | Dereplikation, in voller Länge |
derep_prefix.cc | Dereplikation, Präfix |
derep_smallmem.cc | Dereplikation, geringer Speicherverbrauch |
dynlibs.cc | Dynamisches Laden von Komprimierungsbibliotheken |
eestats.cc | Erstellen Sie Statistiken für den Befehl fastq_eestats |
fasta.cc | FASTA-Dateiparser |
fasta2fastq.cc | FASTA-zu-FASTQ-Konvertierung |
fastq.cc | FASTQ-Dateiparser |
fastq_chars.cc | FASTQ-Statistiken |
fastq_join.cc | FASTQ Paired-End-Leseverbindungen |
fastqops.cc | FASTQ-Dateistatistiken usw |
fastx.cc | Erkennung von FASTA- und FASTQ-Dateien, Wrapper für FASTA- und FASTQ-Parser |
filter.cc | Trimmen und Filtern von Sequenzen in FASTA- und FASTQ-Dateien |
getseq.cc | Extraktion von Sequenzen basierend auf Header-Labels |
kmerhash.cc | Hash für kmer, der von der Paired-End-Lesezusammenführung verwendet wird |
linmemalign.cc | Globaler Sequenz-Aligner mit linearem Speicher |
Karten.cc | Verschiedene Zeichenzuordnungs-Arrays |
mask.cc | Maskierung (STAUB) |
md5.c | MD5-Nachrichtenauszug |
mergepairs.cc | Paired-End-Lesezusammenführung |
minheap.cc | Eine Minheap-Implementierung für die Liste der besten kmer-Übereinstimmungen |
msa.cc | Einfaches Mehrfachsequenz-Alignment und Konsensus-Sequenzberechnung für Cluster |
orient.cc | Orientierungsrichtung von Sequenzen anhand der Referenzdatenbank |
otutable.cc | Generieren Sie OTU-Tabellen in verschiedenen Formaten |
rereplicate.cc | Neuvervielfältigung |
Ergebnisse.cc | Ausgabeergebnisse in verschiedenen Formaten (Alnout, Userout, Blast6, UC) |
search.cc | Implementiert die Suche mithilfe der globalen Ausrichtung |
search_exact.cc | Exakte Suchfunktionen |
searchcore.cc | Kernsuchfunktionen für Suche, Clustering und Chimärenerkennung |
sff_convert.cc | SFF-zu-FASTQ-Dateikonvertierung |
sha1.c | SHA1-Nachrichtenauszug |
showalign.cc | Geben Sie anhand einer CIGAR-Zeichenfolge und der Sequenzen ein Alignment in einer für Menschen lesbaren Weise aus |
shuffle.cc | Sequenzen mischen |
sintax.cc | Taxonomische Klassifizierung mit der Sintax-Methode |
sortbylength.cc | Code zum Sortieren nach Länge |
sortbysize.cc | Code zum Sortieren nach Größe (Häufigkeit) |
subsample.cc | Unterabtastung liest aus einer FASTA-Datei |
tax.cc | Analyse von Taxonomieinformationen |
udb.cc | Handhabung von UDB-Datenbankdateien |
unique.cc | Finden Sie einzigartige Kilometer in einer Sequenz |
userfields.cc | Code zum Parsen des Userfields-Optionsarguments |
util.cc | Verschiedene allgemeine Dienstprogrammfunktionen |
vsearch.cc | Hauptprogrammdatei, allgemeine Initialisierung, liest Argumente und analysiert Optionen, schreibt Informationen. |
utils/maps.cc | Dienstprogramme, Karten zur Kodierung von Nukleotiden |
utils/seqcmp.cc | Dienstprogramme, Sequenzvergleich |
VSEARCH kann mit zlib- oder bzip2-Integration kompiliert werden, was das Lesen komprimierter FASTA-Dateien ermöglicht. Hierzu werden die Bibliotheken zlib und bzip2 benötigt.
Alle Fehlerberichte werden sehr geschätzt. Sie können hier auf GitHub einen Fehlerbericht als Problem einreichen (bevorzugt), eine Nachricht im VSEARCH-Webforum posten oder eine E-Mail an [email protected] senden.
VSEARCH ist für eher kurze Sequenzen konzipiert und wird langsam, wenn Sequenzen länger als etwa 5.000 bp sind. Dies liegt daran, dass für ausgewählte Sequenzen immer eine optimale globale Ausrichtung durchgeführt wird.
Die Hauptmitwirkenden an VSEARCH:
Besonderer Dank geht an die folgenden Personen für Patches, Vorschläge, Computerzugriff usw.:
Bitte zitieren Sie die folgende Veröffentlichung, wenn Sie VSEARCH verwenden:
Rognes T, Flouri T, Nichols B, Quince C, Mahé F. (2016) VSEARCH: ein vielseitiges Open-Source-Tool für Metagenomik. PeerJ 4:e2584. doi: 10.7717/peerj.2584
Bitte beachten Sie, dass auch die Nennung eines der zugrunde liegenden Algorithmen, z. B. UCHIME, angemessen sein kann.
Testdatensätze (im separaten vsearch-data-Repository zu finden) wurden aus dem BioMarks-Projekt (Logares et al. 2014), dem TARA OCEANS-Projekt (Karsenti et al. 2011) und der Protist Ribosomal Reference Database (PR 2 ) (Guillou et al.) bezogen al. 2013).
Edgar RC (2010) Suche und Clustering um Größenordnungen schneller als BLAST. Bioinformatik , 26 (19): 2460-2461. doi:10.1093/bioinformatics/btq461
Edgar RC (2016) SINTAX: ein einfacher nicht-Bayesianischer Taxonomie-Klassifikator für 16S- und ITS-Sequenzen. bioRxiv . doi:10.1101/074161
Edgar RC (2016) UNOISE2: verbesserte Fehlerkorrektur für Illumina 16S und ITS-Amplikonsequenzierung. bioRxiv . doi:10.1101/081257
Edgar RC, Flyvbjerg H (2015) Fehlerfilterung, Paarzusammenstellung und Fehlerkorrektur für Sequenzierungslesevorgänge der nächsten Generation. Bioinformatik , 31 (21): 3476-3482. doi:10.1093/bioinformatics/btv401
Edgar RC, Haas BJ, Clemente JC, Quince C, Knight R (2011) UCHIME verbessert die Empfindlichkeit und Geschwindigkeit der Chimärenerkennung. Bioinformatik , 27 (16): 2194-2200. doi:10.1093/bioinformatics/btr381
Guillou L, Bachar D, Audic S, Bass D, Berney C, Bittner L, Boutte C, Burgaud G, de Vargas C, Decelle J, del Campo J, Dolan J, Dunthorn M, Edvardsen B, Holzmann M, Kooistra W, Lara E, Lebescot N, Logares R, Mahé F, Massana R, Montresor M, Morard R, Not F, Pawlowski J, Probert I, Sauvadet AL, Siano R, Stoeck T, Vaulot D, Zimmermann P & Christen R (2013) The Protist Ribosomal Reference Database (PR2): ein Katalog einzelliger eukaryotischer Small Sub-Unit rRNA-Sequenzen mit kuratierter Taxonomie. Nucleic Acids Research , 41 (D1), D597-D604. doi:10.1093/nar/gks1160
Karsenti E, González Acinas S, Bork P, Bowler C, de Vargas C, Raes J, Sullivan MB, Arendt D, Benzoni F, Claverie JM, Follows M, Jaillon O, Gorsky G, Hingamp P, Iudicone D, Kandels-Lewis S, Krzic U, Not F, Ogata H, Pesant S, Reynaud EG, Sardet C, Sieracki ME, Speich S, Velayoudon D, Weissenbach J, Wincker P & the Tara Oceans Consortium (2011) Ein ganzheitlicher Ansatz zur marinen Ökosystembiologie. PLoS Biology , 9(10), e1001177. doi:10.1371/journal.pbio.1001177
Logares R, Audic S, Bass D, Bittner L, Boutte C, Christen R, Claverie JM, Decelle J, Dolan JR, Dunthorn M, Edvardsen B, Gobet A, Kooistra WHCF, Mahé F, Not F, Ogata H, Pawlowski J , Pernice MC, Romac S, Shalchian-Tabrizi K, Simon N, Stoeck T, Santini S, Siano R, Wincker P, Zingone A, Richards T, de Vargas C & Massana R (2014) Die Strukturierung seltener und reichlich vorhandener Gemeinschaftsgemeinschaften in marinen planktonischen mikrobiellen Eukaryoten an der Küste. Current Biology , 24(8), 813-821. doi:10.1016/j.cub.2014.02.050
Rognes T (2011) Schnellere Smith-Waterman-Datenbanksuchen durch Intersequenz-SIMD-Parallelisierung. BMC Bioinformatics , 12: 221. doi:10.1186/1471-2105-12-221