ColabFold auf Ihrem lokalen PC (oder macOS). Siehe auch ColabFold-Repository.
LocalColabFold ist ein Installationsskript, das entwickelt wurde, um die ColabFold-Funktionalität auf den lokalen Computern der Benutzer verfügbar zu machen. Es unterstützt eine Vielzahl von Betriebssystemen, wie z. B. Windows 10 oder höher (unter Verwendung des Windows-Subsystems für Linux 2), macOS und Linux.
Wenn Sie nur eine kleine Anzahl natürlich vorkommender Proteine vorhersagen möchten, empfehle ich die Verwendung des ColabFold-Notizbuchs oder das Herunterladen von Strukturen aus der AlphaFold Protein Structure Database oder UniProt. LocalColabFold eignet sich für fortgeschrittenere Anwendungen, wie etwa die Stapelverarbeitung von Strukturvorhersagen für natürliche Komplexe, nicht-natürliche Proteine oder Vorhersagen mit manuell angegebenen MSAs/Vorlagen.
Strukturinferenz und -entspannung werden beschleunigt, wenn Ihr PC über Nvidia-GPU- und CUDA-Treiber verfügt.
Keine Auszeit (90 Minuten und 12 Stunden)
Keine GPU-Einschränkungen
Es ist NICHT erforderlich, die große Datenbank vorzubereiten, die für natives AlphaFold2 erforderlich ist .
Da das aktuelle GPU-unterstützte Jax > 0.4.26 CUDA 12.1 oder höher und cudnn 9 erfordert, aktualisieren oder installieren Sie bitte Ihren CUDA-Treiber und cudnn. CUDA 12.4 wird empfohlen.
ColabFold wird jetzt auf 1.5.5 aktualisiert (kompatibel mit AlphaFold 2.3.2). Jetzt erfordert LocalColabFold CUDA 12.1 oder höher . Bitte aktualisieren Sie Ihren CUDA-Treiber, falls Sie dies noch nicht getan haben.
Jetzt kann (Local)ColabFold Proteinstrukturen vorhersagen, ohne eine Verbindung zum Internet herzustellen. Verwenden Sie das Skript setup_databases.sh
um die Datenbanken herunterzuladen und zu erstellen (siehe auch ColabFold-Downloads). In diesem Kommentar finden Sie eine Anweisung zum Ausführen colabfold_search
um MSA und Vorlagen lokal abzurufen.
30. Januar 2024, ColabFold 1.5.5 (kompatibel mit AlphaFold 2.3.2). Jetzt erfordert LocalColabFold CUDA 12.1 oder höher . Bitte aktualisieren Sie Ihren CUDA-Treiber.
30. April 2023, Aktualisiert, um Python 3.10 für die Kompatibilität mit Google Colaboratory zu verwenden.
09. März 2023, Version 1.5.1 veröffentlicht. Das Basisverzeichnis wurde von colabfold_batch
in localcolabfold
geändert, um es vom Ausführungsbefehl zu unterscheiden.
09. März 2023, Version 1.5.0 veröffentlicht. Siehe Version v1.5.0
05. Februar 2023, Version 1.5.0 – vorab veröffentlicht.
16. Juni 2022, Version 1.4.0 veröffentlicht. Siehe Version v1.4.0
07. Mai 2022, update_linux.sh
aktualisiert. Siehe auch So aktualisieren Sie. Bitte verwenden Sie eine neue Option --use-gpu-relax
wenn eine GPU-Entspannung erforderlich ist (empfohlen).
12. April 2022, Version 1.3.0 veröffentlicht. Siehe Version v1.3.0
09.12.2021, Version 1.2.0-Beta veröffentlicht. benutzerfreundliche Updater-Skripte hinzugefügt. Siehe So aktualisieren Sie.
04. Dezember 2021, LocalColabFold ist jetzt mit dem neuesten pip-installierbaren ColabFold kompatibel. In diesem Repository werde ich ein Skript zur Installation von ColabFold mit einigen externen Parameterdateien bereitstellen, um eine Entspannung mit AMBER durchzuführen. Die Gewichtsparameter von AlphaFold und AlphaFold-Multimer werden bei Ihrem ersten Lauf automatisch heruntergeladen.
Stellen Sie sicher, dass die Befehle curl
, git
und wget
bereits auf Ihrem PC installiert sind. Falls nicht vorhanden, müssen Sie sie zunächst installieren. Geben Sie für Ubuntu sudo apt -y install curl git wget
ein.
Stellen Sie sicher, dass Ihr Cuda-Compiler-Treiber 11.8 oder höher ist (die neueste Version 12.4 ist vorzuziehen). Wenn Sie keine GPU haben oder nicht vorhaben, eine GPU zu verwenden, können Sie diesen Schritt überspringen:
$ nvcc --version nvcc: NVIDIA (R) Cuda-Compiler-Treiber Copyright (c) 2005–2022 NVIDIA Corporation Gebaut am Wed_Sep_21_10:33:58_PDT_2022 Cuda-Kompilierungstools, Version 11.8, V11.8.89 Erstellen Sie cuda_11.8.r11.8/compiler.31833905_0
Verwenden Sie NICHT nvidia-smi
um die Version zu überprüfen.
Weitere Informationen finden Sie im NVIDIA CUDA-Installationshandbuch für Linux, falls Sie es noch nicht installiert haben.
Stellen Sie sicher, dass Ihre GNU-Compiler-Version 9.0 oder höher ist, da GLIBCXX_3.4.26
für openmm erforderlich ist:
$ gcc --version gcc (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0 Copyright (C) 2019 Free Software Foundation, Inc. Dies ist kostenlose Software; Die Kopierbedingungen finden Sie in der Quelle. Es gibt NEIN Garantie; nicht einmal für MARKTGÄNGIGKEIT oder EIGNUNG FÜR EINEN BESTIMMTEN ZWECK.
Wenn die Version 8.5.0 oder älter ist (z. B. CentOS 7, Rocky/Almalinux 8 usw.), installieren Sie eine neue und fügen Sie PATH
hinzu.
Laden Sie install_colabbatch_linux.sh
aus diesem Repository herunter:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh
und führen Sie es in dem Verzeichnis aus, in dem Sie es installieren möchten:
$ bash install_colabbatch_linux.sh
Etwa 5 Minuten später wird das Verzeichnis localcolabfold
erstellt. Verschieben Sie dieses Verzeichnis nach der Installation nicht.
Halten Sie das Netzwerk frei. Und überprüfen Sie die Protokollausgabe , um festzustellen, ob Fehler vorliegen.
Wenn Sie Fehler im Ausgabeprotokoll finden, ist es am einfachsten, das Netzwerk zu überprüfen, das Verzeichnis „localcolabfold“ zu löschen und dann das Installationsskript erneut auszuführen.
Umgebungsvariable PATH hinzufügen:
# Für Bash oder ZSH # zB export PATH="/home/moriwaki/Desktop/localcolabfold/colabfold-conda/bin:$PATH" export PATH="/path/to/your/localcolabfold/colabfold-conda/bin:$PATH"
Es wird empfohlen, diesen Exportbefehl zu ~/.bashrc
hinzuzufügen und Bash neu zu starten ( ~/.bashrc
wird jedes Mal ausgeführt, wenn Bash gestartet wird).
Geben Sie Folgendes ein, um die Vorhersage auszuführen:
colabfold_batch Eingabe-Ausgabeverzeichnis/
Die Ergebnisdateien werden im outputdir
erstellt. Dieser Befehl führt die Vorhersage ohne Vorlagen und Entspannung (Energieminimierung) aus. Wenn Sie Vorlagen und Entspannung verwenden möchten, fügen Sie die Flags --templates
und --amber
hinzu. Zum Beispiel,
colabfold_batch --templates --amber input/outputdir/
colabfold_batch
erkennt automatisch, ob es sich bei der Vorhersage um eine Monomer- oder eine komplexe Vorhersage handelt. In den meisten Fällen müssen Benutzer nicht --model-type alphafold2_multimer_v3
hinzufügen, um die Multimer-Vorhersage zu aktivieren. alphafold2_multimer_v1, alphafold2_multimer_v2
sind ebenfalls verfügbar. Der Standardwert ist auto
(verwenden Sie alphafold2_ptm
für Monomere und alphafold2_multimer_v3
für Komplexe).
Weitere Einzelheiten finden Sie unter Flags und colabfold_batch --help
.
Achtung: Wenn Ihre Installation aufgrund von Problemen bei der Erstellung symbolischer Links ( symlink
) fehlschlägt, liegt dies daran, dass das Windows-Dateisystem die Groß-/Kleinschreibung nicht berücksichtigt (während das Linux-Dateisystem die Groß-/Kleinschreibung beachtet). Um dieses Problem zu beheben, führen Sie den folgenden Befehl in Windows PowerShell aus:
fsutil file SetCaseSensitiveInfo pathtolocalcolabfoldinstallation enable
Ersetzen Sie pathtocolabfoldinstallation
durch den Pfad zu dem Verzeichnis, in dem Sie LocalColabFold installieren. Stellen Sie außerdem sicher, dass Sie den Befehl auf Windows Powershell (nicht WSL) ausführen. Weitere Einzelheiten finden Sie unter Anpassen der Groß-/Kleinschreibung (Microsoft).
Bevor Sie die Vorhersage ausführen:
export TF_FORCE_UNIFIED_MEMORY="1" export XLA_PYTHON_CLIENT_MEM_FRACTION="4.0" export XLA_PYTHON_CLIENT_ALLOCATOR="platform" export TF_FORCE_GPU_ALLOW_GROWTH="true"
Es wird empfohlen, diese Exportbefehle zu ~/.bashrc
hinzuzufügen und Bash neu zu starten ( ~/.bashrc
wird jedes Mal ausgeführt, wenn Bash gestartet wird).
Achtung: Aufgrund des Fehlens eines Nvidia GPU/CUDA-Treibers ist die Strukturvorhersage unter macOS 5–10 Mal langsamer als unter Linux+GPU . Für die Testsequenz (58 aa) kann es 30 Minuten dauern. Es kann jedoch nützlich sein, damit zu experimentieren, bevor Sie die Linux+GPU-Umgebung vorbereiten.
Sie können überprüfen, ob es sich bei Ihrem Mac um einen Intel- oder einen Apple Silicon-Mac handelt, indem Sie im Terminal uname -m
eingeben.
$ uname -m x86_64 # Intelarm64 # Apple Silicon
Bitte verwenden Sie das richtige Installationsprogramm für Ihren Mac.
Installieren Sie Homebrew, falls nicht vorhanden:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Installieren Sie wget
, gnu-sed
, HH-suite und kalign mit Homebrew:
$ brew install wget gnu-sed $ brew installiere brewsci/bio/hh-suite brewsci/bio/kalign
Laden Sie install_colabbatch_intelmac.sh
aus diesem Repository herunter:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_intelmac.sh
und führen Sie es in dem Verzeichnis aus, in dem Sie es installieren möchten:
$ bash install_colabbatch_intelmac.sh
Etwa 5 Minuten später wird das Verzeichnis colabfold_batch
erstellt. Verschieben Sie dieses Verzeichnis nach der Installation nicht.
Die weitere Vorgehensweise ist die gleiche wie bei „Für Linux“.
Hinweis: Dieses Installationsprogramm ist experimentell, da die meisten abhängigen Pakete nicht vollständig auf Apple Silicon Mac getestet wurden.
Installieren Sie Homebrew, falls nicht vorhanden:
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Installieren Sie mehrere Befehle mit Homebrew (Jetzt ist Kalign 3.3.2 verfügbar!):
$ brew install wget cmake gnu-sed $ brew installiere brewsci/bio/hh-suite $ brew installiere brewsci/bio/kalign
Installieren Sie den miniforge
-Befehl mit Homebrew:
$ brew install --cask miniforge
Laden Sie install_colabbatch_M1mac.sh
aus diesem Repository herunter:
$ wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_M1mac.sh
und führen Sie es in dem Verzeichnis aus, in dem Sie es installieren möchten:
$ bash install_colabbatch_M1mac.sh
Etwa 5 Minuten später wird das Verzeichnis colabfold_batch
erstellt. Verschieben Sie dieses Verzeichnis nach der Installation nicht. Sie können die dabei auftretenden Installationsfehler ignorieren .
Die weitere Vorgehensweise ist die gleiche wie bei „Für Linux“.
ColabFold kann mehrere Dateiformate oder Verzeichnisse akzeptieren.
positional arguments: input Can be one of the following: Directory with fasta/a3m files, a csv/tsv file, a fasta file or an a3m file results Directory to write the results to
Es wird empfohlen, dass die mit >
beginnende Kopfzeile kurz ist, da die Beschreibung das Präfix der Ausgabedatei darstellt. Es ist zulässig, Zeilenumbrüche in die Aminosäuresequenz einzufügen.
>sp|P61823
MALKSLVLLSLLVLVLLLVRVQPSLGKETAAAKFERQHMDSSTSAASSSNYCNQMMKSRN
LTKDRCKPVNTFVHESLADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPN
CAYKTTQANKHIIVACEGNPYVPVHFDASV
Zur Vorhersage von Multimeren fügen Sie :
zwischen den Proteinsequenzen ein.
>1BJP_homohexamer PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR: PIAQIHILEGRSDEQKETLIREVSEAISRSLDAPLTSVRVIITEMAKGHFGIGGELASKVRR
>3KUD_RasRaf_complex MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSAMRDQ YMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIP YIETSAKTRQGVEDAFYTLVREIRQH: PSKTSNTIRVFLPNKQRTVVNVRNGMSLHDCLMKALKVRGLQPECCAVFRLLHEHKGKKARLDWNTDAAS LIGEELQVDFL
Mehrere >
-Kopfzeilen mit Sequenzen in einer Datei im FASTA-Format führen zu mehreren Vorhersagen gleichzeitig im angegebenen Ausgabeverzeichnis.
In einem CSV-Format sollten id
und sequence
durch ,
getrennt werden.
id,sequence
5AWL_1,YYDPETGTWY
3G5O_A_3G5O_B,MRILPISTIKGKLNEFVDAVSSTQDQITITKNGAPAAVLVGADEWESLQETLYWLAQPGIRESIAEADADIASGRTYGEDEIRAEFGVPRRPH:MPYTVRFTTTARRDLHKLPPRILAAVVEFAFGDLSREPLRVGKPLRRELAGTFSARRGTYRLLYRIDDEHTTVVILRVDHRADIYRR
Sie können Ihre MSA-Datei im A3M-Format eingeben. Für Multimer-Vorhersagen sollte die A3M-Datei mit dem Colabfold-Format kompatibel sein.
Diese Flags sind für die Vorhersagen nützlich.
--amber
: Bernstein zur Strukturverfeinerung (Entspannung/Energieminimierung) verwenden. Um die Anzahl der am höchsten bewerteten Strukturen zu steuern, wird der Satz --num-relax
gelockert.
--templates
: Vorlagen aus PDF verwenden.
--use-gpu-relax
: Amber auf der NVidia-GPU statt auf der CPU ausführen. Diese Funktion ist nur auf einem Computer mit Nvidia-GPUs verfügbar.
--num-recycle
: Anzahl der Vorhersagewiederholungen. Zunehmendes Recycling kann die Qualität verbessern, verlangsamt jedoch die Prognose. Der Standardwert ist 3
. (z. B. --num-recycle 10
)
--custom-template-path
: Beschränkt die für --template
verwendeten Vorlagendateien auf diejenigen, die im angegebenen Verzeichnis enthalten sind. Dieses Flag ermöglicht es uns, nicht öffentliche PDF-Dateien für die Vorhersage zu verwenden. Siehe auch sokrypton/ColabFold#177.
--random-seed
Das Ändern des Startwerts für den Zufallszahlengenerator kann zu unterschiedlichen Strukturvorhersagen führen. (z. B. --random-seed 42
)
--num-seeds
Anzahl der zu versuchenden Seeds. Wird aus dem Bereich (random_seed, random_seed+num_seeds) iterieren. (z. B. --num-seed 5
)
--max-msa
: Definiert: max-seq:max-extra-seq
Anzahl der zu verwendenden Sequenzen (z. B. --max-msa 512:1024
). Die Argumente --max-seq
und --max-extra-seq
sind ebenfalls verfügbar, wenn Sie sie separat angeben möchten. Dies ist eine Neuimplementierung des von del Alamo et al . demonstrierten Artikels „Sampling alternativer Konformationszustände von Transportern und Rezeptoren mit AlphaFold2“.
--use-dropout
: Aktiviert Dropouts während der Inferenz, um aus der Unsicherheit der Modelle Stichproben zu ziehen.
--overwrite-existing-results
: Überschreibt die Ergebnisdateien.
Weitere Informationen finden Sie colabfold_batch --help
.
Da ColabFold noch in Arbeit ist, sollte auch Ihr lokaler Colabfold regelmäßig aktualisiert werden, um die neuesten Funktionen nutzen zu können. Hierzu steht ein einfach zu bedienendes Update-Skript zur Verfügung.
Um Ihr localcolabfold zu aktualisieren, führen Sie einfach Folgendes aus:
# Stellen Sie Ihr Betriebssystem ein. Wählen Sie eine der folgenden Variablen {linux,intelmac,M1mac}$ OS=linux # wenn Linux# navigieren Sie zu dem Verzeichnis, in dem Sie localcolabfold installiert haben, z. B. $ cd /home/moriwaki/Desktop/localcolabfold/# holen Sie sich den neuesten Updater$ wget https ://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/update_${OS}.sh -O update_${OS}.sh $ chmod +x update_${OS}.sh# führe es aus.$ ./update_${OS}.sh .
Was muss ich vor der Installation noch tun? Benötige ich Sudo-Berechtigungen?
Nein, außer für die Installation der Befehle curl
und wget
.
Muss ich die große Datenbank wie PDB70, BFD, Uniclust30, MGnify vorbereiten?
Nein, das ist nicht notwendig. Die Generierung von MSA wird vom MMseqs2-Webserver durchgeführt, genau wie in ColabFold implementiert.
Sind der pLDDT-Score und die PAE-Zahlen verfügbar?
Ja, sie werden genau wie ColabFold generiert.
Ist es möglich, Homooligomere und Komplexe vorherzusagen?
Ja, das Format der Eingabesequenz ist das gleiche wie bei ColabFold. Siehe query_sequence:
und seine Verwendung von ColabFold: AlphaFold2 mit MMseqs2.
Ist es möglich, MSA mit Jackhmmer zu erstellen?
Nein, es wird derzeit nicht unterstützt .
Ich möchte mehrere GPUs verwenden, um die Vorhersage durchzuführen.
AlphaFold und ColabFold unterstützen nicht mehrere GPUs . Nur eine GPU kann Ihr Protein modellieren.
Ich habe mehrere GPUs. Kann ich angeben, dass LocalColabfold auf jeder GPU ausgeführt werden soll?
Verwenden Sie die Umgebungsvariable CUDA_VISIBLE_DEVICES
. Siehe #200.
Ich habe die Fehlermeldung CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
.
Möglicherweise haben Sie nicht auf CUDA 11.8 oder höher aktualisiert. Bitte überprüfen Sie die Version des Cuda-Compilers mit dem Befehl nvcc --version
, nicht nvidia-smi
.
Ist dies unter Windows 10 verfügbar?
Sie können LocalColabFold auf Ihrem Windows 10 mit WSL2 ausführen.
(Neu!) Ich möchte eine benutzerdefinierte MSA-Datei im Format a3m verwenden.
ColabFold kann jetzt verschiedene Eingabedateien akzeptieren . Siehe Hilfemeldung. Sie können Ihre eigene A3M-Datei, eine Fasta-Datei, die mehrere Sequenzen (im FASTA-Format) enthält, oder ein Verzeichnis festlegen, das mehrere Fasta-Dateien enthält.
ColabFold-Tutorial präsentiert im Boston Protein Design and Modeling Club. [Video] [Folien].
Der ursprüngliche Colabfold wurde zuerst von Sergey Ovchinnikov (@sokrypton), Milot Mirdita (@milot_mirdita) und Martin Steinegger (@thesteinegger) erstellt.
Mirdita M, Schütze K, Moriwaki Y, Heo L, Ovchinnikov S und Steinegger M. ColabFold – Proteinfaltung für alle zugänglich machen.
Nature Methods (2022) doi: 10.1038/s41592-022-01488-1
Wenn Sie AlphaFold verwenden, geben Sie bitte auch Folgendes an:
Jumper et al. „Hochpräzise Proteinstrukturvorhersage mit AlphaFold.“
Nature (2021) doi: 10.1038/s41586-021-03819-2
Wenn Sie AlphaFold-multimer verwenden, geben Sie bitte auch Folgendes an:
Evans et al. „Vorhersage von Proteinkomplexen mit AlphaFold-Multimer.“
BioRxiv (2022) doi: 10.1101/2021.10.04.463034v2