هذه هي قاعدة التعليمات البرمجية الرسمية لـ scGPT: نحو بناء نموذج أساسي لـ omics متعددة الخلايا باستخدام الذكاء الاصطناعي التوليدي .
تحديث : لقد قمنا بإصدار العديد من نقاط تفتيش scGPT الجديدة المدربة مسبقًا. يرجى مراجعة قسم نقاط فحص scGPT المدربة مسبقًا لمزيد من التفاصيل.
[2024.02.26] لقد قدمنا دعمًا أوليًا لتشغيل سير عمل التدريب المسبق باستخدام HuggingFace في فرع نموذج متكامل لعانق الوجه. سنجري المزيد من الاختبارات وندمجه في الفرع الرئيسي قريبًا.
[2023.12.31] تتوفر الآن دروس تعليمية جديدة حول تطبيقات Zero-shot! يرجى الاطلاع على العثور عليها في دليل البرامج التعليمية/صفر لقطة. نحن نقدم أيضًا نقطة تفتيش نموذجية مستمرة جديدة مُدربة مسبقًا للمهام المتعلقة بتضمين الخلايا. يرجى الاطلاع على دفتر الملاحظات لمزيد من التفاصيل.
[2023.11.07] بناءً على طلب الكثيرين، قمنا الآن بجعل الانتباه السريع تبعية اختيارية. يمكن تحميل الأوزان المدربة مسبقًا على وحدات المعالجة المركزية pytorch وGPU والواجهات الخلفية لـ flash-attn باستخدام نفس وظيفة Load_pretrained، load_pretrained(target_model, torch.load("path_to_ckpt.pt"))
. مثال للاستخدام هنا أيضًا.
[2023.09.05] لقد أصدرنا ميزة جديدة لعينات التعيين المرجعي لمجموعة بيانات مرجعية مخصصة أو لجميع ملايين الخلايا التي تم جمعها من CellXGene! بمساعدة مكتبة فايس، حققنا وقتًا رائعًا وكفاءة في الذاكرة. لا يستغرق الفهرس الذي يضم أكثر من 33 مليون خلية سوى أقل من 1 جيجابايت من الذاكرة ويستغرق البحث عن التشابه أقل من ثانية واحدة لـ 10000 خلية استعلام على وحدة معالجة الرسومات . يرجى الاطلاع على البرنامج التعليمي لرسم الخرائط المرجعية لمزيد من التفاصيل.
يتوفر scGPT الآن في التطبيقات التالية عبر الإنترنت أيضًا، لذا يمكنك البدء ببساطة باستخدام متصفحك!
يعمل scGPT مع Python >= 3.7.13 وR >=3.6.1. يرجى التأكد من تثبيت الإصدار الصحيح من Python وR مسبقًا.
scGPT متاح على PyPI. لتثبيت scGPT، قم بتشغيل الأمر التالي:
pip install scgpt " flash-attn<1.0.5 " # optional, recommended
# As of 2023.09, pip install may not run with new versions of the google orbax package, if you encounter related issues, please use the following command instead:
# pip install scgpt "flash-attn<1.0.5" "orbax<0.1.8"
[اختياري] نوصي باستخدام wandb للتسجيل والتصور.
pip install wandb
للتطوير، نستخدم مدير الحزم الشعرية. لتثبيت الشعر، اتبع التعليمات هنا.
$ git clone this-repo-url
$ cd scGPT
$ poetry install
ملاحظة : تتطلب تبعية flash-attn
عادةً إصدارًا محددًا من GPU وCUDA. إذا واجهت أية مشكلات، يرجى الرجوع إلى مستودع flash-attn للحصول على تعليمات التثبيت. في الوقت الحالي، مايو 2023، نوصي باستخدام CUDA 11.7 وflash-attn<1.0.5 نظرًا لوجود مشكلات متعددة تم الإبلاغ عنها حول تثبيت إصدارات جديدة من flash-attn.
فيما يلي قائمة بالنماذج التي تم تدريبها مسبقًا. يرجى العثور على الروابط لتحميل مجلدات نقطة التفتيش. نوصي باستخدام نموذج whole-human
لمعظم التطبيقات بشكل افتراضي. إذا كانت مجموعة بيانات الضبط الدقيق الخاصة بك تشترك في سياق مماثل لنوع الخلية مع بيانات التدريب الخاصة بالنماذج الخاصة بالأعضاء، فيمكن لهذه النماذج عادةً إظهار الأداء التنافسي أيضًا. يتم توفير ملف مفردات مقترن لتعيين أسماء الجينات للمعرفات في كل مجلد نقطة تفتيش. إذا كانت معرفات ENSEMBL مطلوبة، فيرجى العثور على التحويل على gene_info.csv.
اسم النموذج | وصف | تحميل |
---|---|---|
إنسان كامل (مستحسن) | تم تدريبه مسبقًا على 33 مليون خلية بشرية طبيعية. | وصلة |
تدريب مسبق مستمر | بالنسبة للمهام ذات الصلة بتضمين الخلايا بدون طلقة. | وصلة |
مخ | تم تدريبه مسبقًا على 13.2 مليون خلية دماغية. | وصلة |
دم | تم تدريبه مسبقًا على 10.3 مليون خلية دم ونخاع عظمي. | وصلة |
قلب | تم تدريبه مسبقًا على 1.8 مليون خلية قلب | وصلة |
رئة | تم تدريبه مسبقًا على 2.1 مليون خلية رئوية | وصلة |
كلية | تم تدريبه مسبقًا على 814 ألف خلية كلى | وصلة |
سرطان عموم | تم تدريبه مسبقًا على 5.7 مليون خلية من أنواع السرطان المختلفة | وصلة |
يرجى الاطلاع على رمز المثال الخاص بنا في examples/finetune_integration.py. افتراضيًا، يفترض البرنامج النصي وجود مجلد نقطة تفتيش scGPT المخزن في دليل examples/save
.
نحن نرحب بشدة بالمساهمات في scGPT. يرجى تقديم طلب سحب إذا كان لديك أي أفكار أو إصلاحات للأخطاء. نرحب أيضًا بأي مشكلات تواجهها أثناء استخدام scGPT.
نتقدم بالشكر الجزيل لمؤلفي المشاريع مفتوحة المصدر التالية:
@article { cui2023scGPT ,
title = { scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI } ,
author = { Cui, Haotian and Wang, Chloe and Maan, Hassaan and Pang, Kuan and Luo, Fengning and Wang, Bo } ,
journal = { bioRxiv } ,
year = { 2023 } ,
publisher = { Cold Spring Harbor Laboratory }
}