candle herunterladen - candle Quellcode herunterladen

candle

Anderer Quellcode

Herunterladen

Kerze

Candle ist ein minimalistisches ML-Framework für Rust mit Fokus auf Leistung (einschließlich GPU-Unterstützung) und Benutzerfreundlichkeit. Probieren Sie unsere Online-Demos aus: Whisper, LLaMA2, T5, Yolo, Segment Anything.

Fangen Sie an

Stellen Sie sicher, dass Sie candle-core korrekt installiert haben, wie in Installation beschrieben.

Sehen wir uns an, wie man eine einfache Matrixmultiplikation durchführt. Schreiben Sie Folgendes in Ihre Datei myapp/src/main.rs :

 use candle_core :: { Device , Tensor } ;

fn main ( ) -> Result < ( ) , Box < dyn std :: error :: Error > > {
    let device = Device :: Cpu ;

    let a = Tensor :: randn ( 0f32 , 1. , ( 2 , 3 ) , & device ) ? ;
    let b = Tensor :: randn ( 0f32 , 1. , ( 3 , 4 ) , & device ) ? ;

    let c = a . matmul ( & b ) ? ;
    println ! ( "{c}" ) ;
    Ok ( ( ) )
}

cargo run sollte einen Tensor der Form Tensor[[2, 4], f32] anzeigen.

Nachdem Sie candle mit Cuda-Unterstützung installiert haben, definieren Sie einfach das device als GPU:

 - let device = Device::Cpu;
+ let device = Device::new_cuda(0)?;

Weitere Beispiele für Fortgeschrittene finden Sie im folgenden Abschnitt.

Schauen Sie sich unsere Beispiele an

Diese Online-Demos laufen vollständig in Ihrem Browser:

yolo: Posenschätzung und Objekterkennung.
Flüstern: Spracherkennung.
LLaMA2: Textgenerierung.
T5: Textgenerierung.
Phi-1,5 und Phi-2: Textgenerierung.
Segment Anything-Modell: Bildsegmentierung.
BLIP: Bildunterschrift.

Wir bieten auch einige befehlszeilenbasierte Beispiele mit modernsten Modellen:

LLaMA v1, v2 und v3: allgemeines LLM, einschließlich der SOLAR-10.7B-Variante.
Falcon: allgemeiner LLM.
Codegeex4: Code-Vervollständigung, Code-Interpreter, Websuche, Funktionsaufruf, Repository-Ebene
GLM4: Offene mehrsprachige multimodale Chat-LMs von THUDM
Gemma v1 und v2: 2b und 7b+/9b allgemeine LLMs von Google Deepmind.
RecurrentGemma: 2b- und 7b-Griffin-basierte Modelle von Google, die Aufmerksamkeit mit einem RNN-ähnlichen Zustand vermischen.
Phi-1, Phi-1.5, Phi-2 und Phi-3: 1.3b, 2.7b und 3.8b allgemeine LLMs mit einer Leistung, die der von 7b-Modellen entspricht.
StableLM-3B-4E1T: ein 3b allgemeiner LLM, der auf 1T-Tokens für Englisch und Code-Datensätzen vorab trainiert wurde. Unterstützt auch StableLM-2, ein 1.6b-LLM, das auf 2T-Tokens trainiert wurde, sowie die Codevarianten.
Mamba: eine reine Inferenzimplementierung des Mamba-Zustandsraummodells.
Mistral7b-v0.1: ein allgemeines 7b-LLM mit besserer Leistung als alle öffentlich verfügbaren 13b-Modelle (Stand: 28.09.2023).
Mixtral8x7b-v0.1: eine spärliche Mischung aus allgemeinem 8x7b-LLM für Experten mit besserer Leistung als ein Llama 2 70B-Modell mit viel schnellerer Inferenz.
StarCoder und StarCoder2: LLM, spezialisiert auf Codegenerierung.
Qwen1.5: Zweisprachige (Englisch/Chinesisch) LLMs.
RWKV v5 und v6: Ein RNN mit LLM-Leistung auf Transformatorebene.
Replit-code-v1.5: ein 3.3b LLM, das auf die Codevervollständigung spezialisiert ist.
Yi-6B / Yi-34B: zwei zweisprachige (Englisch/Chinesisch) allgemeine LLMs mit 6b- und 34b-Parametern.
Quantisiertes LLaMA: quantisierte Version des LLaMA-Modells unter Verwendung derselben Quantisierungstechniken wie llama.cpp.

Stabile Diffusion: Generatives Text-zu-Bild-Modell, Unterstützung für die Versionen 1.5, 2.1, SDXL 1.0 und Turbo.

Würstchen: ein weiteres generatives Text-zu-Bild-Modell.

yolo-v3 und yolo-v8: Modelle zur Objekterkennung und Posenschätzung.

segment-anything: Bildsegmentierungsmodell mit Eingabeaufforderung.

SegFormer: transformatorbasiertes semantisches Segmentierungsmodell.
Whisper: Spracherkennungsmodell.
EnCodec: hochwertiges Audiokomprimierungsmodell mit Restvektorquantisierung.
MetaVoice: grundlegendes Modell für Text-to-Speech.
Parler-TTS: großes Text-to-Speech-Modell.
T5, Bert, JinaBert: nützlich für Satzeinbettungen.
DINOv2: Computer-Vision-Modell, das durch Selbstüberwachung trainiert wurde (kann für Imagenet-Klassifizierung, Tiefenbewertung und Segmentierung verwendet werden).
VGG, RepVGG: Computer-Vision-Modelle.
BLIP: Bild-zu-Text-Modell, kann zum Generieren von Bildunterschriften verwendet werden.
CLIP: Multimodell-Vision und Sprachmodell.
TrOCR: ein transformatorisches OCR-Modell mit speziellen Untermodellen für die Handschrift- und Druckerkennung.
Marian-MT: neuronales maschinelles Übersetzungsmodell, generiert den übersetzten Text aus dem Eingabetext.
Moondream: kleines Computer-Vision-Modell, das reale Fragen zu Bildern beantworten kann.

Führen Sie sie mit Befehlen aus wie:

 cargo run --example quantized --release

Um CUDA zu verwenden, fügen Sie --features cuda zur Beispielbefehlszeile hinzu. Wenn Sie cuDNN installiert haben, verwenden Sie --features cudnn für noch mehr Beschleunigung.

Es gibt auch einige Wasm-Beispiele für whisper und llama2.c. Sie können sie entweder mit trunk erstellen oder online ausprobieren: whisper, llama2, T5, Phi-1.5 und Phi-2, Segment Anything Model.

Führen Sie für LLaMA2 den folgenden Befehl aus, um die Gewichtsdateien abzurufen und einen Testserver zu starten:

 cd candle-wasm-examples/llama2-c
wget https://huggingface.co/spaces/lmz/candle-llama2/resolve/main/model.bin
wget https://huggingface.co/spaces/lmz/candle-llama2/resolve/main/tokenizer.json
trunk serve --release --port 8081

Gehen Sie dann zu http://localhost:8081/.

Nützliche externe Ressourcen

candle-tutorial : Ein sehr detailliertes Tutorial, das zeigt, wie man ein PyTorch-Modell in Candle konvertiert.
candle-lora : Effiziente und ergonomische LoRA-Implementierung für Candle. candle-lora hat
sofort einsatzbereite LoRA-Unterstützung für viele Modelle von Candle, die Sie hier finden.
optimisers : Eine Sammlung von Optimierern, einschließlich SGD mit Momentum, AdaGrad, AdaDelta, AdaMax, NAdam, RAdam und RMSprop.
candle-vllm : Effiziente Plattform für Inferenz und Bereitstellung lokaler LLMs, einschließlich eines OpenAI-kompatiblen API-Servers.
candle-ext : Eine Erweiterungsbibliothek für Candle, die PyTorch-Funktionen bereitstellt, die derzeit in Candle nicht verfügbar sind.
candle-coursera-ml : Implementierung von ML-Algorithmen aus Courseras Spezialisierungskurs für maschinelles Lernen.
kalosm : Ein multimodales Meta-Framework in Rust für die Verbindung mit lokalen vorab trainierten Modellen mit Unterstützung für kontrollierte Generierung, benutzerdefinierte Sampler, In-Memory-Vektordatenbanken, Audiotranskription und mehr.
candle-sampling : Sampling-Techniken für Candle.
gpt-from-scratch-rs : Eine Portierung von Andrej Karpathys Let's build GPT- Tutorial auf YouTube, das die Candle-API an einem Spielzeugproblem vorstellt.
candle-einops : Eine reine Rust-Implementierung der Python-Einops-Bibliothek.
atoma-infer : Eine Rust-Bibliothek für schnelle Inferenz im großen Maßstab, die FlashAttention2 für eine effiziente Aufmerksamkeitsberechnung, PagedAttention für eine effiziente KV-Cache-Speicherverwaltung und Multi-GPU-Unterstützung nutzt. Es ist OpenAI-API-kompatibel.

Wenn Sie eine Ergänzung zu dieser Liste haben, senden Sie bitte eine Pull-Anfrage.

Merkmale

Einfache Syntax, sieht aus und fühlt sich an wie PyTorch.
- Modelltraining.
- Betten Sie benutzerdefinierte Operationen/Kernel ein, z. B. Flash-Attention v2.
Backends.
- Optimiertes CPU-Backend mit optionaler MKL-Unterstützung für x86 und Accelerate für Macs.
- CUDA-Backend für effizienten Betrieb auf GPUs, Mehrfach-GPU-Verteilung über NCCL.
- WASM-Unterstützung, führen Sie Ihre Modelle in einem Browser aus.
Enthaltene Modelle.
- Sprachmodelle.
  - LLaMA v1, v2 und v3 mit Varianten wie SOLAR-10.7B.
  - Falke.
  - StarCoder, StarCoder2.
  - Phi 1, 1,5, 2 und 3.
  - Mamba, Minimal Mamba
  - Gemma v1 2b und 7b+, v2 2b und 9b.
  - Mistral 7b v0.1.
  - Mixtral 8x7b v0.1.
  - StableLM-3B-4E1T, StableLM-2-1.6B, Stable-Code-3B.
  - Replit-Code-v1.5-3B.
  - Bert.
  - Yi-6B und Yi-34B.
  - Qwen1.5, Qwen1.5 MoE.
  - RWKV v5 und v6.
- Quantisierte LLMs.
  - Lama 7b, 13b, 70b, sowie die Chat- und Code-Varianten.
  - Mistral 7b und 7b unterrichten.
  - Mixtral 8x7b.
  - Zephyr 7b a und b (basierend auf Mistral-7b).
  - OpenChat 3.5 (Mistral-7b-basiert).
- Text zu Text.
  - T5 und seine Varianten: FlanT5, UL2, MADLAD400 (Übersetzung), CoEdit (Grammatikkorrektur).
  - Marian MT (Maschinelle Übersetzung).
- Text zum Bild.
  - Stabile Diffusion v1.5, v2.1, XL v1.0.
  - Wurstchen v2.
- Bild zu Text.
  - BLIP.
  - TrOCR.
- Audio.
  - Flüstern, mehrsprachige Speech-to-Text.
  - EnCodec, Audiokomprimierungsmodell.
  - MetaVoice-1B, Text-to-Speech-Modell.
  - Parler-TTS, Text-to-Speech-Modell.
- Computer-Vision-Modelle.
  - DINOv2, ConvMixer, EfficientNet, ResNet, ViT, VGG, RepVGG, ConvNeXT, ConvNeXTv2, MobileOne, EfficientVit (MSRA), MobileNetv4, Hiera, FastViT.
  - yolo-v3, yolo-v8.
  - Segment-Anything-Modell (SAM).
  - SegFormer.
Dateiformate: Laden Sie Modelle aus Safetensors-, npz-, ggml- oder PyTorch-Dateien.
Serverlos (auf CPU), kleine und schnelle Bereitstellungen.
Quantisierungsunterstützung mithilfe der quantisierten Typen llama.cpp.

Wie zu verwenden

Spickzettel:

	Verwendung von PyTorch	Kerze verwenden
Schaffung	`torch.Tensor([[1, 2], [3, 4]])`	`Tensor::new(&[[1f32, 2.], [3., 4.]], &Device::Cpu)?`
Schaffung	`torch.zeros((2, 2))`	`Tensor::zeros((2, 2), DType::F32, &Device::Cpu)?`
Indizierung	`tensor[:, :4]`	`tensor.i((.., ..4))?`
Operationen	`tensor.view((2, 2))`	`tensor.reshape((2, 2))?`
Operationen	`a.matmul(b)`	`a.matmul(&b)?`
Arithmetik	`a + b`	`&a + &b`
Gerät	`tensor.to(device="cuda")`	`tensor.to_device(&Device::new_cuda(0)?)?`
Dtyp	`tensor.to(dtype=torch.float16)`	`tensor.to_dtype(&DType::F16)?`
Sparen	`torch.save({"A": A}, "model.bin")`	`candle::safetensors::save(&HashMap::from([("A", A)]), "model.safetensors")?`
Laden	`weights = torch.load("model.bin")`	`candle::safetensors::load("model.safetensors", &device)`

Struktur

Candle-Core: Kernoperationen, Geräte und Tensor
Candle-nn: Werkzeuge zum Erstellen realer Modelle
Kerzenbeispiele: Beispiele für die Verwendung der Bibliothek in realistischen Umgebungen
Candle-Kernel: Benutzerdefinierte CUDA-Kernel
Candle-Datasets: Datensätze und Datenlader.
Kerzentransformatoren: transformatorbezogene Dienstprogramme.
Candle-Flash-Attn: Flash Attention v2-Ebene.
Candle-onnx: Bewertung des ONNX-Modells.

FAQ

Warum sollte ich Candle verwenden?

Das Hauptziel von Candle besteht darin, serverlose Schlussfolgerungen zu ermöglichen . Vollständige Frameworks für maschinelles Lernen wie PyTorch sind sehr groß, was die Erstellung von Instanzen auf einem Cluster langsam macht. Candle ermöglicht die Bereitstellung leichter Binärdateien.

Zweitens können Sie mit Candle Python aus Produktions-Workloads entfernen . Der Python-Overhead kann die Leistung ernsthaft beeinträchtigen, und die GIL ist eine notorische Quelle von Kopfschmerzen.

Endlich ist Rust cool! Ein großer Teil des HF-Ökosystems verfügt bereits über Rust-Kisten wie Safetensoren und Tokenizer.

Andere ML-Frameworks

dfdx ist eine beeindruckende Kiste, in der Formen in Typen enthalten sind. Dies vermeidet viele Kopfschmerzen, da der Compiler sich sofort über Formunterschiede beschwert. Wir haben jedoch festgestellt, dass einige Funktionen immer noch eine nächtliche Arbeit erfordern und das Schreiben von Code für Nicht-Rost-Experten etwas entmutigend sein kann.
Wir nutzen zur Laufzeit andere Kern-Crates und tragen dazu bei, sodass hoffentlich beide Crates voneinander profitieren können.
burn ist eine allgemeine Kiste, die mehrere Backends nutzen kann, sodass Sie die beste Engine für Ihre Arbeitslast auswählen können.
tch-rs Bindungen zur Torch-Bibliothek in Rust. Äußerst vielseitig, aber sie integrieren die gesamte Brennerbibliothek in die Laufzeit. Der Hauptbeitragszahler von tch-rs ist auch an der Entwicklung von candle beteiligt.

Häufige Fehler

Fehlende Symbole beim Kompilieren mit der mkl-Funktion.

Wenn beim Kompilieren von Binärdateien/Tests mit den mkl- oder Beschleunigungsfunktionen einige fehlende Symbole auftreten, z. B. für mkl, erhalten Sie Folgendes:

  = note: /usr/bin/ld: (....o): in function `blas::sgemm':
          .../blas-0.22.0/src/lib.rs:1944: undefined reference to `sgemm_' collect2: error: ld returned 1 exit status

  = note: some `extern` functions couldn't be found; some native libraries may need to be installed or have their path specified
  = note: use the `-l` flag to specify native libraries to link
  = note: use the `cargo:rustc-link-lib` directive to specify the native libraries to link with Cargo

oder zum Beschleunigen:

 Undefined symbols for architecture arm64:
            "_dgemm_", referenced from:
                candle_core::accelerate::dgemm::h1b71a038552bcabe in libcandle_core...
            "_sgemm_", referenced from:
                candle_core::accelerate::sgemm::h2cf21c592cba3c47 in libcandle_core...
          ld: symbol(s) not found for architecture arm64

Dies liegt wahrscheinlich an einem fehlenden Linker-Flag, das zum Aktivieren der mkl-Bibliothek erforderlich war. Sie können versuchen, Folgendes für mkl oben in Ihrer Binärdatei hinzuzufügen:

 extern crate intel_mkl_src ;

oder zum Beschleunigen:

 extern crate accelerate_src ;

Die LLaMA-Beispiele können nicht ausgeführt werden: Für den Zugriff auf die Quelle sind Anmeldeinformationen erforderlich

 Error: request error: https://huggingface.co/meta-llama/Llama-2-7b-hf/resolve/main/tokenizer.json: status code 401

Dies liegt wahrscheinlich daran, dass Sie keine Berechtigung für das LLaMA-v2-Modell haben. Um dies zu beheben, müssen Sie sich auf dem Huggingface-Hub registrieren, die LLaMA-v2-Modellbedingungen akzeptieren und Ihr Authentifizierungstoken einrichten. Weitere Einzelheiten finden Sie in Ausgabe Nr. 350.

Beim Kompilieren von flash-attn fehlen Cute/Cutlass-Header

  In file included from kernels/flash_fwd_launch_template.h:11:0,
                   from kernels/flash_fwd_hdim224_fp16_sm80.cu:5:
  kernels/flash_fwd_kernel.h:8:10: fatal error: cute/algorithm/copy.hpp: No such file or directory
   #include <cute/algorithm/copy.hpp>
            ^~~~~~~~~~~~~~~~~~~~~~~~~
  compilation terminated.
  Error: nvcc error while compiling:

Cutlass wird als Git-Submodul bereitgestellt, daher können Sie den folgenden Befehl ausführen, um es ordnungsgemäß einzuchecken.

git submodule update --init

Das Kompilieren mit Flash-Attention schlägt fehl

 /usr/include/c++/11/bits/std_function.h:530:146: error: parameter packs not expanded with ‘...’:

Dies ist ein Fehler in gcc-11, der durch den Cuda-Compiler ausgelöst wird. Um dies zu beheben, installieren Sie eine andere, unterstützte gcc-Version, zum Beispiel gcc-10, und geben Sie den Pfad zum Compiler in der Umgebungsvariablen NVCC_CCBIN an.

 env NVCC_CCBIN=/usr/lib/gcc/x86_64-linux-gnu/10 cargo ...

Verknüpfungsfehler unter Windows beim Ausführen von Rustdoc- oder MDBook-Tests

 Couldn't compile the test.
---- .candle-booksrcinferencehub.md - Using_the_hub::Using_in_a_real_model_ (line 50) stdout ----
error: linking with `link.exe` failed: exit code: 1181
//very long chain of linking
 = note: LINK : fatal error LNK1181: cannot open input file 'windows.0.48.5.lib'

Stellen Sie sicher, dass Sie alle nativen Bibliotheken verknüpfen, die sich möglicherweise außerhalb eines Projektziels befinden. Um beispielsweise MDBook-Tests auszuführen, sollten Sie Folgendes ausführen:

 mdbook test candle-book -L .targetdebugdeps `
-L native=$env:USERPROFILE.cargoregistrysrcindex.crates.io-6f17d22bba15001fwindows_x86_64_msvc-0.42.2lib `
-L native=$env:USERPROFILE.cargoregistrysrcindex.crates.io-6f17d22bba15001fwindows_x86_64_msvc-0.48.5lib

Extrem langsame Modellladezeit mit WSL

Dies kann daran liegen, dass die Modelle von /mnt/c geladen werden. Weitere Informationen zum Stackoverflow.

Fehlern auf der Spur

Sie können RUST_BACKTRACE=1 festlegen, um Backtraces zu erhalten, wenn ein Kerzenfehler generiert wird.

CudaRC-Fehler

Wenn ein Fehler wie dieser called Result::unwrap() on an Err value: LoadLibraryExW { source: Os { code: 126, kind: Uncategorized, message: "The specified module could not be found." } } unter Windows. Um das Problem zu beheben, kopieren Sie diese 3 Dateien und benennen Sie sie um (stellen Sie sicher, dass sie sich im Pfad befinden). Die Pfade hängen von Ihrer Cuda-Version ab. c:WindowsSystem32nvcuda.dll -> cuda.dll c:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4bincublas64_12.dll -> cublas.dll c:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4bincurand64_10.dll -> curand.dll

Expandieren

Zusätzliche Informationen