candle下載 - candle原始碼下載

candle

其他源碼

下載

蠟燭

Candle 是 Rust 的極簡 ML 框架，專注於效能（包括 GPU 支援）和易用性。嘗試我們的線上演示：whisper、LLaMA2、T5、yolo、Segment Anything。

開始使用

確保您已按照安裝中的說明正確安裝了candle-core 。

讓我們看看如何運行簡單的矩陣乘法。將以下內容寫入您的myapp/src/main.rs檔案：

 use candle_core :: { Device , Tensor } ;

fn main ( ) -> Result < ( ) , Box < dyn std :: error :: Error > > {
    let device = Device :: Cpu ;

    let a = Tensor :: randn ( 0f32 , 1. , ( 2 , 3 ) , & device ) ? ;
    let b = Tensor :: randn ( 0f32 , 1. , ( 3 , 4 ) , & device ) ? ;

    let c = a . matmul ( & b ) ? ;
    println ! ( "{c}" ) ;
    Ok ( ( ) )
}

cargo run應顯示形狀為Tensor[[2, 4], f32]的張量。

安裝帶有 Cuda 支援的candle後，只需將device定義在 GPU 上即可：

 - let device = Device::Cpu;
+ let device = Device::new_cuda(0)?;

有關更高級的範例，請查看以下部分。

看看我們的例子

這些線上演示完全在您的瀏覽器中運行：

yolo：姿態估計和物體辨識。
耳語：語音辨識。
LLaMA2：文字生成。
T5：文字生成。
Phi-1.5 和 Phi-2：文本生成。
分割任何模型：影像分割。
BLIP：影像字幕。

我們也提供了一些使用最先進模型的基於命令列的範例：

LLaMA v1、v2 和 v3：通用法學碩士，包括 SOLAR-10.7B 變體。
獵鷹：普通法學碩士。
Codegeex4：程式碼完成、程式碼解釋器、網路搜尋、函數呼叫、儲存庫級
GLM4：THUDM 開放多語言多模式聊天 LM
Gemma v1 和 v2：來自 Google Deepmind 的 2b 和 7b+/9b 普通法學碩士。
RecurrentGemma：來自 Google 的基於 2b 和 7b Griffin 的模型，將注意力與類似 RNN 的狀態混合在一起。
Phi-1、Phi-1.5、Phi-2 和 Phi-3：1.3b、2.7b 和 3.8b 通用法學碩士，表現與 7b 模型相當。
StableLM-3B-4E1T：在英文和程式碼資料集的 1T 標記上進行預訓練的 3b 通用 LLM。也支援 StableLM-2（一種在 2T 令牌上訓練的 1.6b LLM）以及程式碼變體。
Mamba：Mamba 狀態空間模型的僅推理實作。
Mistral7b-v0.1：7b 通用法學碩士，其性能優於截至 2023 年 9 月 28 日所有公開可用的 13b 模型。
Mixtral8x7b-v0.1：專家 8x7b 通用 LLM 的稀疏混合，其性能比 Llama 2 70B 模型更好，推理速度更快。
StarCoder 和 StarCoder2：專門從事代碼生成的法學碩士。
Qwen1.5：雙語（英文/中文）法學碩士。
RWKV v5 和 v6：具有 Transformer 等級 LLM 性能的 RNN。
Replit-code-v1.5：專門用於程式碼完成的 3.3b LLM。
Yi-6B / Yi-34B：兩個雙語（英文/中文）普通法學碩士，參數為 6b 和 34b。
量化 LLaMA：LLaMA 模型的量化版本，使用與 llama.cpp 相同的量化技術。

Stable Diffusion：文字到影像產生模型，支援 1.5、2.1、SDXL 1.0 和 Turbo 版本。

Wuerstchen：另一個文字到圖像生成模型。

yolo-v3 和 yolo-v8：目標偵測和姿態估計模型。

Segment-Anything：帶有提示的圖像分割模型。

SegFormer：基於變壓器的語意分割模型。
Whisper：語音辨識模型。
EnCodec：使用殘差向量量化的高品質音訊壓縮模型。
MetaVoice：文字轉語音的基礎模型。
Parler-TTS：大型文字轉語音模型。
T5、Bert、JinaBert：對於句子嵌入很有用。
DINOv2：使用自監督訓練的電腦視覺模型（可用於 imagenet 分類、深度評估、分割）。
VGG、RepVGG：電腦視覺模型。
BLIP：圖像到文字模型，可用於產生圖像的標題。
CLIP：多模型視覺和語言模型。
TrOCR：變壓器 OCR 模型，具有用於手寫和列印辨識的專用子模型。
Marian-MT：神經機器翻譯模型，根據輸入文字產生翻譯文字。
Moondream：微型電腦視覺模型，可以回答有關圖像的現實世界問題。

使用以下命令運行它們：

 cargo run --example quantized --release

為了使用CUDA，請將--features cuda加入到範例命令列。如果您安裝了 cuDNN，請使用--features cudnn來獲得更多加速。

還有一些針對 Whisper 和 llama2.c 的 wasm 範例。您可以使用trunk構建它們，也可以在線嘗試它們：whisper、llama2、T5、Phi-1.5 和 Phi-2、Segment Anything Model。

對於 LLaMA2，執行以下命令來檢索權重檔案並啟動測試伺服器：

 cd candle-wasm-examples/llama2-c
wget https://huggingface.co/spaces/lmz/candle-llama2/resolve/main/model.bin
wget https://huggingface.co/spaces/lmz/candle-llama2/resolve/main/tokenizer.json
trunk serve --release --port 8081

然後造訪 http://localhost:8081/。

有用的外部資源

candle-tutorial ：非常詳細的教學課程，展示如何將 PyTorch 模型轉換為 Candle。
candle-lora ：針對 Candle 的高效且符合人體工學的 LoRA 實現。 candle-lora有
對 Candle 的許多型號提供開箱即用的 LoRA 支持，可以在此處找到。
optimisers ：優化器的集合，包括具有動量的 SGD、AdaGrad、AdaDelta、AdaMax、NAdam、RAdam 和 RMSprop。
candle-vllm ：用於推理和服務本地 LLM 的高效平台，包括 OpenAI 相容的 API 伺服器。
candle-ext ：Candle 的擴充庫，提供 Candle 目前無法使用的 PyTorch 功能。
candle-coursera-ml ：Coursera 機器學習專業課程中的 ML 演算法的實作。
kalosm ：Rust 中的多模式元框架，用於與本地預訓練模型交互，支援受控生成、自訂採樣器、記憶體向量資料庫、音訊轉錄等。
candle-sampling ：蠟燭的採樣技術。
gpt-from-scratch-rs ：YouTube 上 Andrej Karpathy 的Let's build GPT教學的移植版，展示了針對玩具問題的 Candle API。
candle-einops ：Python einops 函式庫的純 Rust 實作。
atoma-infer ：一個用於大規模快速推理的 Rust 函式庫，利用 FlashAttention2 進行高效能的注意力計算，利用 PagedAttention 進行高效的 KV 快取記憶體管理，以及多 GPU 支援。它與 OpenAI api 相容。

如果您對此清單有任何補充，請提交拉取請求。

特徵

語法簡單，外觀和感覺都像 PyTorch。
- 模型訓練。
- 嵌入使用者定義的操作/內核，例如 flash-attention v2。
後端。
- 最佳化的 CPU 後端，具有針對 x86 的可選 MKL 支援和針對 Mac 的 Accelerate。
- CUDA 後端可在 GPU 上高效運行，透過 NCCL 進行多 GPU 分配。
- WASM 支持，在瀏覽器中運行您的模型。
包含型號。
- 語言模型。
  - LLaMA v1、v2 和 v3 以及 SOLAR-10.7B 等變異。
  - 鶻。
  - 星編碼器，星編碼器2。
  - Φ1、1.5、2 和 3。
  - 曼巴、最小曼巴
  - Gemma v1 2b 和 7b+、v2 2b 和 9b。
  - 米斯特拉爾 7b v0.1。
  - 混合 8x7b v0.1。
  - StableLM-3B-4E1T、StableLM-2-1.6B、Stable-Code-3B。
  - Replit-code-v1.5-3B。
  - 伯特.
  - Yi-6B 和 Yi-34B。
  - Qwen1.5，Qwen1.5教育部。
  - RWKV v5 和 v6。
- 量化法學碩士。
  - Llama 7b、13b、70b，以及聊天和代碼變體。
  - 米斯特拉爾 7b 和 7b 指示。
  - 混合 8x7b。
  - Zephyr 7b a 和 b（基於 Mistral-7b）。
  - OpenChat 3.5（基於 Mistral-7b）。
- 文字到文字。
  - T5 及其變體：FlanT5、UL2、MADLAD400（翻譯）、CoEdit（語法校正）。
  - 瑪麗安 MT（機器翻譯）。
- 文字到圖像。
  - 穩定擴散 v1.5、v2.1、XL v1.0。
  - 伍斯特琴 v2.
- 圖像到文字。
  - BLIP。
  - 文字辨識。
- 聲音的。
  - 耳語，多語言語音轉文字。
  - EnCodec，音訊壓縮模型。
  - MetaVoice-1B，文字轉語音模型。
  - Parler-TTS，文字轉語音模型。
- 電腦視覺模型。
  - DINOv2、ConvMixer、EfficientNet、ResNet、ViT、VGG、RepVGG、ConvNeXT、ConvNeXTv2、MobileOne、EfficientVit (MSRA)、MobileNetv4、Hiera、FastViT。
  - yolo-v3、yolo-v8。
  - 分段任意模型 (SAM)。
  - 分段器。
檔案格式：從 safetensors、npz、ggml 或 PyTorch 檔案載入模型。
無伺服器（在 CPU 上）、小型且快速的部署。
使用 llama.cpp 量化類型的量化支援。

如何使用

備忘錄：

	使用 PyTorch	使用蠟燭
創建	`torch.Tensor([[1, 2], [3, 4]])`	`Tensor::new(&[[1f32, 2.], [3., 4.]], &Device::Cpu)?`
創建	`torch.zeros((2, 2))`	`Tensor::zeros((2, 2), DType::F32, &Device::Cpu)?`
索引	`tensor[:, :4]`	`tensor.i((.., ..4))?`
營運	`tensor.view((2, 2))`	`tensor.reshape((2, 2))?`
營運	`a.matmul(b)`	`a.matmul(&b)?`
算術	`a + b`	`&a + &b`
裝置	`tensor.to(device="cuda")`	`tensor.to_device(&Device::new_cuda(0)?)?`
資料類型	`tensor.to(dtype=torch.float16)`	`tensor.to_dtype(&DType::F16)?`
儲存	`torch.save({"A": A}, "model.bin")`	`candle::safetensors::save(&HashMap::from([("A", A)]), "model.safetensors")?`
載入中	`weights = torch.load("model.bin")`	`candle::safetensors::load("model.safetensors", &device)`

結構

Candle-core：核心操作、設備與Tensor結構定義
Candle-nn：建構真實模型的工具
蠟燭範例：在實際設定中使用庫的範例
Candle-kernels：CUDA 自訂內核
Candle-datasets：資料集和資料載入器。
Candle-Transformers：與變壓器相關的實用程式。
Candle-flash-attn：Flash 注意力 v2 層。
Candle-onnx：ONNX 模型評估。

常問問題

為什麼我應該使用蠟燭？

Candle 的核心目標是讓無伺服器推理成為可能。像 PyTorch 這樣的完整機器學習框架非常大，這使得在叢集上建立實例的速度很慢。 Candle 允許部署輕量級二進位。

其次，Candle 可以讓您從生產工作負載中刪除 Python 。 Python 開銷會嚴重影響效能，而 GIL 是眾所周知的令人頭痛的問題。

最後，Rust 很酷！許多 HF 生態系統已經擁有 Rust 箱，例如安全張量和標記器。

其他機器學習框架

dfdx 是一個強大的板條箱，其形狀包含在類型中。透過讓編譯器立即抱怨形狀不匹配，可以避免很多令人頭痛的問題。然而，我們發現某些功能仍然需要 nightly，而編寫程式碼對於非 Rust 專家來說可能有點令人畏懼。
我們在運行時利用其他核心 crate 並為其做出貢獻，因此希望這兩個 crate 能夠相互受益。
burn 是一個通用包，可以利用多個後端，因此您可以為您的工作負載選擇最佳引擎。
tch-rs 綁定到 Rust 中的 torch 函式庫。非常通用，但它們將整個火炬庫引入運行時。 tch-rs的主要貢獻者也參與了candle的開發。

常見錯誤

使用 mkl 函數編譯時缺少符號。

如果您在使用 mkl 或加速功能編譯二進位檔案/測試時遇到一些遺失的符號，例如對於 mkl 您會得到：

  = note: /usr/bin/ld: (....o): in function `blas::sgemm':
          .../blas-0.22.0/src/lib.rs:1944: undefined reference to `sgemm_' collect2: error: ld returned 1 exit status

  = note: some `extern` functions couldn't be found; some native libraries may need to be installed or have their path specified
  = note: use the `-l` flag to specify native libraries to link
  = note: use the `cargo:rustc-link-lib` directive to specify the native libraries to link with Cargo

或加速：

 Undefined symbols for architecture arm64:
            "_dgemm_", referenced from:
                candle_core::accelerate::dgemm::h1b71a038552bcabe in libcandle_core...
            "_sgemm_", referenced from:
                candle_core::accelerate::sgemm::h2cf21c592cba3c47 in libcandle_core...
          ld: symbol(s) not found for architecture arm64

這可能是由於缺少啟用 mkl 庫所需的連結器標誌。您可以嘗試在二進位檔案的頂部添加 mkl 的以下內容：

 extern crate intel_mkl_src ;

或加速：

 extern crate accelerate_src ;

無法運行 LLaMA 範例：存取來源需要登入憑證

 Error: request error: https://huggingface.co/meta-llama/Llama-2-7b-hf/resolve/main/tokenizer.json: status code 401

這可能是因為您無權使用 LLaMA-v2 模型。要解決此問題，您必須在 Huggingface-hub 上註冊，接受 LLaMA-v2 模型條件，並設定您的身份驗證令牌。有關更多詳細信息，請參閱問題#350。

編譯 flash-attn 時缺少可愛/彎刀標頭

  In file included from kernels/flash_fwd_launch_template.h:11:0,
                   from kernels/flash_fwd_hdim224_fp16_sm80.cu:5:
  kernels/flash_fwd_kernel.h:8:10: fatal error: cute/algorithm/copy.hpp: No such file or directory
   #include <cute/algorithm/copy.hpp>
            ^~~~~~~~~~~~~~~~~~~~~~~~~
  compilation terminated.
  Error: nvcc error while compiling:

cutlass 作為 git 子模組提供，因此您可能需要執行以下命令來正確簽入它。

git submodule update --init

使用 flash-attention 編譯失敗

 /usr/include/c++/11/bits/std_function.h:530:146: error: parameter packs not expanded with ‘...’:

這是由 Cuda 編譯器觸發的 gcc-11 中的錯誤。若要解決此問題，請安裝不同的支援的 gcc 版本 - 例如 gcc-10，並在 NVCC_CCBIN 環境變數中指定編譯器的路徑。

 env NVCC_CCBIN=/usr/lib/gcc/x86_64-linux-gnu/10 cargo ...

執行 rustdoc 或 mdbook 測試時在 Windows 上出現連結錯誤

 Couldn't compile the test.
---- .candle-booksrcinferencehub.md - Using_the_hub::Using_in_a_real_model_ (line 50) stdout ----
error: linking with `link.exe` failed: exit code: 1181
//very long chain of linking
 = note: LINK : fatal error LNK1181: cannot open input file 'windows.0.48.5.lib'

確保連結可能位於專案目標外部的所有本機庫，例如，要執行 mdbook 測試，您應該執行：

 mdbook test candle-book -L .targetdebugdeps `
-L native=$env:USERPROFILE.cargoregistrysrcindex.crates.io-6f17d22bba15001fwindows_x86_64_msvc-0.42.2lib `
-L native=$env:USERPROFILE.cargoregistrysrcindex.crates.io-6f17d22bba15001fwindows_x86_64_msvc-0.48.5lib

WSL 的模型載入時間極慢

這可能是由於從/mnt/c載入模型引起的，有關 stackoverflow 的更多詳細資訊。

追蹤錯誤

您可以設定RUST_BACKTRACE=1以便在產生蠟燭錯誤時提供回溯。

CudaRC錯誤

如果您on an遇到called Result::unwrap() 的錯誤value: LoadLibraryExW { source: Os { code: 126, kind: Uncategorized, message: "The specified module could not be found." } }在value: LoadLibraryExW { source: Os { code: 126, kind: Uncategorized, message: "The specified module could not be found." } }上。若要修復複製並重新命名這 3 個檔案（確保它們位於路徑中）。路徑取決於您的 cuda 版本。 c:WindowsSystem32nvcuda.dll - > cuda.dll c:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4bincublas64_12.dll - > cublas.dll c:Program FilesNVIDIA GPU Computing ToolkitCUDAv12.4bincurand64_10.dll -> curand.dll

展開

附加信息

版本
類型其他源碼
更新時間 2024-12-09
大小 3.14MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部