mlx embeddings下载 - mlx embeddings源代码下载

mlx embeddings

Ai源码

1.0.0

下载

MLX-嵌入

MLX-Embeddings 是一个使用 MLX 在 Mac 上本地运行视觉和语言嵌入模型的软件包。

自由软件：GNU 通用公共许可证 v3

特征

使用 MLX 模型生成文本嵌入
支持单项和批量处理
比较文本相似度的实用程序

安装

您可以使用 pip 安装 mlx-embeddings：

pip install mlx-embeddings

用法

单个项目嵌入

要为单段文本生成嵌入：

 import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

# Prepare the text
text = "I like reading"

# Tokenize and generate embedding
input_ids = tokenizer . encode ( text , return_tensors = "mlx" )
outputs = model ( input_ids )
embeddings = outputs [ 0 ][:, 0 , :]

比较多个文本

使用嵌入来比较多个文本：

 from sklearn . metrics . pairwise import cosine_similarity
import matplotlib . pyplot as plt
import seaborn as sns
import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

def get_embedding ( text , model , tokenizer ):
    input_ids = tokenizer . encode ( text , return_tensors = "mlx" , padding = True , truncation = True , max_length = 512 )
    outputs = model ( input_ids )
    embeddings = outputs [ 0 ][:, 0 , :][ 0 ]
    return embeddings

# Sample texts
texts = [
    "I like grapes" ,
    "I like fruits" ,
    "The slow green turtle crawls under the busy ant."
]

# Generate embeddings
embeddings = [ get_embedding ( text , model , tokenizer ) for text in texts ]

# Compute similarity
similarity_matrix = cosine_similarity ( embeddings )

# Visualize results
def plot_similarity_matrix ( similarity_matrix , labels ):
    plt . figure ( figsize = ( 5 , 4 ))
    sns . heatmap ( similarity_matrix , annot = True , cmap = 'coolwarm' , xticklabels = labels , yticklabels = labels )
    plt . title ( 'Similarity Matrix Heatmap' )
    plt . tight_layout ()
    plt . show ()

labels = [ f"Text { i + 1 } " for i in range ( len ( texts ))]
plot_similarity_matrix ( similarity_matrix , labels )

批处理

用于一次处理多个文本：

 from sklearn . metrics . pairwise import cosine_similarity
import matplotlib . pyplot as plt
import seaborn as sns
import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

def get_embedding ( texts , model , tokenizer ):
    inputs = tokenizer . batch_encode_plus ( texts , return_tensors = "mlx" , padding = True , truncation = True , max_length = 512 )
    outputs = model (
        inputs [ "input_ids" ],
        attention_mask = inputs [ "attention_mask" ]
    )
    return outputs [ 0 ]

def compute_and_print_similarity ( embeddings ):
    B , Seq_len , dim = embeddings . shape
    embeddings_2d = embeddings . reshape ( B , - 1 )
    similarity_matrix = cosine_similarity ( embeddings_2d )

    print ( "Similarity matrix between sequences:" )
    print ( similarity_matrix )
    print ( " n " )

    for i in range ( B ):
        for j in range ( i + 1 , B ):
            print ( f"Similarity between sequence { i + 1 } and sequence { j + 1 } : { similarity_matrix [ i ][ j ]:.4f } " )

    return similarity_matrix

# Sample texts
texts = [
    "I like grapes" ,
    "I like fruits" ,
    "The slow green turtle crawls under the busy ant."
]

embeddings = get_embedding ( texts , model , tokenizer )
similarity_matrix = compute_and_print_similarity ( embeddings )

# Visualize results
labels = [ f"Text { i + 1 } " for i in range ( len ( texts ))]
plot_similarity_matrix ( similarity_matrix , labels )