Téléchargement mlx embeddings - mlx embeddings Téléchargement du code source

mlx embeddings

Code Source AI

1.0.0

Télécharger

Intégrations MLX

MLX-Embeddings est un package permettant d'exécuter des modèles Vision et Language Embedding localement sur votre Mac à l'aide de MLX.

Logiciel gratuit : Licence publique générale GNU v3

Caractéristiques

Générer des intégrations pour le texte à l'aide de modèles MLX
Prise en charge du traitement d'un article unique et par lots
Utilitaires pour comparer les similitudes de textes

Installation

Vous pouvez installer des mlx-embeddings en utilisant pip :

pip install mlx-embeddings

Usage

Incorporation d'un seul élément

Pour générer une intégration pour un seul morceau de texte :

 import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

# Prepare the text
text = "I like reading"

# Tokenize and generate embedding
input_ids = tokenizer . encode ( text , return_tensors = "mlx" )
outputs = model ( input_ids )
embeddings = outputs [ 0 ][:, 0 , :]

Comparer plusieurs textes

Pour comparer plusieurs textes à l'aide de leurs intégrations :

 from sklearn . metrics . pairwise import cosine_similarity
import matplotlib . pyplot as plt
import seaborn as sns
import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

def get_embedding ( text , model , tokenizer ):
    input_ids = tokenizer . encode ( text , return_tensors = "mlx" , padding = True , truncation = True , max_length = 512 )
    outputs = model ( input_ids )
    embeddings = outputs [ 0 ][:, 0 , :][ 0 ]
    return embeddings

# Sample texts
texts = [
    "I like grapes" ,
    "I like fruits" ,
    "The slow green turtle crawls under the busy ant."
]

# Generate embeddings
embeddings = [ get_embedding ( text , model , tokenizer ) for text in texts ]

# Compute similarity
similarity_matrix = cosine_similarity ( embeddings )

# Visualize results
def plot_similarity_matrix ( similarity_matrix , labels ):
    plt . figure ( figsize = ( 5 , 4 ))
    sns . heatmap ( similarity_matrix , annot = True , cmap = 'coolwarm' , xticklabels = labels , yticklabels = labels )
    plt . title ( 'Similarity Matrix Heatmap' )
    plt . tight_layout ()
    plt . show ()

labels = [ f"Text { i + 1 } " for i in range ( len ( texts ))]
plot_similarity_matrix ( similarity_matrix , labels )

Traitement par lots

Pour traiter plusieurs textes à la fois :

 from sklearn . metrics . pairwise import cosine_similarity
import matplotlib . pyplot as plt
import seaborn as sns
import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

def get_embedding ( texts , model , tokenizer ):
    inputs = tokenizer . batch_encode_plus ( texts , return_tensors = "mlx" , padding = True , truncation = True , max_length = 512 )
    outputs = model (
        inputs [ "input_ids" ],
        attention_mask = inputs [ "attention_mask" ]
    )
    return outputs [ 0 ]

def compute_and_print_similarity ( embeddings ):
    B , Seq_len , dim = embeddings . shape
    embeddings_2d = embeddings . reshape ( B , - 1 )
    similarity_matrix = cosine_similarity ( embeddings_2d )

    print ( "Similarity matrix between sequences:" )
    print ( similarity_matrix )
    print ( " n " )

    for i in range ( B ):
        for j in range ( i + 1 , B ):
            print ( f"Similarity between sequence { i + 1 } and sequence { j + 1 } : { similarity_matrix [ i ][ j ]:.4f } " )

    return similarity_matrix

# Sample texts
texts = [
    "I like grapes" ,
    "I like fruits" ,
    "The slow green turtle crawls under the busy ant."
]

embeddings = get_embedding ( texts , model , tokenizer )
similarity_matrix = compute_and_print_similarity ( embeddings )

# Visualize results
labels = [ f"Text { i + 1 } " for i in range ( len ( texts ))]
plot_similarity_matrix ( similarity_matrix , labels )

Architectures de modèles pris en charge

MLX-Embeddings prend en charge une variété d'architectures de modèles pour les tâches d'incorporation de texte. Voici une liste des architectures actuellement prises en charge :

XLM-RoBERTa (Modèle de langage multilingue - Approche BERT robustement optimisée)
BERT (Représentations d'encodeurs bidirectionnels à partir de transformateurs)

Nous travaillons continuellement à étendre notre prise en charge d'architectures de modèles supplémentaires. Consultez notre référentiel ou notre documentation GitHub pour obtenir la liste la plus à jour des modèles pris en charge et de leurs versions spécifiques.