mlx embeddings 다운로드 - mlx embeddings 소스 코드 다운로드

mlx embeddings

AI 소스 코드

1.0.0

다운로드

MLX 임베딩

MLX-Embeddings는 MLX를 사용하여 Mac에서 로컬로 Vision 및 Language Embedding 모델을 실행하기 위한 패키지입니다.

무료 소프트웨어: GNU General Public License v3

특징

MLX 모델을 사용하여 텍스트에 대한 임베딩 생성
단일 항목 및 일괄 처리 지원
텍스트 유사성을 비교하는 유틸리티

설치

pip를 사용하여 mlx-embeddings를 설치할 수 있습니다.

pip install mlx-embeddings

용법

단일 항목 임베딩

단일 텍스트에 대한 임베딩을 생성하려면 다음을 수행하십시오.

 import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

# Prepare the text
text = "I like reading"

# Tokenize and generate embedding
input_ids = tokenizer . encode ( text , return_tensors = "mlx" )
outputs = model ( input_ids )
embeddings = outputs [ 0 ][:, 0 , :]

여러 텍스트 비교

임베딩을 사용하여 여러 텍스트를 비교하려면 다음을 수행하십시오.

 from sklearn . metrics . pairwise import cosine_similarity
import matplotlib . pyplot as plt
import seaborn as sns
import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

def get_embedding ( text , model , tokenizer ):
    input_ids = tokenizer . encode ( text , return_tensors = "mlx" , padding = True , truncation = True , max_length = 512 )
    outputs = model ( input_ids )
    embeddings = outputs [ 0 ][:, 0 , :][ 0 ]
    return embeddings

# Sample texts
texts = [
    "I like grapes" ,
    "I like fruits" ,
    "The slow green turtle crawls under the busy ant."
]

# Generate embeddings
embeddings = [ get_embedding ( text , model , tokenizer ) for text in texts ]

# Compute similarity
similarity_matrix = cosine_similarity ( embeddings )

# Visualize results
def plot_similarity_matrix ( similarity_matrix , labels ):
    plt . figure ( figsize = ( 5 , 4 ))
    sns . heatmap ( similarity_matrix , annot = True , cmap = 'coolwarm' , xticklabels = labels , yticklabels = labels )
    plt . title ( 'Similarity Matrix Heatmap' )
    plt . tight_layout ()
    plt . show ()

labels = [ f"Text { i + 1 } " for i in range ( len ( texts ))]
plot_similarity_matrix ( similarity_matrix , labels )

일괄 처리

한 번에 여러 텍스트를 처리하려면:

 from sklearn . metrics . pairwise import cosine_similarity
import matplotlib . pyplot as plt
import seaborn as sns
import mlx . core as mx
from mlx_embeddings . utils import load

# Load the model and tokenizer
model , tokenizer = load ( "sentence-transformers/all-MiniLM-L6-v2" )

def get_embedding ( texts , model , tokenizer ):
    inputs = tokenizer . batch_encode_plus ( texts , return_tensors = "mlx" , padding = True , truncation = True , max_length = 512 )
    outputs = model (
        inputs [ "input_ids" ],
        attention_mask = inputs [ "attention_mask" ]
    )
    return outputs [ 0 ]

def compute_and_print_similarity ( embeddings ):
    B , Seq_len , dim = embeddings . shape
    embeddings_2d = embeddings . reshape ( B , - 1 )
    similarity_matrix = cosine_similarity ( embeddings_2d )

    print ( "Similarity matrix between sequences:" )
    print ( similarity_matrix )
    print ( " n " )

    for i in range ( B ):
        for j in range ( i + 1 , B ):
            print ( f"Similarity between sequence { i + 1 } and sequence { j + 1 } : { similarity_matrix [ i ][ j ]:.4f } " )

    return similarity_matrix

# Sample texts
texts = [
    "I like grapes" ,
    "I like fruits" ,
    "The slow green turtle crawls under the busy ant."
]

embeddings = get_embedding ( texts , model , tokenizer )
similarity_matrix = compute_and_print_similarity ( embeddings )

# Visualize results
labels = [ f"Text { i + 1 } " for i in range ( len ( texts ))]
plot_similarity_matrix ( similarity_matrix , labels )