spark ai Télécharger - spark ai Téléchargement du code source

spark ai

Code Source AI

1.0.0

Télécharger

Spark IA

Boîte à outils pour créer des applications d'IA générative sur Apache Spark.

De nombreux développeurs et entreprises tentent de tirer parti des LLM pour améliorer leurs applications existantes ou en créer de toutes nouvelles. Grâce aux LLM, la plupart d'entre eux n'ont plus besoin de former de nouveaux modèles ML. Cependant, le défi majeur reste celui des données et de l’infrastructure. Cela inclut l'ingestion de données, la transformation, la vectorisation, la recherche et la diffusion de modèles.

Au cours des derniers mois, l’industrie a vu apparaître de nouveaux outils et cadres pour relever ces défis. Cependant, aucun d’entre eux n’est facile à utiliser, à déployer en production, ni à gérer l’ampleur des données.

Ce projet vise à fournir une boîte à outils d'extensions Spark, de sources de données et d'utilitaires pour faciliter la création d'une infrastructure de données robuste sur Spark pour les applications d'IA générative.

Exemples d'applications

Des exemples complets à partir desquels tout le monde peut partir pour créer ses propres applications d'IA générative.

Modèle de chatbot
Modèle de conseiller médical

Découvrez nos réflexions sur l'ingénierie Prompt, les LLM et le Low-code ici.

Démarrage rapide

Installation

Actuellement, le projet s'adresse principalement aux utilisateurs de PySpark, mais comme il propose également des connecteurs hautes performances, les dépendances PySpark et Scala doivent être présentes sur le cluster Spark.

Ingestion

 from spark_ai . webapps . slack import SlackUtilities

# Batch version
slack = SlackUtilities ( token = 'xoxb-...' , spark = spark )
df_channels = slack . read_channels ()
df_conversations = slack . read_conversations ( df_channels )

# Live streaming version
df_messages = ( spark . readStream
    . format ( 'io.prophecy.spark_ai.webapps.slack.SlackSourceProvider' )
    . option ( 'token' , 'xapp-...' )
    . load ())

Prétraitement et vectorisation

 from spark_ai . llms . openai import OpenAiLLM
from spark_ai . dbs . pinecone import PineconeDB

OpenAiLLM ( api_key = 'sk-...' ). register_udfs ( spark = spark )
PineconeDB ( '8045...' , 'us-east-1-aws' ). register_udfs ( self . spark )

( df_conversations
    # Embed the text from every conversation into a vector
    . withColumn ( 'embeddings' , expr ( 'openai_embed_texts(text)' ))
    # Do some more pre-processing
    ... 
    # Upsert the embeddings into Pinecone
    . withColumn ( 'status' , expr ( 'pinecone_upsert( ' index-name ' , embeddings)' ))
    # Save the status of the upsertion to a standard table
    . saveAsTable ( 'pinecone_status' ))

Inférence

 df_messages = spark . readStream 
    . format ( "io_prophecy.spark_ai.SlackStreamingSourceProvider" ) 
    . option ( "token" , token ) 
    . load ()

# Handle a live stream of messages from Slack here