spark ai تنزيل - تنزيل رمز المصدر spark ai

spark ai

كود الذكاء الاصطناعي

1.0.0

تنزيل

شرارة الذكاء الاصطناعي

صندوق الأدوات لبناء تطبيقات الذكاء الاصطناعي التوليدية أعلى Apache Spark.

يحاول العديد من المطورين الشركات الاستفادة من LLMs لتحسين تطبيقاتهم الحالية أو إنشاء تطبيقات جديدة تمامًا. بفضل LLMs، لم يعد معظمهم بحاجة إلى تدريب نماذج تعلم الآلة الجديدة. ومع ذلك، لا يزال التحدي الرئيسي يتمثل في البيانات والبنية التحتية. يتضمن ذلك استيعاب البيانات وتحويلها وتوجيهها والبحث عنها وتقديم النماذج.

على مدى الأشهر القليلة الماضية، شهدت الصناعة طفرة في الأدوات والأطر الجديدة للمساعدة في مواجهة هذه التحديات. ومع ذلك، لا يوجد أي منها سهل الاستخدام، ولا يمكن نشره في الإنتاج، ولا يمكنه التعامل مع حجم البيانات.

يهدف هذا المشروع إلى توفير مجموعة أدوات من ملحقات Spark ومصادر البيانات والأدوات المساعدة لتسهيل إنشاء بنية تحتية قوية للبيانات على Spark لتطبيقات الذكاء الاصطناعي التوليدي.

تطبيقات المثال

أكمل الأمثلة التي يمكن لأي شخص البدء بها لإنشاء تطبيقات الذكاء الاصطناعي التوليدية الخاصة به.

قالب الشات بوت
نموذج المستشار الطبي

اقرأ عن أفكارنا حول الهندسة السريعة، وLLMs، والبرمجة المنخفضة هنا.

بداية سريعة

تثبيت

حاليًا، يستهدف المشروع بشكل أساسي مستخدمي PySpark، ومع ذلك، لأنه يتميز أيضًا بموصلات عالية الأداء، يجب أن تكون تبعيات PySpark وScala موجودة في مجموعة Spark.

الابتلاع

 from spark_ai . webapps . slack import SlackUtilities

# Batch version
slack = SlackUtilities ( token = 'xoxb-...' , spark = spark )
df_channels = slack . read_channels ()
df_conversations = slack . read_conversations ( df_channels )

# Live streaming version
df_messages = ( spark . readStream
    . format ( 'io.prophecy.spark_ai.webapps.slack.SlackSourceProvider' )
    . option ( 'token' , 'xapp-...' )
    . load ())

المعالجة المسبقة والتحويل

 from spark_ai . llms . openai import OpenAiLLM
from spark_ai . dbs . pinecone import PineconeDB

OpenAiLLM ( api_key = 'sk-...' ). register_udfs ( spark = spark )
PineconeDB ( '8045...' , 'us-east-1-aws' ). register_udfs ( self . spark )

( df_conversations
    # Embed the text from every conversation into a vector
    . withColumn ( 'embeddings' , expr ( 'openai_embed_texts(text)' ))
    # Do some more pre-processing
    ... 
    # Upsert the embeddings into Pinecone
    . withColumn ( 'status' , expr ( 'pinecone_upsert( ' index-name ' , embeddings)' ))
    # Save the status of the upsertion to a standard table
    . saveAsTable ( 'pinecone_status' ))

الاستدلال

 df_messages = spark . readStream 
    . format ( "io_prophecy.spark_ai.SlackStreamingSourceProvider" ) 
    . option ( "token" , token ) 
    . load ()

# Handle a live stream of messages from Slack here