صندوق الأدوات لبناء تطبيقات الذكاء الاصطناعي التوليدية أعلى Apache Spark.
يحاول العديد من المطورين الشركات الاستفادة من LLMs لتحسين تطبيقاتهم الحالية أو إنشاء تطبيقات جديدة تمامًا. بفضل LLMs، لم يعد معظمهم بحاجة إلى تدريب نماذج تعلم الآلة الجديدة. ومع ذلك، لا يزال التحدي الرئيسي يتمثل في البيانات والبنية التحتية. يتضمن ذلك استيعاب البيانات وتحويلها وتوجيهها والبحث عنها وتقديم النماذج.
على مدى الأشهر القليلة الماضية، شهدت الصناعة طفرة في الأدوات والأطر الجديدة للمساعدة في مواجهة هذه التحديات. ومع ذلك، لا يوجد أي منها سهل الاستخدام، ولا يمكن نشره في الإنتاج، ولا يمكنه التعامل مع حجم البيانات.
يهدف هذا المشروع إلى توفير مجموعة أدوات من ملحقات Spark ومصادر البيانات والأدوات المساعدة لتسهيل إنشاء بنية تحتية قوية للبيانات على Spark لتطبيقات الذكاء الاصطناعي التوليدي.
أكمل الأمثلة التي يمكن لأي شخص البدء بها لإنشاء تطبيقات الذكاء الاصطناعي التوليدية الخاصة به.
اقرأ عن أفكارنا حول الهندسة السريعة، وLLMs، والبرمجة المنخفضة هنا.
حاليًا، يستهدف المشروع بشكل أساسي مستخدمي PySpark، ومع ذلك، لأنه يتميز أيضًا بموصلات عالية الأداء، يجب أن تكون تبعيات PySpark وScala موجودة في مجموعة Spark.
from spark_ai . webapps . slack import SlackUtilities
# Batch version
slack = SlackUtilities ( token = 'xoxb-...' , spark = spark )
df_channels = slack . read_channels ()
df_conversations = slack . read_conversations ( df_channels )
# Live streaming version
df_messages = ( spark . readStream
. format ( 'io.prophecy.spark_ai.webapps.slack.SlackSourceProvider' )
. option ( 'token' , 'xapp-...' )
. load ())
from spark_ai . llms . openai import OpenAiLLM
from spark_ai . dbs . pinecone import PineconeDB
OpenAiLLM ( api_key = 'sk-...' ). register_udfs ( spark = spark )
PineconeDB ( '8045...' , 'us-east-1-aws' ). register_udfs ( self . spark )
( df_conversations
# Embed the text from every conversation into a vector
. withColumn ( 'embeddings' , expr ( 'openai_embed_texts(text)' ))
# Do some more pre-processing
...
# Upsert the embeddings into Pinecone
. withColumn ( 'status' , expr ( 'pinecone_upsert( ' index-name ' , embeddings)' ))
# Save the status of the upsertion to a standard table
. saveAsTable ( 'pinecone_status' ))
df_messages = spark . readStream
. format ( "io_prophecy.spark_ai.SlackStreamingSourceProvider" )
. option ( "token" , token )
. load ()
# Handle a live stream of messages from Slack here
مصادر البيانات المدعومة:
قواعد بيانات المتجهات المدعومة:
LLM المدعومة:
واجهات التطبيق المدعومة:
وغيرها الكثير ستأتي قريبًا (لا تتردد في طلبها كإصدارات)!
✅: التوفر العام؛ ?: توفر النسخة التجريبية؛ ️: خريطة الطريق؛