简体中文| الخلاف | ويشات | المعانقة | المجتمع | ورق
نص2SQL | Text2NLU
مقياس دقة تنفيذ تقييم Text2SQL (على سبيل المثال)، وسننقل هذا إلى src/dbgpt_hub_sql
نموذج | طريقة | سهل | واسطة | صعب | إضافي | الجميع |
---|---|---|---|---|---|---|
قاعدة | 0 | 0 | 0 | 0 | 0 | |
Llama2-7B-دردشة | لورا | 0.887 | 0.641 | 0.489 | 0.331 | 0.626 |
qlora | 0.847 | 0.623 | 0.466 | 0.361 | 0.608 | |
قاعدة | 0 | 0 | 0 | 0 | 0 | |
Llama2-13B-دردشة | لورا | 0.907 | 0.729 | 0.552 | 0.343 | 0.68 |
qlora | 0.911 | 0.7 | 0.552 | 0.319 | 0.664 | |
قاعدة | 0.214 | 0.177 | 0.092 | 0.036 | 0.149 | |
CodeLlama-7B-Instruct | لورا | 0.923 | 0.756 | 0.586 | 0.349 | 0.702 |
qlora | 0.911 | 0.751 | 0.598 | 0.331 | 0.696 | |
قاعدة | 0.698 | 0.601 | 0.408 | 0.271 | 0.539 | |
CodeLlama-13B-Instruct | لورا | 0.94 | 0.789 | 0.684 | 0.404 | 0.746 |
qlora | 0.94 | 0.774 | 0.626 | 0.392 | 0.727 | |
قاعدة | 0.577 | 0.352 | 0.201 | 0.066 | 0.335 | |
Baichuan2-7B-دردشة | لورا | 0.871 | 0.63 | 0.448 | 0.295 | 0.603 |
qlora | 0.891 | 0.637 | 0.489 | 0.331 | 0.624 | |
قاعدة | 0.581 | 0.413 | 0.264 | 0.187 | 0.392 | |
Baichuan2-13B-دردشة | لورا | 0.903 | 0.702 | 0.569 | 0.392 | 0.678 |
qlora | 0.895 | 0.675 | 0.58 | 0.343 | 0.659 | |
قاعدة | 0.395 | 0.256 | 0.138 | 0.042 | 0.235 | |
كوين-7B-دردشة | لورا | 0.855 | 0.688 | 0.575 | 0.331 | 0.652 |
qlora | 0.911 | 0.675 | 0.575 | 0.343 | 0.662 | |
قاعدة | 0.871 | 0.632 | 0.368 | 0.181 | 0.573 | |
كوين-14B-دردشة | لورا | 0.895 | 0.702 | 0.552 | 0.331 | 0.663 |
qlora | 0.919 | 0.744 | 0.598 | 0.367 | 0.701 | |
قاعدة | 0 | 0 | 0 | 0 | 0 | |
الدردشةGLM3-6b | لورا | 0.855 | 0.605 | 0.477 | 0.271 | 0.59 |
qlora | 0.843 | 0.603 | 0.506 | 0.211 | 0.581 |
DB-GPT-Hub هو مشروع تجريبي يستفيد من نماذج اللغات الكبيرة (LLMs) لتحقيق تحليل النص إلى SQL. يشمل المشروع مراحل مختلفة، بما في ذلك جمع البيانات، والمعالجة المسبقة للبيانات، واختيار النموذج وبناءه، وضبط أوزان النموذج. من خلال هذه العمليات، هدفنا هو تعزيز قدرات تحويل النص إلى SQL مع تقليل تكاليف تدريب النموذج، وبالتالي تمكين المزيد من المطورين من المساهمة في تحسين دقة تحويل النص إلى SQL. هدفنا النهائي هو تحقيق إمكانات الإجابة على الأسئلة تلقائيًا استنادًا إلى قواعد البيانات، مما يسمح للمستخدمين بتنفيذ استعلامات قاعدة البيانات المعقدة باستخدام أوصاف اللغة الطبيعية.
حتى الآن، نجحنا في دمج العديد من النماذج الكبيرة وإنشاء سير عمل شامل يتضمن معالجة البيانات والتدريب على نماذج الضبط الدقيق الخاضع للإشراف (SFT) ومخرجات التنبؤ والتقييم. يمكن إعادة استخدام الكود الذي تم تطويره لهذا المشروع بسهولة داخل المشروع نفسه.
اعتبارًا من 10 أكتوبر 2023، استخدمنا هذا المشروع لضبط النموذج مفتوح المصدر بحجم 13B، ودمج المزيد من البيانات ذات الصلة. في ظل المطالبات الصفرية واستخدام مجموعة الاختبار المستندة إلى Spider، حققنا معدل دقة تنفيذ يبلغ 0.764 لقاعدة بيانات بحجم 1.27 جيجا بايت. بالإضافة إلى ذلك، فإن دقة التنفيذ لقاعدة البيانات التي أشار إليها موقع Spider الرسمي، والتي يبلغ حجمها 95 ميجا، تبلغ 0.825.
نحن نعزز أداء تحويل النص إلى SQL من خلال تطبيق الضبط الدقيق الخاضع للإشراف (SFT) على نماذج اللغات الكبيرة.
مجموعة البيانات الأساسية لأمثلة هذا المشروع هي مجموعة بيانات Spider :
مجموعات بيانات text2sql الأخرى المتاحة:
WikiSQL: مجموعة بيانات كبيرة للتحليل الدلالي تتكون من 80,654 تعبيرًا طبيعيًا وتعليقات SQL لـ 24,241 جدولًا. يقتصر كل استعلام في WikiSQL على نفس الجدول ولا يحتوي على عمليات معقدة مثل الفرز والتجميع تقتصر الاستعلامات في WikiSQL على نفس الجدول ولا تتضمن عمليات معقدة مثل الفرز والتجميع والاستعلامات الفرعية وما إلى ذلك.
CHASE: مجموعة بيانات صينية تفاعلية text2sql متعددة المجالات تحتوي على قائمة تضم 5,459 سؤالًا متعدد الجولات تتكون من 17,940 مجموعة ثنائية
BIRD-SQL: معيار واسع النطاق لتحويل النص إلى SQL عبر المجالات باللغة الإنجليزية، مع التركيز بشكل خاص على محتوى قاعدة البيانات الكبيرة. تحتوي مجموعة البيانات على 12,751 زوجًا من بيانات تحويل النص إلى SQL و95 قاعدة بيانات بحجم إجمالي يبلغ 33.4 جيجابايت عبر 37 مجالًا مهنيًا. تعمل مجموعة بيانات BIRD-SQL على سد الفجوة بين أبحاث تحويل النص إلى SQL وتطبيقات العالم الحقيقي من خلال استكشاف ثلاثة تحديات إضافية، وهي التعامل مع قيم قواعد البيانات الكبيرة والفوضوية، واستدلال المعرفة الخارجية، وتحسين كفاءة تنفيذ SQL.
CoSQL: مجموعة لبناء أنظمة تحويل النص إلى SQL للمحادثة عبر المجالات. إنها نسخة محادثة من مهام Spider وSParC. يتكون CoSQL من أكثر من 30 ألف جولة و10 آلاف+ من استعلامات SQL المشروحة من مجموعة Wizard-of-Oz التي تضم 3 آلاف محادثات تستعلم عن 200 قاعدة بيانات معقدة عبر 138 مجالًا. تحاكي كل محادثة سيناريو استعلام واقعي لقاعدة البيانات حيث يستكشف أحد الموظفين قاعدة البيانات كمستخدم ويستخدم خبير SQL SQL لاسترداد الإجابات أو توضيح الأسئلة الغامضة أو الإبلاغ بطريقة أخرى.
باتباع قالب معالجة NSQL، خضعت مجموعة البيانات للمعالجة الأساسية، مما أدى إلى إنتاج مجموعة بيانات تبلغ 20 وات تقريبًا
يدعم DB-GPT-Hub حاليًا النماذج الأساسية التالية:
تم ضبط النموذج بناءً على بتة تكميمية تبلغ 4 باستخدام التعلم الكمي عبر البنية المتكررة (QLoRA). يمكن الإشارة إلى الحد الأدنى لمتطلبات الأجهزة لهذا على النحو التالي:
معلمات النموذج | ذاكرة الوصول العشوائي GPU | ذاكرة الوصول العشوائي لوحدة المعالجة المركزية | القرص |
---|---|---|---|
7 ب | 6 جيجابايت | 3.6 جيجابايت | 36.4 جيجابايت |
13 ب | 13.4 جيجابايت | 5.9 جيجابايت | 60.2 جيجابايت |
يتم تعيين جميع المعلمات ذات الصلة على الحد الأدنى، مع حجم دفعة يبلغ 1 والحد الأقصى للطول 512. بناءً على الخبرة، للحصول على أداء أفضل، يوصى بتعيين قيم الطول ذات الصلة على 1024 أو 2048.
git clone https://github.com/eosphoros-ai/DB-GPT-Hub.git
cd DB-GPT-Hub
conda create -n dbgpt_hub python=3.10
conda activate dbgpt_hub
cd src/dbgpt_hub_sql
pip install -e .
أولاً، قم بتثبيت dbgpt-hub
باستخدام الأمر التالي
pip install dbgpt-hub
ثم قم بإعداد الوسائط وتشغيل العملية برمتها.
from dbgpt_hub_sql . data_process import preprocess_sft_data
from dbgpt_hub_sql . train import start_sft
from dbgpt_hub_sql . predict import start_predict
from dbgpt_hub_sql . eval import start_evaluate
# Config the input datasets
data_folder = "dbgpt_hub_sql/data"
data_info = [
{
"data_source" : "spider" ,
"train_file" : [ "train_spider.json" , "train_others.json" ],
"dev_file" : [ "dev.json" ],
"tables_file" : "tables.json" ,
"db_id_name" : "db_id" ,
"is_multiple_turn" : False ,
"train_output" : "spider_train.json" ,
"dev_output" : "spider_dev.json" ,
}
]
# Config training parameters
train_args = {
"model_name_or_path" : "codellama/CodeLlama-13b-Instruct-hf" ,
"do_train" : True ,
"dataset" : "example_text2sql_train" ,
"max_source_length" : 2048 ,
"max_target_length" : 512 ,
"finetuning_type" : "lora" ,
"lora_target" : "q_proj,v_proj" ,
"template" : "llama2" ,
"lora_rank" : 64 ,
"lora_alpha" : 32 ,
"output_dir" : "dbgpt_hub_sql/output/adapter/CodeLlama-13b-sql-lora" ,
"overwrite_cache" : True ,
"overwrite_output_dir" : True ,
"per_device_train_batch_size" : 1 ,
"gradient_accumulation_steps" : 16 ,
"lr_scheduler_type" : "cosine_with_restarts" ,
"logging_steps" : 50 ,
"save_steps" : 2000 ,
"learning_rate" : 2e-4 ,
"num_train_epochs" : 8 ,
"plot_loss" : True ,
"bf16" : True ,
}
# Config predict parameters
predict_args = {
"model_name_or_path" : "codellama/CodeLlama-13b-Instruct-hf" ,
"template" : "llama2" ,
"finetuning_type" : "lora" ,
"checkpoint_dir" : "dbgpt_hub_sql/output/adapter/CodeLlama-13b-sql-lora" ,
"predict_file_path" : "dbgpt_hub_sql/data/eval_data/dev_sql.json" ,
"predict_out_dir" : "dbgpt_hub_sql/output/" ,
"predicted_out_filename" : "pred_sql.sql" ,
}
# Config evaluation parameters
evaluate_args = {
"input" : "./dbgpt_hub_sql/output/pred/pred_sql_dev_skeleton.sql" ,
"gold" : "./dbgpt_hub_sql/data/eval_data/gold.txt" ,
"gold_natsql" : "./dbgpt_hub_sql/data/eval_data/gold_natsql2sql.txt" ,
"db" : "./dbgpt_hub_sql/data/spider/database" ,
"table" : "./dbgpt_hub_sql/data/eval_data/tables.json" ,
"table_natsql" : "./dbgpt_hub_sql/data/eval_data/tables_for_natsql2sql.json" ,
"etype" : "exec" ,
"plug_value" : True ,
"keep_distict" : False ,
"progress_bar_for_each_datapoint" : False ,
"natsql" : False ,
}
# Run the whole fine-tuning workflow
preprocess_sft_data (
data_folder = data_folder ,
data_info = data_info
)
start_sft ( train_args )
start_predict ( predict_args )
start_evaluate ( evaluate_args )
يستخدم DB-GPT-Hub طريقة إنشاء مطابقة المعلومات لإعداد البيانات، أي طريقة إنشاء SQL + Repository التي تجمع معلومات الجدول. تجمع هذه الطريقة معلومات جدول البيانات لفهم بنية جدول البيانات وعلاقاته بشكل أفضل، وهي مناسبة لإنشاء عبارات SQL التي تلبي المتطلبات.
قم بتنزيل مجموعة بيانات Spider من رابط مجموعة بيانات Spider. افتراضيًا، بعد تنزيل البيانات واستخراجها، ضعها في الدليل dbgpt_hub_sql/data، أي أن المسار يجب أن يكون dbgpt_hub_sql/data/spider
.
بالنسبة لجزء المعالجة المسبقة للبيانات، ما عليك سوى تشغيل البرنامج النصي التالي :
# # generate train and dev(eval) data
sh dbgpt_hub_sql/scripts/gen_train_eval_data.sh
في الدليل dbgpt_hub_sql/data/
، ستجد ملف التدريب الذي تم إنشاؤه حديثًا example_text2sql_train.json وملف الاختبار example_text2sql_dev.json، اللذين يحتويان على 8659 و1034 إدخالًا على التوالي. بالنسبة للبيانات المستخدمة في الضبط الدقيق اللاحق، قم بتعيين قيمة المعلمة file_name
على اسم ملف مجموعة التدريب في dbgpt_hub_sql/data/dataset_info.json، مثل example_text2sql_train.json
تبدو البيانات الموجودة في JSON التي تم إنشاؤها كما يلي:
{
"db_id": "department_management",
"instruction": "I want you to act as a SQL terminal in front of an example database, you need only to return the sql command to me.Below is an instruction that describes a task, Write a response that appropriately completes the request.n"n##Instruction:ndepartment_management contains tables such as department, head, management. Table department has columns such as Department_ID, Name, Creation, Ranking, Budget_in_Billions, Num_Employees. Department_ID is the primary key.nTable head has columns such as head_ID, name, born_state, age. head_ID is the primary key.nTable management has columns such as department_ID, head_ID, temporary_acting. department_ID is the primary key.nThe head_ID of management is the foreign key of head_ID of head.nThe department_ID of management is the foreign key of Department_ID of department.nn",
"input": "###Input:nHow many heads of the departments are older than 56 ?nn###Response:",
"output": "SELECT count(*) FROM head WHERE age > 56",
"history": []
},
تم تضمين كود معالجة البيانات الخاص بـ chase
و cosql
و sparc
في كود معالجة البيانات الخاص بالمشروع. بعد تنزيل مجموعة البيانات وفقًا للرابط أعلاه، ما عليك سوى in
dbgpt_hub_sql/configs/config.py Just loosen the corresponding code comment in SQL_DATA_INFO
.
يدعم الضبط الدقيق للنموذج كلاً من طريقتي LoRA وQLoRA. يمكننا تشغيل الأمر التالي لضبط النموذج. بشكل افتراضي، باستخدام المعلمة --quantization_bit، فإنه يستخدم طريقة الضبط الدقيق QLoRA. للتبديل إلى LoRAs، ما عليك سوى إزالة المعلمة ذات الصلة من البرنامج النصي. قم بتشغيل الأمر:
sh dbgpt_hub_sql/scripts/train_sft.sh
بعد الضبط الدقيق، سيتم حفظ أوزان النموذج افتراضيًا في مجلد المحول، وتحديدًا في الدليل dbgpt_hub_sql/output/adapter.
إذا كنت تستخدم تدريبًا على وحدات معالجة رسومات متعددة وترغب في الاستفادة من Deepseed ، فيجب عليك تعديل المحتوى الافتراضي في Train_sft.sh. التغيير هو:
CUDA_VISIBLE_DEVICES=0 python dbgpt_hub_sql/train/sft_train.py
--quantization_bit 4
...
التغيير إلى :
deepspeed --num_gpus 2 dbgpt_hub_sql/train/sft_train.py
--deepspeed dbgpt_hub_sql/configs/ds_config.json
--quantization_bit 4
...
إذا كنت بحاجة إلى معرف بطاقة الطلب
deepspeed --include localhost:0,1 dbgpt_hub_sql/train/sft_train.py
--deepspeed dbgpt_hub_sql/configs/ds_config.json
--quantization_bit 4
...
أما الأجزاء الأخرى المحذوفة (...) فيمكن أن تظل متسقة. إذا كنت تريد تغيير تكوين Deepseed الافتراضي، فانتقل إلى دليل dbgpt_hub_sql/configs
وقم بإجراء تغييرات على ds_config.json حسب الحاجة، والإعداد الافتراضي هو Stage2.
في البرنامج النصي، أثناء الضبط الدقيق، تتوافق النماذج المختلفة مع المعلمات الرئيسية lora_target والقالب، كما هو موضح في الجدول التالي:
اسم النموذج | lora_target | نموذج |
---|---|---|
لاما-2 | q_proj,v_proj | اللاما2 |
كود لاما-2 | q_proj,v_proj | اللاما2 |
بايتشوان2 | W_pack | baichuan2 |
كوين | c_attn | com.chatml |
sqlcoder-7b | q_proj,v_proj | ميسترال |
sqlcoder2-15b | c_attn | تقصير |
المتدربLM | q_proj,v_proj | المتدرب |
XVERSE | q_proj,v_proj | com.xverse |
ChatGLM2 | query_key_value | chatglm2 |
لاما | q_proj,v_proj | - |
يزدهر | query_key_value | - |
بلومز | query_key_value | - |
بايتشوان | W_pack | baichuan |
فالكون | query_key_value | - |
في train_sft.sh
، المعلمات الرئيسية الأخرى هي كما يلي:
quantization_bit: يشير إلى ما إذا كان يتم تطبيق التكمية، مع كون القيم الصالحة [4 أو 8].
model_name_or_path: مسار LLM (نموذج اللغة الكبيرة).
مجموعة البيانات: تحدد اسم تكوين مجموعة بيانات التدريب، المطابق لقيمة المفتاح الخارجي في dbgpt_hub_sql/data/dataset_info.json، مثل example_text2sql.
max_source_length: طول إدخال النص في النموذج. إذا سمحت موارد الحوسبة بذلك، فيمكن تعيينها بأكبر حجم ممكن، مثل 1024 أو 2048.
max_target_length: طول إخراج محتوى SQL بواسطة النموذج؛ 512 كافية بشكل عام.
put_dir: مسار الإخراج لوحدة Peft أثناء SFT (الضبط الدقيق الخاضع للإشراف)، يتم تعيينه افتراضيًا علىdbgpt_hub_sql/output/adapter/
.
per_device_train_batch_size: حجم الدفعة. إذا سمحت موارد الحوسبة بذلك، فيمكن تعيينها أكبر؛ الافتراضي هو 1.
gradient_accumulation_steps: عدد خطوات تجميع التدرجات قبل التحديث.
save_steps: عدد الخطوات التي يتم من خلالها حفظ نقاط التحقق النموذجية؛ يمكن ضبطه على 100 بشكل افتراضي.
num_train_epochs: عدد العصور لتدريب مجموعة البيانات.
ضمن دليل المشروع ./dbgpt_hub_sql/output/pred/، هذا المجلد هو موقع الإخراج الافتراضي لتنبؤات النماذج (إذا لم يكن موجودًا، فقط mkdir).
sh ./dbgpt_hub_sql/scripts/predict_sft.sh
في البرنامج النصي، افتراضيًا باستخدام المعلمة --quantization_bit
، فإنه يتنبأ باستخدام QLoRA. تؤدي إزالته إلى التبديل إلى طريقة التنبؤ LoRA. قيمة المعلمة predicted_input_filename
هي ملف مجموعة بيانات اختبار التنبؤ الخاص بك. --predicted_out_filename
هو اسم ملف النتائج المتوقعة للنموذج.
يمكنك العثور على أوزان النموذج الثاني المقابل من Huggingface hg-eosphoros-ai، قمنا بتحميل أوزان LoRA في أكتوبر، والتي وصلت دقة التنفيذ على مجموعة تقييم Spider إلى 0.789.
إذا كنت بحاجة إلى دمج أوزان النموذج الأساسي المدرب ووحدة Peft المضبوطة بدقة لتصدير نموذج كامل، فقم بتنفيذ البرنامج النصي لتصدير النموذج التالي:
sh ./dbgpt_hub_sql/scripts/export_merge.sh
تأكد من استبدال قيم مسار المعلمات في البرنامج النصي بالمسارات المقابلة لمشروعك.
لتقييم أداء النموذج في مجموعة البيانات، الافتراضي هو مجموعة بيانات تطوير العنكبوت. قم بتشغيل الأمر التالي:
python dbgpt_hub_sql/eval/evaluation.py --plug_value --input Your_model_pred_file
يمكنك العثور على نتائج مراجعتنا الأخيرة وجزء من نتائج التجربة هنا
ملاحظة : قاعدة البيانات المشار إليها بالرمز الافتراضي هي قاعدة بيانات بحجم 95 مليونًا تم تنزيلها من [موقع Spider الرسمي] (https://yale-lily.github.io/spider). إذا كنت بحاجة إلى استخدام قاعدة بيانات Spider (الحجم 1.27 جيجا) في مجموعة الاختبار، فيرجى تنزيل قاعدة البيانات في الرابط إلى الدليل المخصص أولاً، وتشغيل أمر التقييم أعلاه الذي يضيف معلمات وقيم مثل --db Your_download_db_path
.
العملية برمتها سوف نقسمها إلى ثلاث مراحل:
المرحلة 1:
حاليًا، نقدم الدعم للميزات التالية:
المرحلة 2:
20231010
prompts
المرحلة 3:
إذا كان عملنا قد قدم لك ولو قدرًا بسيطًا من المساعدة، فيرجى التفكير في منحنا نجمة. تعد تعليقاتك ودعمك بمثابة حافز لنا لمواصلة إصدار المزيد من الأعمال ذات الصلة وتحسين جهودنا. شكرًا لك!
نحن ندعو بحرارة المزيد من الأفراد للانضمام إلينا والمشاركة بنشاط في جوانب مختلفة من مشروعنا، مثل مجموعات البيانات، وضبط النماذج، وتقييم الأداء، والتوصيات الورقية، واستنساخ التعليمات البرمجية. من فضلك لا تتردد في فتح القضايا أو سحب الطلبات (PRs)، وسنكون استباقيين في الرد على مساهماتك.
قبل إرسال الرمز الخاص بك، يرجى التأكد من تنسيقه وفقًا للنمط الأسود باستخدام الأمر التالي:
black dbgpt_hub
إذا كان لديك المزيد من الوقت لتنفيذ فحص أكثر تفصيلاً للنوع والتحقق من نمط التعليمات البرمجية الخاصة بك، فيرجى استخدام الأمر التالي:
pyright dbgpt_hub
pylint dbgpt_hub
إذا كانت لديك أي أسئلة أو كنت بحاجة إلى مزيد من المساعدة، فلا تتردد في التواصل معنا. نحن نقدر مشاركتك!
يعتمد عملنا في المقام الأول على أساس العديد من المساهمات مفتوحة المصدر. بفضل المشاريع مفتوحة المصدر التالية
شكرًا لجميع المساهمين، وخاصة @JBoRu الذي أثار المشكلة التي ذكّرتنا بإضافة طريقة تقييم جديدة واعدة، أي Test Suite. كما ذكرت الورقة البحثية 《SQL-PALM: تحسين تكيف نموذج اللغة الكبيرة لتحويل النص إلى SQL》، "نحن نأخذ في الاعتبار مقياسين للتقييم شائع الاستخدام: دقة التنفيذ (EX) ودقة مجموعة الاختبار (TS). يقيس EX ما إذا كان تتطابق نتائج تنفيذ SQL مع الحقيقة الأساسية (GT)، بينما يقيس TS ما إذا كان SQL قد اجتاز جميع تقييمات EX لاختبارات متعددة، والتي تم إنشاؤها بواسطة زيادة قاعدة البيانات، نظرًا لأن EX يحتوي على نتائج إيجابية خاطئة، فإننا نأخذ في الاعتبار TS كمقياس تقييم أكثر موثوقية".
إذا وجدت DB-GPT-Hub
مفيد لبحثك أو تطويرك، فيرجى الاستشهاد بالمقالة التالية:
@misc { zhou2024dbgpthub ,
title = { DB-GPT-Hub: Towards Open Benchmarking Text-to-SQL Empowered by Large Language Models } ,
author = { Fan Zhou and Siqiao Xue and Danrui Qi and Wenhui Shi and Wang Zhao and Ganglin Wei and Hongyang Zhang and Caigai Jiang and Gangwei Jiang and Zhixuan Chu and Faqiang Chen } ,
year = { 2024 } ,
eprint = { 2406.11434 } ,
archivePrefix = { arXiv } ,
primaryClass = { id='cs.DB' full_name='Databases' is_active=True alt_name=None in_archive='cs' is_general=False description='Covers database management, datamining, and data processing. Roughly includes material in ACM Subject Classes E.2, E.5, H.0, H.2, and J.1.' }
}
رخصة معهد ماساتشوستس للتكنولوجيا (MIT)
نحن نتعاون كمجتمع، وإذا كانت لديك أي أفكار بخصوص عملنا المجتمعي، فلا تتردد في الاتصال بنا. إذا كنت مهتمًا بالخوض في تجربة متعمقة وتحسين المشروع الفرعي DB-GPT-Hub، فيمكنك التواصل مع "wangzai" داخل مجموعة WeChat. نحن نرحب ترحيبًا حارًا بمساهماتك في جعل الأمر أفضل معًا!