[الملف التمهيدي] [?HF Repo] [?إصدار الويب]
الصينية | انجليزية
[2024.03.28] يتم تحميل جميع النماذج والبيانات إلى مجتمع Magic Community.
يقوم النموذج الكبير الموحد لاستخراج المعلومات من Yayi (YAYI-UIE) بضبط التعليمات على ملايين بيانات استخراج المعلومات عالية الجودة التي تم إنشاؤها يدويًا، وتتضمن مهام استخراج معلومات التدريب الموحدة التعرف على الكيانات المسماة (NER)، واستخراج العلاقات (RE)، واستخراج الأحداث ( EE) لتحقيق الاستخراج المنظم بشكل عام، والأمني، والمالية، والبيولوجية، والطبية، والتجارية، والشخصية، والمركبات، والأفلام، والصناعية، والمطاعم، والسيناريوهات العلمية وغيرها.
من خلال المصدر المفتوح لنموذج Yayi UIE الكبير، سنساهم بجهودنا الخاصة في تعزيز تطوير مجتمع مفتوح المصدر للنموذج الكبير الصيني المدرب مسبقًا. من خلال المصدر المفتوح، سنقوم ببناء النظام البيئي النموذجي الكبير لـ Yayi مع كل شريك. لمزيد من التفاصيل الفنية، يرجى قراءة تقريرنا الفني YAYI-UIE: إطار ضبط التعليمات المعزز بالدردشة لاستخراج المعلومات الشاملة.
اسم | تحديد نموذج التردد العالي | عنوان التحميل | شعار النموذج السحري | عنوان التحميل |
---|---|---|---|---|
ياي-UIE | ينجي البحوث / yayi-uie | تحميل النموذج | ينجي البحوث / yayi-uie | تحميل النموذج |
بيانات YAYI-UIE | wenge-research/yayi_uie_sft_data | تحميل مجموعة البيانات | wenge-research/yayi_uie_sft_data | تحميل مجموعة البيانات |
54% من مجموعة البيانات المكونة من مليون مستوى باللغة الصينية و46% باللغة الإنجليزية. تتضمن مجموعة البيانات 12 مجالًا بما في ذلك التمويل، والمجتمع، وعلم الأحياء، والتجارة، والتصنيع الصناعي، والكيمياء، والمركبات، والعلوم، والأمراض، والعلاج الطبي، والحياة الشخصية، والأمن، والخدمات. عام. يغطي مئات السيناريوهات
git clone https://github.com/wenge-research/yayi-uie.git
cd yayi-uie
conda create --name uie python=3.8
conda activate uie
pip install -r requirements.txt
لا يوصى بأن تكون إصدارات torch
transformers
أقل من الإصدارات الموصى بها.
لقد كان النموذج مفتوح المصدر في مستودع نماذج Huggingface الخاص بنا، ويمكنك تنزيله واستخدامه. ما يلي هو نموذج التعليمات البرمجية الذي يستدعي ببساطة YAYI-UIE
لاستدلال المهمة النهائية، ويمكن تشغيله على وحدة معالجة رسومات واحدة مثل A100/A800، ويستهلك حوالي 33 جيجابايت من ذاكرة الفيديو عند استخدام الاستدلال الدقيق bf16.
> >> import torch
> >> from transformers import AutoModelForCausalLM , AutoTokenizer
> >> from transformers . generation . utils import GenerationConfig
> >> tokenizer = AutoTokenizer . from_pretrained ( "wenge-research/yayi-uie" , use_fast = False , trust_remote_code = True )
> >> model = AutoModelForCausalLM . from_pretrained ( "wenge-research/yayi-uie" , device_map = "auto" , torch_dtype = torch . bfloat16 , trust_remote_code = True )
> >> generation_config = GenerationConfig . from_pretrained ( "wenge-research/yayi-uie" )
> >> prompt = "文本:氧化锆陶瓷以其卓越的物理和化学特性在多个行业中发挥着关键作用。这种材料因其高强度、高硬度和优异的耐磨性,广泛应用于医疗器械、切削工具、磨具以及高端珠宝制品。在制造这种高性能陶瓷时,必须遵循严格的制造标准,以确保其最终性能。这些标准涵盖了从原材料选择到成品加工的全过程,保障产品的一致性和可靠性。氧化锆的制造过程通常包括粉末合成、成型、烧结和后处理等步骤。原材料通常是高纯度的氧化锆粉末,通过精确控制的烧结工艺,这些粉末被转化成具有特定微观结构的坚硬陶瓷。这种独特的微观结构赋予氧化锆陶瓷其显著的抗断裂韧性和耐腐蚀性。此外,氧化锆陶瓷的热膨胀系数与铁类似,使其在高温应用中展现出良好的热稳定性。因此,氧化锆陶瓷不仅在工业领域,也在日常生活中的应用日益增多,成为现代材料科学中的一个重要分支。 n抽取文本中可能存在的实体,并以json{制造品名称/制造过程/制造材料/工艺参数/应用/生物医学/工程特性:[实体]}格式输出。"
> >> # "<reserved_13>" is a reserved token for human, "<reserved_14>" is a reserved token for assistant
>> > prompt = "<reserved_13>" + prompt + "<reserved_14>"
> >> inputs = tokenizer ( prompt , return_tensors = "pt" ). to ( model . device )
> >> response = model . generate ( ** inputs , max_new_tokens = 512 , temperature = 0 )
> >> print ( tokenizer . decode ( response [ 0 ], skip_special_tokens = True ))
ملحوظة:
文本:xx
【实体抽取】抽取文本中可能存在的实体,并以json{人物/机构/地点:[实体]}格式输出。
文本:xx
【关系抽取】已知关系列表是[注资,拥有,纠纷,自己,增持,重组,买资,签约,持股,交易]。根据关系列表抽取关系三元组,按照json[{'relation':'', 'head':'', 'tail':''}, ]的格式输出。
文本:xx
抽取文本中可能存在的关系,并以json[{'关系':'会见/出席', '头实体':'', '尾实体':''}, ]格式输出。
文本:xx
已知论元角色列表是[时间,地点,会见主体,会见对象],请根据论元角色列表从给定的输入中抽取可能的论元,以json{角色:论元}格式输出。
الذكاء الاصطناعي، والأدب، والموسيقى، والسياسة، والعلوم هي مجموعات بيانات باللغة الإنجليزية، وboson، وClue، وweibo هي مجموعات بيانات صينية.
نموذج | منظمة العفو الدولية | الأدب | موسيقى | سياسة | علوم | متوسط اللغة الإنجليزية | بوسون | فكرة | متوسط الصينية | |
---|---|---|---|---|---|---|---|---|---|---|
دافينشي | 2.97 | 9.87 | 13.83 | 18.42 | 10.04 | 11.03 | - | - | - | 31.09 |
شات جي بي تي 3.5 | 54.4 | 54.07 | 61.24 | 59.12 | 63 | 58.37 | 38.53 | 25.44 | 29.3 | |
UIE | 31.14 | 38.97 | 33.91 | 46.28 | 41.56 | 38.37 | 40.64 | 34.91 | 40.79 | 38.78 |
USM | 28.18 | 56 | 44.93 | 36.1 | 44.09 | 41.86 | - | - | - | - |
InstructUIE | 49 | 47.21 | 53.16 | 48.15 | 49.3 | 49.36 | - | - | - | - |
كنولم | 13.76 | 20.18 | 14.78 | 33.86 | 9.19 | 18.35 | 25.96 | 4.44 | 25.2 | 18.53 |
ياي-UIE | 52.4 | 45.99 | 51.2 | 51.82 | 50.53 | 50.39 | 49.25 | 36.46 | 36.78 | 40.83 |
FewRe، Wiki-ZSL هي مجموعات بيانات باللغة الإنجليزية، SKE 2020، COAE2016، IPRE هي مجموعات بيانات صينية
نموذج | قليل | ويكي-ZSL | متوسط اللغة الإنجليزية | اس كيه 2020 | COAE2016 | ايبري | متوسط الصينية |
---|---|---|---|---|---|---|---|
شات جي بي تي 3.5 | 9.96 | 13.14 | 11.55 24.47 | 19.31 | 6.73 | 16.84 | |
زيت (T5-صغير) | 30.53 | 31.74 | 31.14 | - | - | - | - |
زيت (قاعدة T5) | 33.71 | 31.17 | 32.44 | - | - | - | - |
InstructUIE | 39.55 | 35.2 | 37.38 | - | - | - | - |
كنولم | 17.46 | 15.33 | 16.40 | 0.4 | 6.56 | 9.75 | 5.57 |
ياي-UIE | 36.09 | 41.07 | 38.58 | 70.8 | 19.97 | 22.97 | 37.91 |
أخبار السلع الأساسية هي مجموعة البيانات الإنجليزية، FewFC، ccf_law هي مجموعة البيانات الصينية
EET (تحديد نوع الحدث)
نموذج | أخبار السلع | عدد قليلFC | ccf_law | متوسط الصينية |
---|---|---|---|---|
شات جي بي تي 3.5 | 1.41 | 16.15 | 0 | 8.08 |
UIE | - | 50.23 | 2.16 | 26.20 |
InstructUIE | 23.26 | - | - | - |
ياي-UIE | 12.45 | 81.28 | 12.87 | 47.08 |
المنطقة الاقتصادية الأوروبية (استخراج وسيطة الحدث)
نموذج | أخبار السلع | عدد قليلFC | ccf_law | متوسط الصينية |
---|---|---|---|---|
شات جي بي تي 3.5 | 8.6 | 44.4 | 44.57 | 44.49 |
UIE | - | 43.02 | 60.85 | 51.94 |
InstructUIE | 21.78 | - | - | - |
ياي-UIE | 19.74 | 63.06 | 59.42 | 61.24 |
لا يزال نموذج SFT الذي تم تدريبه بناءً على البيانات الحالية والنماذج الأساسية يعاني من المشكلات التالية من حيث الفعالية:
بناءً على قيود النموذج المذكورة أعلاه، نطلب من المطورين استخدام التعليمات البرمجية مفتوحة المصدر والبيانات والنماذج والمشتقات اللاحقة التي تم إنشاؤها بواسطة هذا المشروع فقط لأغراض البحث وليس للأغراض التجارية أو الاستخدامات الأخرى التي من شأنها أن تسبب ضررًا للمجتمع. يرجى توخي الحذر في تحديد واستخدام المحتوى الذي تم إنشاؤه بواسطة Yayi Big Model، وعدم نشر المحتوى الضار الذي تم إنشاؤه على الإنترنت. في حالة حدوث أي عواقب سلبية، سيكون المتصل مسؤولاً. لا يمكن استخدام هذا المشروع إلا لأغراض البحث، ولا يتحمل مطور المشروع مسؤولية أي ضرر أو خسارة ناجمة عن استخدام هذا المشروع (بما في ذلك على سبيل المثال لا الحصر، البيانات والنماذج والأكواد وما إلى ذلك). يرجى الرجوع إلى إخلاء المسؤولية للحصول على التفاصيل.
التعليمات البرمجية والبيانات الموجودة في هذا المشروع مفتوحة المصدر وفقًا لبروتوكول Apache-2.0. عندما يستخدم المجتمع نموذج YAYI UIE أو مشتقاته، يرجى اتباع اتفاقية مجتمع Baichuan2 والاتفاقية التجارية.
إذا كنت تستخدم نموذجنا في عملك، يمكنك الاستشهاد بورقتنا البحثية:
@article{YAYI-UIE,
author = {Xinglin Xiao, Yijie Wang, Nan Xu, Yuqi Wang, Hanxuan Yang, Minzheng Wang, Yin Luo, Lei Wang, Wenji Mao, Dajun Zeng}},
title = {YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction},
journal = {arXiv preprint arXiv:2312.15548},
url = {https://arxiv.org/abs/2312.15548},
year = {2023}
}