رابط أسئلة المسابقة | صفحة ترويج أسئلة المسابقة
FinGLM : ملتزمون ببناء مشروع نموذج مالي كبير مفتوح وذو رفاهية عامة وطويل الأمد، باستخدام المصدر المفتوح للترويج لـ "الذكاء الاصطناعي + التمويل".
[تحديث 2023/11/23] تمت إضافة محتوى الدورة التدريبية لنماذج ChatGLM-6B من الجيل الأول والثاني والثالث، بما في ذلك PPT ومقاطع الفيديو والمستندات الفنية.
【تحديث 2023/11/17】تمت إضافة حل جديد "قم بتسميته مهما كان"
نظام ذكي تفاعلي تحادثي مصمم لإجراء تحليل عميق للتقارير السنوية للشركات المدرجة. في مواجهة المصطلحات المهنية والمعلومات الضمنية في النصوص المالية، نحن ملتزمون باستخدام الذكاء الاصطناعي لتحقيق التحليل المالي على مستوى الخبراء.
في مجال الذكاء الاصطناعي، على الرغم من التقدم الذي تم إحرازه في الحوار النصي، إلا أن سيناريوهات التفاعل المالي الحقيقية لا تزال تمثل تحديًا كبيرًا. نظمت مؤسسات متعددة هذه المسابقة بشكل مشترك لاستكشاف حدود الذكاء الاصطناعي في المجال المالي.
يعرض التقرير السنوي للشركة المدرجة الحالة التشغيلية للشركة والوضع المالي والخطط المستقبلية للمستثمرين. الخبرة هي مفتاح التفسير، وهدفنا هو جعل هذه العملية أسهل وأكثر دقة من خلال تقنية الذكاء الاصطناعي.
قوات الدفاع الشعبي إلى TXT :
تجزئة البيانات :
معالجة البيانات :
حفظ في قاعدة البيانات :
تصنيف البيانات : مثل بيانات SQL وبيانات ES وغيرها.
حدد إستراتيجية الضبط الدقيق : مثل ptuningv2، وlora، وما إلى ذلك.
إجراء الضبط الدقيق : بناءً على الإستراتيجية المحددة.
1) تحويل الحدث
2) البيانات مفتوحة المصدر
3) الحلول/الأكواد/النماذج مفتوحة المصدر
4) الاتصال المفتوح
5) دراسة الدروس
6) تجمع موارد المشروع
العدد الأول:
pdf2txt.py
لتحليل ملفات PDF. المسألة الثانية:
مدونة تعريفية بالمشروع:
[PPT] [فيديو] [الكود]
هذا المشروع عبارة عن تكامل لفريق Anshuoshuo Eye Exploration Enterprise استنادًا إلى مشروعه الخاص ومشاريع العديد من الفرق الأخرى. سنستمر في تكرار هذا المشروع وترقيته في المستقبل.
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
[PPT] [فيديو] [الكود]
تغطي مجموعة البيانات مفتوحة المصدر لدينا التقارير السنوية لبعض الشركات المدرجة من عام 2019 إلى عام 2021. تحتوي مجموعة البيانات هذه على إجمالي 11588 ملف PDF مفصل (قائمة). يمكنك استخدام محتويات ملفات PDF هذه لإنشاء قاعدة البيانات أو مكتبة المتجهات التي تحتاجها. لتجنب إهدار موارد الحوسبة، نقوم أيضًا بتحويل الملفات المقابلة إلى ملفات TXT وملفات HTML ليستخدمها الجميع.
الحجم: 69 جيجابايت نوع الملف: ملف pdf عدد الملفات: 11588
تحميل بوابة
# 要求安装 git lfs
git clone http://www.modelscope.cn/datasets/modelscope/chatglm_llm_fintech_raw_dataset.git
تحميل SDK
# Note:
# 1. 【重要】请将modelscope sdk升级到v1.7.2rc0,执行: pip3 install "modelscope==1.7.2rc0" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
# 2. 【重要】datasets版本限制为 >=2.8.0, <=2.13.0,可执行: pip3 install datasets==2.13.0
from modelscope.msdatasets import MsDataset
# 使用流式方式加载「推荐」
# 无需全量加载到cache,随下随处理
# 其中,通过设置 stream_batch_size 可以使用batch的方式加载
ds = MsDataset.load('chatglm_llm_fintech_raw_dataset', split='train', use_streaming=True, stream_batch_size=1)
for item in ds:
print(item)
# 加载结果示例(单条,pdf:FILE字段值为该pdf文件本地缓存路径,文件名做了SHA转码,可以直接打开)
{'name': ['2020-03-24__北京鼎汉技术集团股份有限公司__300011__鼎汉技术__2019年__年度报告.pdf'], 'pdf:FILE': ['~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/430da7c46fb80d4d095a57b4fb223258ffa1afe8bf53d0484e3f2650f5904b5c']}
# 备注:
1. 自定义缓存路径,可以自行设置cache_dir参数,即 MsDataset.load(..., cache_dir='/to/your/path')
2. 补充数据加载(从9493条增加到11588条),sdk加载注意事项
a) 删除缓存中的csv映射文件(默认路径为): ~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/732dc4f3b18fc52380371636931af4c8
b) 使用MsDataset.load(...) 加载,默认会reuse已下载过的文件,不会重复下载。
ملاحظة: قم بتحويل ملف بتنسيق pdf إلى txt لسهولة إعادة استخدامه (ملف واحد تالف، وبالتالي فإن العدد الإجمالي أقل بملف واحد من pdf، أي 11587 إجمالاً)
# Linux
wget https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip
# Windows示例
Invoke-WebRequest -Uri https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip -OutFile D:\alltxt.zip
ملحوظة: قم بتحويل الملفات بتنسيق pdf إلى html لسهولة إعادة استخدامها (ملف واحد تالف، وبالتالي فإن العدد الإجمالي أقل من pdf، 11582 إجمالاً)
# Linux
wget https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/allhtml.zip
# Windows示例
Invoke-WebRequest -Uri https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/allhtml.zip -OutFile D:\allhtml.zip
فيما يلي خطواتنا الموصى بها:
1. استخراج النص والجدول بتنسيق PDF: يمكنك استخدام مجموعات الأدوات مثل pdfplumber وpdfminer لاستخراج بيانات النص والجدول من ملفات PDF.
2. تجزئة البيانات: وفقًا للدليل والدليل الفرعي ومعلومات الفصل لملف PDF، يتم تقسيم المحتوى بدقة.
3. بناء قاعدة بيانات مالية أساسية: تصميم حقول وتنسيقات قاعدة بيانات مالية احترافية بناءً على المعرفة المالية ومحتوى PDF. على سبيل المثال، حدد الميزانية العمومية، وبيان التدفق النقدي، وبيان الدخل، وما إلى ذلك.
4. استخراج المعلومات: استخدم قدرات استخلاص المعلومات للنماذج الكبيرة وتقنية البرمجة اللغوية العصبية لاستخراج المعلومات الميدانية المالية المقابلة. على سبيل المثال، يرجى استخدام وضع json لإخراج محتويات الدليل، حيث يتم استخدام اسم الفصل كمفتاح ويتم استخدام رقم الصفحة كقيمة. وفي الوقت نفسه، يرجى استخراج البيانات الموجودة في الجدول بالتفصيل وإخراجها بتنسيق JSON.
5. إنشاء مكتبة أسئلة وأجوبة للمعرفة المالية: بالاشتراك مع قاعدة البيانات المالية التي تم إنشاؤها، قم بتطبيق نماذج كبيرة لإنشاء مكتبة أسئلة وأجوبة مالية أساسية. على سبيل المثال،
{"question":"某公司2021年的财务费用为多少元?", "answer": "某公司2021年的财务费用为XXXX元。"}
prompt:用多种句式修改question及answer的内容。
{"question":"为什么财务费用可以是负的?", "answer": ""}
prompt:请模仿上面的question给出100个类似的问题与对应的答案,用json输出。
6. إنشاء مكتبة متجهة: بمساعدة تقنيات مثل Word2Vec وText2Vec، يتم استخراج المتجهات الدلالية من بيانات النص الأصلي. استخدم pgvector، وهو امتداد يستند إلى PostgreSQL، لتخزين وفهرسة هذه المتجهات لإنشاء مكتبة متجهات واسعة النطاق يمكن الاستعلام عنها بكفاءة.
7. التطبيق: مدمج مع مكتبات المتجهات والنماذج الكبيرة وسلسلة اللغات وأدوات أخرى لتحسين تأثيرات التطبيق.
في تحدي النموذج المالي الكبير SMP 2023 ChatGLM، أجرينا الجولة التمهيدية، ونصف النهائي A، ونصف النهائي B، ونصف النهائي C على التوالي. بالنسبة لهذه الجولات من المنافسة، قمنا يدويًا بتعليق البيانات ذات الصلة، بإجمالي 10000 إدخال.
مثال البيانات:
{ "ID" : 1 ,
"question" : "2019年中国工商银行财务费用是多少元?" ,
"answer" : "2019年中国工商银行财务费用是12345678.9元。" }
{ "ID" : 2 ,
"question" : "工商银行2019年营业外支出和营业外收入分别是多少元?" ,
"answer" : "工商银行2019年营业外支出为12345678.9元,营业外收入为2345678.9元。" }
{ "ID" : 3 ,
"question" : "中国工商银行2021年净利润增长率是多少?保留2位小数。" ,
"answer" : "中国工商银行2020年净利润为12345678.90元,2021年净利润为22345678.90元,根据公式,净利润增长率=(净利润-上年净利润)/上年净利润,得出结果中国工商银行2021年净利润增长率81.00%。" }
وفي الوقت نفسه، كتبنا أيضًا رمز المراجعة الخاص بالمسابقة. نحن نعتمد على:
مثال التقييم:
{ "question" : "2019年中国工商银行财务费用是多少元?" ,
"prompt" : { "财务费用" : "12345678.9元" , "key_word" : "财务费用、2019" , "prom_answer" : "12345678.9元" },
"answer" : [
"2019年中国工商银行财务费用是12345678.9元。" ,
"2019年工商银行财务费用是12345678.9元。" ,
"中国工商银行2019年的财务费用是12345678.9元。" ]
}
مثال لحساب التقييم:
الإجابة 1: بلغت النفقات المالية لـ ICBC في عام 2019 123,456,78.9 يوانًا.
الجمل الأكثر تشابهاً:
بلغت النفقات المالية لـ ICBC في عام 2019 12345678.9 يوان. (النتيجة: 0.9915)
بلغت النفقات المالية للبنك الصناعي والتجاري الصيني في عام 2019 12345678.9 يوان. (النتيجة: 0.9820)
بلغت النفقات المالية للبنك الصناعي والتجاري الصيني في عام 2019 12345678.9 يوان. (النتيجة: 0.9720)
التقييم: 0.25+0.25+0.9915*0.5=0.9958 نقطة.
شرح الدرجات: prom_answer صحيح، ويحتوي على جميع الكلمات الرئيسية، وله أعلى تشابه قدره 0.9915.
الإجابة 2: بلغت النفقات المالية لـ ICBC في عام 2019 335,768.91 يوانًا.
التقييم: 0 نقطة.
شرح التسجيل: لا يتم تسجيل أخطاء Prom_answer.
الجواب الثالث: 12345678.9 يوان.
الجمل الأكثر تشابهاً:
بلغت النفقات المالية لـ ICBC في عام 2019 12345678.9 يوان. (النتيجة: 0.6488)
بلغت النفقات المالية للبنك الصناعي والتجاري الصيني في عام 2019 12345678.9 يوان. (النتيجة: 0.6409)
بلغت النفقات المالية للبنك الصناعي والتجاري الصيني في عام 2019 12345678.9 يوان. (النتيجة: 0.6191)
التقييم: 0.25+0+0.6488*0.5=0.5744 نقطة.
شرح الدرجات: prom_answer صحيح، ولا يحتوي على جميع الكلمات الرئيسية، وله أعلى تشابه قدره 0.6488.
{ "id" : 0 , "question" : "2021年其他流动资产第12高的是哪家上市公司?" , "answer" : "2021年其他流动资产第12高的公司是苏美达股份有限公司。" }
{ "id" : 1 , "question" : "注册地址在重庆的上市公司中,2021年营业收入大于5亿的有多少家?" , "answer" : "2021年注册在重庆,营业收入大于5亿的公司一共有4家。" }
{ "id" : 2 , "question" : "广东华特气体股份有限公司2021年的职工总人数为?" , "answer" : "2021年广东华特气体股份有限公司职工总人数是1044人。" }
{ "id" : 3 , "question" : "在保留两位小数的情况下,请计算出金钼股份2019年的流动负债比率" , "answer" : "2019金钼股份流动负债比率是61.10%。其中流动负债是1068418275.97元;总负债是1748627619.69元;" }
{ "id" : 4 , "question" : "2019年负债总金额最高的上市公司为?" , "answer" : "2019年负债合计最高的是上海汽车集团股份有限公司。" }
{ "id" : 5 , "question" : "2019年总资产最高的前五家上市公司是哪些家?" , "answer" : "2019年资产总计最高前五家是上海汽车集团股份有限公司、中远海运控股股份有限公司、国投电力控股股份有限公司、华域汽车系统股份有限公司、广州汽车集团股份有限公司。" }
{ "id" : 6 , "question" : "2020年营业收入最高的3家并且曾经在宁波注册的上市公司是?金额是?" , "answer" : "注册在宁波,2020年营业收入最高的3家是宁波均胜电子股份有限公司营业收入47889837616.15元;宁波建工股份有限公司营业收入19796854240.57元;宁波继峰汽车零部件股份有限公司营业收入15732749552.37元。" }
{ "id" : 7 , "question" : "注册地址在苏州的上市公司中,2020年利润总额大于5亿的有多少家?" , "answer" : "2020年注册在苏州,利润总额大于5亿的公司一共有2家。" }
{ "id" : 8 , "question" : "浙江运达风电股份有限公司在2019年的时候应收款项融资是多少元?" , "answer" : "2019年浙江运达风电股份有限公司应收款项融资是51086824.07元。" }
{ "id" : 9 , "question" : "神驰机电股份有限公司2020年的注册地址为?" , "answer" : "2020年神驰机电股份有限公司注册地址是重庆市北碚区童家溪镇同兴北路200号。" }
{ "id" : 10 , "question" : "2019年山东惠发食品股份有限公司营业外支出和营业外收入分别是多少元?" , "answer" : "2019年山东惠发食品股份有限公司营业外收入是1018122.97元;营业外支出是2513885.46元。" }
{ "id" : 11 , "question" : "福建广生堂药业股份有限公司2020年年报中提及的财务费用增长率具体是什么?" , "answer" : "2020福建广生堂药业股份有限公司财务费用增长率是34.33%。其中,财务费用是7766850.48元;上年财务费用是5781839.51元。" }
{ "id" : 12 , "question" : "华灿光电股份有限公司2021年的法定代表人与上年相比相同吗?" , "answer" : "不相同,华灿光电股份有限公司2020年法定代表人是俞信华,2021年法定代表人是郭瑾。" }
{ "id" : 13 , "question" : "请具体描述一下2020年仲景食品控股股东是否发生变更。" , "answer" : "2020年,仲景食品控股股东没有发生变更。" }
{ "id" : 14 , "question" : "什么是其他债权投资?" , "answer" : "其他债权投资是指企业或机构投资者通过购买债券、贷款、定期存款等金融产品获得的固定收益。这些金融产品通常由政府、公司或其他机构发行,具有一定的信用等级和风险。 n n其他债权投资是企业或机构投资组合中的一部分,通常用于稳定收益和分散风险。与股票投资相比,其他债权投资的风险较低,但收益也相对较低。 n n其他债权投资的管理和投资策略与其他资产类别类似,包括分散投资、风险控制、收益最大化等。然而,由于其他债权投资的种类繁多,其投资和管理也存在一定的特殊性。" }
[PPT] [فيديو] [التوثيق الفني]
[PPT] [فيديو] [التوثيق الفني]
[PPT] [فيديو] [التوثيق الفني]
وفيما يلي الفرق والأفراد الذين ساهموا في هذا المشروع:
مشروع FinGLM مفتوح المصدر مخصص لأغراض الصالح العام تمامًا، وجميع المطورين مدعوون لتقديم طلب للانضمام. وبالطبع، سنجري مراجعة صارمة. إذا كنت مهتما، يرجى ملء النموذج.
الموارد المتعلقة بهذا المشروع مخصصة فقط للبحث والتواصل، ولا يُنصح عمومًا باستخدامها تجاريًا إذا تم استخدامها لأغراض تجارية، فيرجى تحمل المخاطر القانونية المتكبدة.
عندما يتعلق الأمر بالاستخدام التجاري للنماذج، يرجى التأكد من اتباع بروتوكولات النماذج ذات الصلة، مثل ChatGLM-6B.