ลิงค์คำถามการแข่งขัน |. หน้าโปรโมชั่นคำถามการแข่งขัน
? FinGLM : มุ่งมั่นที่จะสร้างโครงการแบบจำลองทางการเงินขนาดใหญ่ที่เปิดกว้างและยั่งยืน โดยใช้โอเพ่นซอร์สเพื่อส่งเสริม "AI + การเงิน"
[อัปเดต 23/11/2566] เพิ่มเนื้อหาหลักสูตรสำหรับรุ่น ChatGLM-6B รุ่นที่ 1, 2 และ 3 รวมถึง PPT วิดีโอ และเอกสารทางเทคนิค
【อัปเดต 11/11/2566 】เพิ่มโซลูชันใหม่ "ตั้งชื่ออะไรก็ได้"
? ระบบอัจฉริยะแบบโต้ตอบการสนทนาที่ออกแบบมาเพื่อวิเคราะห์รายงานประจำปีของบริษัทจดทะเบียนในเชิงลึก เมื่อเผชิญกับเงื่อนไขทางวิชาชีพและข้อมูลโดยนัยในตำราทางการเงิน เรามุ่งมั่นที่จะใช้ AI เพื่อบรรลุการวิเคราะห์ทางการเงินระดับผู้เชี่ยวชาญ
ในด้าน AI แม้ว่าจะมีความคืบหน้าในการสนทนาแบบข้อความ แต่สถานการณ์ปฏิสัมพันธ์ทางการเงินที่แท้จริงยังคงเป็นความท้าทายที่ยิ่งใหญ่ หลายสถาบันร่วมกันจัดการแข่งขันสำรวจขอบเขตของ AI ในด้านการเงิน
รายงานประจำปีของบริษัทจดทะเบียนนำเสนอสถานะการดำเนินงานของบริษัท สถานะทางการเงิน และแผนงานในอนาคตของบริษัทแก่ผู้ลงทุน ความเชี่ยวชาญเป็นกุญแจสำคัญในการตีความ และเป้าหมายของเราคือการทำให้กระบวนการนี้ง่ายขึ้นและแม่นยำยิ่งขึ้นผ่านเทคโนโลยี AI
PDF เป็น TXT :
การแบ่งส่วนข้อมูล :
การประมวลผลข้อมูล :
บันทึกลงฐานข้อมูล :
การจำแนกประเภทข้อมูล : เช่น ข้อมูล SQL, ข้อมูล ES เป็นต้น
เลือกกลยุทธ์การปรับแต่งแบบละเอียด เช่น ptuningv2, lora เป็นต้น
ดำเนินการปรับแต่งอย่างละเอียด : ตามกลยุทธ์ที่เลือก
1) การเปลี่ยนแปลงเหตุการณ์
2) ข้อมูลโอเพ่นซอร์ส
3) โซลูชัน/โค้ด/โมเดลโอเพ่นซอร์ส
4) การสื่อสารแบบเปิด
5) บทเรียนการศึกษา
6) กลุ่มทรัพยากรโครงการ
ฉบับแรก:
pdf2txt.py
เพื่อแยกวิเคราะห์ไฟล์ PDF ประเด็นที่สอง:
บล็อกแนะนำโครงการ:
[PPT] [วิดีโอ][รหัส]
โครงการนี้เป็นการบูรณาการของทีมองค์กร Anshuoshuo Eye Exploration Enterprise โดยอิงจากโครงการของตนเองและโครงการของทีมอื่นๆ อีกหลายทีม เราจะทำซ้ำและอัปเกรดโครงการนี้ต่อไปในอนาคต
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ] [รหัส]
[PPT] [วิดีโอ][รหัส]
ชุดข้อมูลโอเพ่นซอร์สของเราครอบคลุมรายงานประจำปีของบริษัทจดทะเบียนบางแห่งตั้งแต่ปี 2019 ถึง 2021 ชุดข้อมูลนี้มีไฟล์ PDF โดยละเอียดทั้งหมด 11588 ไฟล์ (รายการ) คุณสามารถใช้เนื้อหาของไฟล์ PDF เหล่านี้เพื่อสร้างฐานข้อมูลหรือไลบรารีเวกเตอร์ที่คุณต้องการ เพื่อหลีกเลี่ยงการสิ้นเปลืองทรัพยากรในการประมวลผล เรายังแปลงไฟล์ที่เกี่ยวข้องเป็นไฟล์ TXT และไฟล์ HTML เพื่อให้ทุกคนได้ใช้
ขนาด: 69GB รูปแบบไฟล์: ไฟล์ pdf จำนวนไฟล์: 11588
โหลดคอมไพล์
# 要求安装 git lfs
git clone http://www.modelscope.cn/datasets/modelscope/chatglm_llm_fintech_raw_dataset.git
กำลังโหลด sdk
# Note:
# 1. 【重要】请将modelscope sdk升级到v1.7.2rc0,执行: pip3 install "modelscope==1.7.2rc0" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
# 2. 【重要】datasets版本限制为 >=2.8.0, <=2.13.0,可执行: pip3 install datasets==2.13.0
from modelscope.msdatasets import MsDataset
# 使用流式方式加载「推荐」
# 无需全量加载到cache,随下随处理
# 其中,通过设置 stream_batch_size 可以使用batch的方式加载
ds = MsDataset.load('chatglm_llm_fintech_raw_dataset', split='train', use_streaming=True, stream_batch_size=1)
for item in ds:
print(item)
# 加载结果示例(单条,pdf:FILE字段值为该pdf文件本地缓存路径,文件名做了SHA转码,可以直接打开)
{'name': ['2020-03-24__北京鼎汉技术集团股份有限公司__300011__鼎汉技术__2019年__年度报告.pdf'], 'pdf:FILE': ['~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/430da7c46fb80d4d095a57b4fb223258ffa1afe8bf53d0484e3f2650f5904b5c']}
# 备注:
1. 自定义缓存路径,可以自行设置cache_dir参数,即 MsDataset.load(..., cache_dir='/to/your/path')
2. 补充数据加载(从9493条增加到11588条),sdk加载注意事项
a) 删除缓存中的csv映射文件(默认路径为): ~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/732dc4f3b18fc52380371636931af4c8
b) 使用MsDataset.load(...) 加载,默认会reuse已下载过的文件,不会重复下载。
หมายเหตุ: แปลงไฟล์รูปแบบ pdf เป็น txt เพื่อนำมาใช้ซ้ำได้ง่าย (มีไฟล์หนึ่งเสียหาย ดังนั้นจำนวนทั้งหมดจึงน้อยกว่า pdf 1 รวมทั้งหมด 11587)
# Linux
wget https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip
# Windows示例
Invoke-WebRequest -Uri https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip -OutFile D:\alltxt.zip
หมายเหตุ: แปลงไฟล์รูปแบบ pdf เป็น html เพื่อนำมาใช้ซ้ำได้ง่าย (ไฟล์หนึ่งเสียหาย ดังนั้นจำนวนทั้งหมดจึงน้อยกว่า pdf รวมทั้งหมด 11582)
# Linux
wget https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/allhtml.zip
# Windows示例
Invoke-WebRequest -Uri https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/allhtml.zip -OutFile D:\allhtml.zip
ขั้นตอนที่แนะนำของเรามีดังนี้:
1. การแยกข้อความ PDF และตาราง: คุณสามารถใช้ชุดเครื่องมือ เช่น pdfplumber และ pdfminer เพื่อแยกข้อความและข้อมูลตารางจากไฟล์ PDF
2. การแบ่งส่วนข้อมูล: ตามข้อมูลไดเร็กทอรี ไดเร็กทอรีย่อย และบทของไฟล์ PDF เนื้อหาจะถูกแบ่งส่วนอย่างถูกต้อง
3. สร้างฐานข้อมูลทางการเงินขั้นพื้นฐาน: ออกแบบฟิลด์และรูปแบบฐานข้อมูลทางการเงินระดับมืออาชีพตามความรู้ทางการเงินและเนื้อหา PDF เช่น กำหนดงบดุล งบกระแสเงินสด งบกำไรขาดทุน ฯลฯ
4. การดึงข้อมูล: ใช้ความสามารถในการดึงข้อมูลของโมเดลขนาดใหญ่และเทคโนโลยี NLP เพื่อดึงข้อมูลทางการเงินที่เกี่ยวข้อง ตัวอย่างเช่น โปรดใช้โหมด json เพื่อส่งออกเนื้อหาของไดเร็กทอรี ซึ่งใช้ชื่อของบทเป็นคีย์ และใช้หมายเลขหน้าเป็นค่า ในเวลาเดียวกัน โปรดแยกข้อมูลในตารางโดยละเอียดและส่งออกเป็นรูปแบบ JSON
5. สร้างห้องสมุดคำถามและคำตอบความรู้ทางการเงิน: เมื่อรวมกับฐานข้อมูลทางการเงินที่สร้างขึ้นแล้ว ใช้แบบจำลองขนาดใหญ่เพื่อสร้างห้องสมุดคำถามและคำตอบทางการเงินขั้นพื้นฐาน ตัวอย่างเช่น,
{"question":"某公司2021年的财务费用为多少元?", "answer": "某公司2021年的财务费用为XXXX元。"}
prompt:用多种句式修改question及answer的内容。
{"question":"为什么财务费用可以是负的?", "answer": ""}
prompt:请模仿上面的question给出100个类似的问题与对应的答案,用json输出。
6. สร้างไลบรารีเวกเตอร์: ด้วยความช่วยเหลือของเทคโนโลยี เช่น Word2Vec และ Text2Vec เวกเตอร์ความหมายจะถูกแยกออกจากข้อมูลข้อความต้นฉบับ ใช้ pgvector ซึ่งเป็นส่วนขยายที่ใช้ PostgreSQL เพื่อจัดเก็บและจัดทำดัชนีเวกเตอร์เหล่านี้เพื่อสร้างไลบรารีเวกเตอร์ขนาดใหญ่ที่สามารถสืบค้นได้อย่างมีประสิทธิภาพ
7. การใช้งาน: รวมกับไลบรารีเวกเตอร์ โมเดลขนาดใหญ่ langchain และเครื่องมืออื่น ๆ เพื่อปรับปรุงเอฟเฟกต์ของแอปพลิเคชัน
ในการแข่งขัน SMP 2023 ChatGLM Financial Large Model Challenge เราได้จัดการแข่งขันรอบเบื้องต้น รอบรองชนะเลิศ A รอบรองชนะเลิศ B และรอบรองชนะเลิศ C ตามลำดับ สำหรับการแข่งขันรอบนี้ เราได้ใส่คำอธิบายประกอบข้อมูลที่เกี่ยวข้องด้วยตนเอง โดยมีผู้เข้าร่วมทั้งหมด 10,000 ราย
ตัวอย่างข้อมูล:
{ "ID" : 1 ,
"question" : "2019年中国工商银行财务费用是多少元?" ,
"answer" : "2019年中国工商银行财务费用是12345678.9元。" }
{ "ID" : 2 ,
"question" : "工商银行2019年营业外支出和营业外收入分别是多少元?" ,
"answer" : "工商银行2019年营业外支出为12345678.9元,营业外收入为2345678.9元。" }
{ "ID" : 3 ,
"question" : "中国工商银行2021年净利润增长率是多少?保留2位小数。" ,
"answer" : "中国工商银行2020年净利润为12345678.90元,2021年净利润为22345678.90元,根据公式,净利润增长率=(净利润-上年净利润)/上年净利润,得出结果中国工商银行2021年净利润增长率81.00%。" }
ในขณะเดียวกัน เรายังเขียนโค้ดรีวิวสำหรับการแข่งขันด้วย เราพึ่งพา:
ตัวอย่างการประเมินผล:
{ "question" : "2019年中国工商银行财务费用是多少元?" ,
"prompt" : { "财务费用" : "12345678.9元" , "key_word" : "财务费用、2019" , "prom_answer" : "12345678.9元" },
"answer" : [
"2019年中国工商银行财务费用是12345678.9元。" ,
"2019年工商银行财务费用是12345678.9元。" ,
"中国工商银行2019年的财务费用是12345678.9元。" ]
}
ตัวอย่างการคำนวณการประเมินผล:
คำตอบที่ 1: ค่าใช้จ่ายทางการเงินของ ICBC ในปี 2562 อยู่ที่ 123,456,78.9 หยวน
ประโยคที่คล้ายกันมากที่สุด:
ค่าใช้จ่ายทางการเงินของ ICBC ในปี 2562 อยู่ที่ 12345678.9 หยวน (คะแนน: 0.9915)
ค่าใช้จ่ายทางการเงินของ Industrial and Commercial Bank of China ในปี 2019 อยู่ที่ 12345678.9 หยวน (คะแนน: 0.9820)
ค่าใช้จ่ายทางการเงินของ Industrial and Commercial Bank of China ในปี 2019 อยู่ที่ 12345678.9 หยวน (คะแนน: 0.9720)
คะแนน: 0.25+0.25+0.9915*0.5=0.9958 คะแนน
คำอธิบายการให้คะแนน: Prom_answer ถูกต้อง มีคำหลักทั้งหมด และมีความคล้ายคลึงกันสูงสุดที่ 0.9915
คำตอบที่ 2: ค่าใช้จ่ายทางการเงินของ ICBC ในปี 2562 อยู่ที่ 335,768.91 หยวน
คะแนน: 0 คะแนน
คำอธิบายการให้คะแนน: ข้อผิดพลาด Prom_answer จะไม่ถูกให้คะแนน
คำตอบที่สาม: 12345678.9 หยวน
ประโยคที่คล้ายกันมากที่สุด:
ค่าใช้จ่ายทางการเงินของ ICBC ในปี 2562 อยู่ที่ 12345678.9 หยวน (คะแนน: 0.6488)
ค่าใช้จ่ายทางการเงินของ Industrial and Commercial Bank of China ในปี 2019 อยู่ที่ 12345678.9 หยวน (คะแนน: 0.6409)
ค่าใช้จ่ายทางการเงินของ Industrial and Commercial Bank of China ในปี 2019 อยู่ที่ 12345678.9 หยวน (คะแนน: 0.6191)
คะแนน: 0.25+0+0.6488*0.5=0.5744 คะแนน
คำอธิบายการให้คะแนน: Prom_answer ถูกต้อง ไม่มีคีย์เวิร์ดทั้งหมด และมีความคล้ายคลึงกันสูงสุดที่ 0.6488
{ "id" : 0 , "question" : "2021年其他流动资产第12高的是哪家上市公司?" , "answer" : "2021年其他流动资产第12高的公司是苏美达股份有限公司。" }
{ "id" : 1 , "question" : "注册地址在重庆的上市公司中,2021年营业收入大于5亿的有多少家?" , "answer" : "2021年注册在重庆,营业收入大于5亿的公司一共有4家。" }
{ "id" : 2 , "question" : "广东华特气体股份有限公司2021年的职工总人数为?" , "answer" : "2021年广东华特气体股份有限公司职工总人数是1044人。" }
{ "id" : 3 , "question" : "在保留两位小数的情况下,请计算出金钼股份2019年的流动负债比率" , "answer" : "2019金钼股份流动负债比率是61.10%。其中流动负债是1068418275.97元;总负债是1748627619.69元;" }
{ "id" : 4 , "question" : "2019年负债总金额最高的上市公司为?" , "answer" : "2019年负债合计最高的是上海汽车集团股份有限公司。" }
{ "id" : 5 , "question" : "2019年总资产最高的前五家上市公司是哪些家?" , "answer" : "2019年资产总计最高前五家是上海汽车集团股份有限公司、中远海运控股股份有限公司、国投电力控股股份有限公司、华域汽车系统股份有限公司、广州汽车集团股份有限公司。" }
{ "id" : 6 , "question" : "2020年营业收入最高的3家并且曾经在宁波注册的上市公司是?金额是?" , "answer" : "注册在宁波,2020年营业收入最高的3家是宁波均胜电子股份有限公司营业收入47889837616.15元;宁波建工股份有限公司营业收入19796854240.57元;宁波继峰汽车零部件股份有限公司营业收入15732749552.37元。" }
{ "id" : 7 , "question" : "注册地址在苏州的上市公司中,2020年利润总额大于5亿的有多少家?" , "answer" : "2020年注册在苏州,利润总额大于5亿的公司一共有2家。" }
{ "id" : 8 , "question" : "浙江运达风电股份有限公司在2019年的时候应收款项融资是多少元?" , "answer" : "2019年浙江运达风电股份有限公司应收款项融资是51086824.07元。" }
{ "id" : 9 , "question" : "神驰机电股份有限公司2020年的注册地址为?" , "answer" : "2020年神驰机电股份有限公司注册地址是重庆市北碚区童家溪镇同兴北路200号。" }
{ "id" : 10 , "question" : "2019年山东惠发食品股份有限公司营业外支出和营业外收入分别是多少元?" , "answer" : "2019年山东惠发食品股份有限公司营业外收入是1018122.97元;营业外支出是2513885.46元。" }
{ "id" : 11 , "question" : "福建广生堂药业股份有限公司2020年年报中提及的财务费用增长率具体是什么?" , "answer" : "2020福建广生堂药业股份有限公司财务费用增长率是34.33%。其中,财务费用是7766850.48元;上年财务费用是5781839.51元。" }
{ "id" : 12 , "question" : "华灿光电股份有限公司2021年的法定代表人与上年相比相同吗?" , "answer" : "不相同,华灿光电股份有限公司2020年法定代表人是俞信华,2021年法定代表人是郭瑾。" }
{ "id" : 13 , "question" : "请具体描述一下2020年仲景食品控股股东是否发生变更。" , "answer" : "2020年,仲景食品控股股东没有发生变更。" }
{ "id" : 14 , "question" : "什么是其他债权投资?" , "answer" : "其他债权投资是指企业或机构投资者通过购买债券、贷款、定期存款等金融产品获得的固定收益。这些金融产品通常由政府、公司或其他机构发行,具有一定的信用等级和风险。 n n其他债权投资是企业或机构投资组合中的一部分,通常用于稳定收益和分散风险。与股票投资相比,其他债权投资的风险较低,但收益也相对较低。 n n其他债权投资的管理和投资策略与其他资产类别类似,包括分散投资、风险控制、收益最大化等。然而,由于其他债权投资的种类繁多,其投资和管理也存在一定的特殊性。" }
[PPT] [วิดีโอ][เอกสารทางเทคนิค]
[PPT] [วิดีโอ][เอกสารทางเทคนิค]
[PPT] [วิดีโอ][เอกสารทางเทคนิค]
ต่อไปนี้เป็นทีมงานและบุคคลที่มีส่วนร่วมในโครงการนี้:
โครงการโอเพ่นซอร์ส FinGLM มีวัตถุประสงค์เพื่อสวัสดิการสาธารณะอย่างสมบูรณ์ และนักพัฒนาทุกคนสามารถสมัครเข้าร่วมได้ แน่นอนว่าเราจะดำเนินการตรวจสอบอย่างเข้มงวด หากสนใจกรุณากรอกแบบฟอร์ม
ทรัพยากรที่เกี่ยวข้องกับโครงการนี้มีไว้เพื่อการวิจัยและการสื่อสารเท่านั้น และโดยทั่วไปไม่แนะนำให้ใช้ในเชิงพาณิชย์ หากใช้เพื่อวัตถุประสงค์ทางการค้า โปรดรับความเสี่ยงทางกฎหมายที่เกิดขึ้น
เมื่อพูดถึงการใช้งานโมเดลเชิงพาณิชย์ โปรดปฏิบัติตามโปรโตคอลของโมเดลที่เกี่ยวข้อง เช่น ChatGLM-6B