Ссылка на вопрос о конкурсе | Страница продвижения вопроса о конкурсе
? FinGLM : Стремление создать открытый, общественный и долгосрочный крупный проект финансовой модели, используя открытый исходный код для продвижения «ИИ + финансы».
[Обновление 23.11.2023] Добавлены материалы курса для моделей ChatGLM-6B 1-го, 2-го и 3-го поколений, включая PPT, видео и техническую документацию.
【Обновление 17.11.2023】Добавлено новое решение «Назови как угодно».
? Диалоговая интерактивная интеллектуальная система, предназначенная для глубокого анализа годовых отчетов листинговых компаний. Учитывая профессиональные термины и неявную информацию в финансовых текстах, мы стремимся использовать ИИ для проведения финансового анализа на экспертном уровне.
В области ИИ, несмотря на достигнутый прогресс в текстовом диалоге, реальные сценарии финансового взаимодействия по-прежнему остаются огромной проблемой. Несколько учреждений совместно организовали этот конкурс, чтобы изучить возможности ИИ в финансовой сфере.
Годовой отчет листинговой компании представляет инвесторам операционное состояние, финансовое состояние и планы на будущее. Экспертиза является ключом к интерпретации, и наша цель — сделать этот процесс проще и точнее с помощью технологии искусственного интеллекта.
PDF в TXT :
Сегментация данных :
Обработка данных :
Сохранить в базу данных :
Классификация данных : например, данные SQL, данные ES и т. д.
Выберите стратегию тонкой настройки : например, ptuningv2, lora и т. д.
Выполнить тонкую настройку : на основе выбранной стратегии.
1) Трансформация событий
2) Данные с открытым исходным кодом
3) Решения/коды/модели с открытым исходным кодом
4) Открытое общение
5) Учебные пособия
6) Пул ресурсов проекта
Первый выпуск:
pdf2txt.py
для анализа PDF-файлов. Второй выпуск:
Вступительный блог проекта:
[PPT] [Видео][Код]
Этот проект представляет собой интеграцию команды предприятия по исследованию глаз Аньшуошуо на основе собственного проекта и проектов нескольких других команд. Мы продолжим совершенствовать и совершенствовать этот проект в будущем.
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео] [Код]
[PPT] [Видео][Код]
Наш набор данных из открытых источников охватывает годовые отчеты некоторых листинговых компаний за период с 2019 по 2021 год. Этот набор данных содержит в общей сложности 11588 подробных PDF-файлов (список). Вы можете использовать содержимое этих PDF-файлов для создания необходимой вам базы данных или векторной библиотеки. Чтобы избежать пустой траты вычислительных ресурсов, мы также конвертируем соответствующие файлы в файлы TXT и HTML-файлы, чтобы каждый мог их использовать.
Размер: 69 ГБ Формат файла: pdf-файл Количество файлов: 11588
git загрузить
# 要求安装 git lfs
git clone http://www.modelscope.cn/datasets/modelscope/chatglm_llm_fintech_raw_dataset.git
загрузка SDK
# Note:
# 1. 【重要】请将modelscope sdk升级到v1.7.2rc0,执行: pip3 install "modelscope==1.7.2rc0" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
# 2. 【重要】datasets版本限制为 >=2.8.0, <=2.13.0,可执行: pip3 install datasets==2.13.0
from modelscope.msdatasets import MsDataset
# 使用流式方式加载「推荐」
# 无需全量加载到cache,随下随处理
# 其中,通过设置 stream_batch_size 可以使用batch的方式加载
ds = MsDataset.load('chatglm_llm_fintech_raw_dataset', split='train', use_streaming=True, stream_batch_size=1)
for item in ds:
print(item)
# 加载结果示例(单条,pdf:FILE字段值为该pdf文件本地缓存路径,文件名做了SHA转码,可以直接打开)
{'name': ['2020-03-24__北京鼎汉技术集团股份有限公司__300011__鼎汉技术__2019年__年度报告.pdf'], 'pdf:FILE': ['~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/430da7c46fb80d4d095a57b4fb223258ffa1afe8bf53d0484e3f2650f5904b5c']}
# 备注:
1. 自定义缓存路径,可以自行设置cache_dir参数,即 MsDataset.load(..., cache_dir='/to/your/path')
2. 补充数据加载(从9493条增加到11588条),sdk加载注意事项
a) 删除缓存中的csv映射文件(默认路径为): ~/.cache/modelscope/hub/datasets/modelscope/chatglm_llm_fintech_raw_dataset/master/data_files/732dc4f3b18fc52380371636931af4c8
b) 使用MsDataset.load(...) 加载,默认会reuse已下载过的文件,不会重复下载。
Примечание. Конвертируйте файл формата pdf в txt для удобства повторного использования (один файл поврежден, поэтому общее число на 1 меньше, чем в формате pdf, всего 11587).
# Linux
wget https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip
# Windows示例
Invoke-WebRequest -Uri https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip -OutFile D:\alltxt.zip
Примечание. Конвертируйте файлы формата PDF в HTML для удобства повторного использования (один файл поврежден, поэтому общее количество меньше, чем в формате PDF, всего 11582).
# Linux
wget https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/allhtml.zip
# Windows示例
Invoke-WebRequest -Uri https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/allhtml.zip -OutFile D:\allhtml.zip
Вот наши рекомендуемые шаги:
1. Извлечение текста и таблиц PDF. Вы можете использовать такие наборы инструментов, как pdfplumber и pdfminer, для извлечения текстовых и табличных данных из файлов PDF.
2. Сегментация данных: содержимое точно сегментируется в соответствии с информацией о каталоге, подкаталоге и главе PDF-файла.
3. Создайте базовую финансовую базу данных: создавайте профессиональные поля и форматы финансовой базы данных на основе финансовых знаний и содержимого PDF-файлов. Например, определите баланс, отчет о движении денежных средств, отчет о прибылях и убытках и т. д.
4. Извлечение информации. Используйте возможности больших моделей и технологии НЛП по извлечению информации для извлечения соответствующей информации о финансовой сфере. Например, используйте режим json для вывода содержимого каталога, в котором название главы используется в качестве ключа, а номер страницы — в качестве значения. В то же время, пожалуйста, подробно извлеките данные из таблицы и выведите их в формате JSON.
5. Создайте библиотеку вопросов и ответов по финансовым знаниям. В сочетании с созданной финансовой базой данных примените большие модели для создания базовой библиотеки финансовых вопросов и ответов. Например,
{"question":"某公司2021年的财务费用为多少元?", "answer": "某公司2021年的财务费用为XXXX元。"}
prompt:用多种句式修改question及answer的内容。
{"question":"为什么财务费用可以是负的?", "answer": ""}
prompt:请模仿上面的question给出100个类似的问题与对应的答案,用json输出。
6. Создайте векторную библиотеку. С помощью таких технологий, как Word2Vec и Text2Vec, семантические векторы извлекаются из исходных текстовых данных. Используйте pgvector, расширение на основе PostgreSQL, чтобы хранить и индексировать эти векторы и создавать крупномасштабную векторную библиотеку, к которой можно эффективно выполнять запросы.
7. Применение: в сочетании с векторными библиотеками, большими моделями, langchain и другими инструментами для улучшения эффектов приложения.
В конкурсе крупных финансовых моделей ChatGLM SMP 2023 мы провели предварительный раунд, полуфинал A, полуфинал B и полуфинал C соответственно. Для этих раундов конкурса мы вручную аннотировали соответствующие данные, в общей сложности 10 000 записей.
Пример данных:
{ "ID" : 1 ,
"question" : "2019年中国工商银行财务费用是多少元?" ,
"answer" : "2019年中国工商银行财务费用是12345678.9元。" }
{ "ID" : 2 ,
"question" : "工商银行2019年营业外支出和营业外收入分别是多少元?" ,
"answer" : "工商银行2019年营业外支出为12345678.9元,营业外收入为2345678.9元。" }
{ "ID" : 3 ,
"question" : "中国工商银行2021年净利润增长率是多少?保留2位小数。" ,
"answer" : "中国工商银行2020年净利润为12345678.90元,2021年净利润为22345678.90元,根据公式,净利润增长率=(净利润-上年净利润)/上年净利润,得出结果中国工商银行2021年净利润增长率81.00%。" }
Параллельно мы также написали код обзора для конкурса. Мы полагаемся на:
Пример оценки:
{ "question" : "2019年中国工商银行财务费用是多少元?" ,
"prompt" : { "财务费用" : "12345678.9元" , "key_word" : "财务费用、2019" , "prom_answer" : "12345678.9元" },
"answer" : [
"2019年中国工商银行财务费用是12345678.9元。" ,
"2019年工商银行财务费用是12345678.9元。" ,
"中国工商银行2019年的财务费用是12345678.9元。" ]
}
Пример расчета оценки:
Ответ 1: Финансовые расходы ICBC в 2019 году составили 123 456 78,9 юаней.
наиболее похожие предложения:
Финансовые расходы ICBC в 2019 году составили 1 2345678,9 юаней. (Оценка: 0,9915)
Финансовые расходы Промышленно-коммерческого банка Китая в 2019 году составили 1 2345678,9 юаня. (Оценка: 0,9820)
Финансовые расходы Промышленно-коммерческого банка Китая в 2019 году составили 1 2345678,9 юаня. (Оценка: 0,9720)
Рейтинг: 0,25+0,25+0,9915*0,5=0,9958 балла.
Объяснение оценки: prom_ответ правильный, содержит все ключевые слова и имеет наивысшее сходство 0,9915.
Ответ 2: Финансовые расходы ICBC в 2019 году составляют 335 768,91 юаня.
Оценка: 0 баллов.
Объяснение подсчета баллов: ошибки Prom_answer не учитываются.
Ответ третий: 12345678,9 юаней.
наиболее похожие предложения:
Финансовые расходы ICBC в 2019 году составили 1 2345678,9 юаней. (Оценка: 0,6488)
Финансовые расходы Промышленно-коммерческого банка Китая в 2019 году составили 1 2345678,9 юаня. (Оценка: 0,6409)
Финансовые расходы Промышленно-коммерческого банка Китая в 2019 году составили 1 2345678,9 юаня. (Оценка: 0,6191)
Рейтинг: 0,25+0+0,6488*0,5=0,5744 балла.
Объяснение оценки: prom_ответ правильный, не содержит всех ключевых слов и имеет наивысшее сходство 0,6488.
{ "id" : 0 , "question" : "2021年其他流动资产第12高的是哪家上市公司?" , "answer" : "2021年其他流动资产第12高的公司是苏美达股份有限公司。" }
{ "id" : 1 , "question" : "注册地址在重庆的上市公司中,2021年营业收入大于5亿的有多少家?" , "answer" : "2021年注册在重庆,营业收入大于5亿的公司一共有4家。" }
{ "id" : 2 , "question" : "广东华特气体股份有限公司2021年的职工总人数为?" , "answer" : "2021年广东华特气体股份有限公司职工总人数是1044人。" }
{ "id" : 3 , "question" : "在保留两位小数的情况下,请计算出金钼股份2019年的流动负债比率" , "answer" : "2019金钼股份流动负债比率是61.10%。其中流动负债是1068418275.97元;总负债是1748627619.69元;" }
{ "id" : 4 , "question" : "2019年负债总金额最高的上市公司为?" , "answer" : "2019年负债合计最高的是上海汽车集团股份有限公司。" }
{ "id" : 5 , "question" : "2019年总资产最高的前五家上市公司是哪些家?" , "answer" : "2019年资产总计最高前五家是上海汽车集团股份有限公司、中远海运控股股份有限公司、国投电力控股股份有限公司、华域汽车系统股份有限公司、广州汽车集团股份有限公司。" }
{ "id" : 6 , "question" : "2020年营业收入最高的3家并且曾经在宁波注册的上市公司是?金额是?" , "answer" : "注册在宁波,2020年营业收入最高的3家是宁波均胜电子股份有限公司营业收入47889837616.15元;宁波建工股份有限公司营业收入19796854240.57元;宁波继峰汽车零部件股份有限公司营业收入15732749552.37元。" }
{ "id" : 7 , "question" : "注册地址在苏州的上市公司中,2020年利润总额大于5亿的有多少家?" , "answer" : "2020年注册在苏州,利润总额大于5亿的公司一共有2家。" }
{ "id" : 8 , "question" : "浙江运达风电股份有限公司在2019年的时候应收款项融资是多少元?" , "answer" : "2019年浙江运达风电股份有限公司应收款项融资是51086824.07元。" }
{ "id" : 9 , "question" : "神驰机电股份有限公司2020年的注册地址为?" , "answer" : "2020年神驰机电股份有限公司注册地址是重庆市北碚区童家溪镇同兴北路200号。" }
{ "id" : 10 , "question" : "2019年山东惠发食品股份有限公司营业外支出和营业外收入分别是多少元?" , "answer" : "2019年山东惠发食品股份有限公司营业外收入是1018122.97元;营业外支出是2513885.46元。" }
{ "id" : 11 , "question" : "福建广生堂药业股份有限公司2020年年报中提及的财务费用增长率具体是什么?" , "answer" : "2020福建广生堂药业股份有限公司财务费用增长率是34.33%。其中,财务费用是7766850.48元;上年财务费用是5781839.51元。" }
{ "id" : 12 , "question" : "华灿光电股份有限公司2021年的法定代表人与上年相比相同吗?" , "answer" : "不相同,华灿光电股份有限公司2020年法定代表人是俞信华,2021年法定代表人是郭瑾。" }
{ "id" : 13 , "question" : "请具体描述一下2020年仲景食品控股股东是否发生变更。" , "answer" : "2020年,仲景食品控股股东没有发生变更。" }
{ "id" : 14 , "question" : "什么是其他债权投资?" , "answer" : "其他债权投资是指企业或机构投资者通过购买债券、贷款、定期存款等金融产品获得的固定收益。这些金融产品通常由政府、公司或其他机构发行,具有一定的信用等级和风险。 n n其他债权投资是企业或机构投资组合中的一部分,通常用于稳定收益和分散风险。与股票投资相比,其他债权投资的风险较低,但收益也相对较低。 n n其他债权投资的管理和投资策略与其他资产类别类似,包括分散投资、风险控制、收益最大化等。然而,由于其他债权投资的种类繁多,其投资和管理也存在一定的特殊性。" }
[PPT] [Видео][Техническая документация]
[PPT] [Видео][Техническая документация]
[PPT] [Видео][Техническая документация]
Ниже приведены команды и отдельные лица, которые внесли свой вклад в этот проект:
Проект с открытым исходным кодом FinGLM предназначен исключительно для общественных целей, и все разработчики могут подать заявку на присоединение. Конечно, мы проведем строгую проверку. Если интересно, пожалуйста, заполните форму.
Ресурсы, связанные с этим проектом, предназначены только для исследований и общения и, как правило, не рекомендуются для коммерческого использования. При использовании в коммерческих целях, пожалуйста, примите на себя возможные юридические риски.
Когда дело доходит до коммерческого использования моделей, обязательно следуйте протоколам соответствующих моделей, например ChatGLM-6B.