Таблица лидеров Pixiu Paper |
Отказ от ответственности
Этот репозиторий и его содержимое предназначены только для академических и образовательных целей . Ни один из материалов не представляет собой финансовую, юридическую или инвестиционную консультацию. Авторы не предоставляют никаких гарантий, явных или подразумеваемых, относительно точности, полноты или полезности содержания. и участники не несут ответственности за любые ошибки, упущения или любые последствия, возникающие в результате использования информации, содержащейся в настоящем документе. Пользователи должны принять собственное суждение и проконсультироваться с профессионалами, прежде чем принимать какие-либо финансовые, юридические или инвестиционные решения. содержащийся в этом репозитории полностью на свой страх и риск.
Используя или получая доступ к информации в этом репозитории, вы соглашаетесь возмещать, защищать и ограждать авторов, участников и любые дочерние организации или лиц от любых претензий или убытков.
? Обновление (Дата: 22.09.2023)
Мы рады сообщить, что наша статья «PIXIU: комплексный тест, набор данных инструкций и большая языковая модель для финансов» была принята наборами данных и тестами отслеживания NeurIPS 2023!
? Обновление (Дата: 08.10.2023)
? Мы с гордостью сообщаем об улучшенных версиях FinBen, которые теперь поддерживают китайский и испанский языки!
? Обновление (Дата: 20.02.2024)
? Мы рады сообщить, что наша статья «FinBen: Целостный финансовый ориентир для больших языковых моделей» теперь доступна на FinBen.
? Обновление (Дата: 02.05.2024)
? Мы рады пригласить вас принять участие в конкурсе IJCAI2024 «Финансовые проблемы в больших языковых моделях – FinLLM», стартовый набор доступен на сайте Starter-kit.
Контрольно-пропускные пункты:
Языки
Статьи
Оценки :
Анализ настроений
Классификация
Извлечение знаний
Понимание чисел
Обобщение текста
Кредитный скоринг
Прогнозирование
Добро пожаловать в проект PIXIU ! Этот проект предназначен для поддержки разработки, настройки и оценки моделей большого языка (LLM) в финансовой сфере. PIXIU является важным шагом на пути к пониманию и использованию возможностей LLM в финансовой сфере. .
Репозиторий состоит из нескольких ключевых компонентов, каждый из которых служит уникальной цели в финансовом конвейере НЛП:
FinBen : Наш тест для оценки понимания и прогнозирования финансового языка. FinBen служит пакетом оценки для финансовых специалистов LLM, уделяя особое внимание задачам понимания и прогнозирования в различных финансовых контекстах.
FIT : Наш набор данных финансовых инструкций FIT — это многозадачный и мультимодальный набор данных инструкций, специально предназначенный для финансовых задач. Он служит тренировочной площадкой для точной настройки LLM для этих задач.
FinMA : Наша финансовая модель большого языка (LLM) является ядром нашего проекта, обеспечивая возможности обучения и прогнозирования для наших финансовых задач.
Открытые ресурсы : PIXIU открыто предоставляет финансовые данные LLM, данные по настройке инструкций и наборы данных, включенные в эталонную оценку, чтобы стимулировать открытые исследования и прозрачность.
Многозадачность : данные и тесты настройки инструкций в PIXIU охватывают разнообразный набор финансовых задач, включая четыре задачи финансового НЛП и одну задачу финансового прогнозирования.
Мультимодальность : данные и тесты настройки инструкций PIXIU состоят из мультимодальных финансовых данных, включая данные временных рядов из задачи прогнозирования движения запасов. Они охватывают различные типы финансовых текстов, включая отчеты, новостные статьи, твиты и нормативные документы.
Разнообразие : в отличие от предыдущих тестов, ориентированных в основном на финансовые задачи НЛП, тест оценки PIXIU включает в себя критические задачи финансового прогнозирования, соответствующие реальным сценариям, что делает его более сложным.
В этом разделе мы предоставляем подробный анализ производительности FinMA по сравнению с другими ведущими моделями, включая ChatGPT, GPT-4 и BloombergGPT и др. Для этого анализа мы выбрали ряд задач и показателей, которые охватывают различные аспекты финансовой деятельности. Обработка естественного языка и финансовое прогнозирование Все результаты моделей FinBen можно найти в нашей таблице лидеров!
Данные | Задача | Сырой | Типы данных | Условия | Лицензия | Бумага |
---|---|---|---|---|---|---|
ФПБ | анализ настроений | 4845 | новости | текст | CC BY-SA 3.0 | [1] |
FiQA-SA | анализ настроений | 1173 | заголовки новостей, твиты | текст | Общественный | [2] |
АСП | анализ настроений | 561 | заголовки новостей | текст | CC BY-NC-SA 4.0 | [3] |
FOMC | ястребино-голубиная классификация | 496 | Стенограммы FOMC | текст | CC BY-NC 4.0 | [4] |
Заголовки | классификация заголовков новостей | 11 412 | заголовки новостей | текст | CC BY-SA 3.0 | [5] |
FinArg-ECC-Задача1 | классификация единиц аргумента | 969 | конференц-связь с доходом | текст | CC BY-NC-SA 4.0 | [6] |
FinArg-ECC-Задача2 | классификация отношений аргументов | 690 | конференц-связь по доходам | текст | CC BY-NC-SA 4.0 | [6] |
Мультифин RU | многоклассовая классификация | 546 | заголовки статей | текст | Общественный | [7] |
Слияния и поглощения | классификация завершенности сделок | 500 | новостные статьи, твиты | текст | Общественный | [8] |
МЛЕСГЕН | Выявление проблем ESG | 300 | новостные статьи | текст | CC BY-NC-ND | [9] |
НЭР | распознавание названного объекта | 1366 | финансовые соглашения | текст | CC BY-SA 3.0 | [10] |
Файнер Орд | распознавание названного объекта | 1080 | новостные статьи | текст | CC BY-NC 4.0 | [11] |
ФинРЕД | извлечение отношений | 1070 | заработок на транзакциях по звонкам | текст | Общественный | [12] |
FinCausual 2020 Задача 1 | причинная классификация | 8,630 | новостные статьи, SEC | текст | CC BY 4.0 | [13] |
FinCausual 2020 Задача 2 | причинное обнаружение | 226 | новостные статьи, SEC | текст | CC BY 4.0 | [13] |
ФинQA | ответ на вопрос | 8,281 | отчеты о доходах | текст, таблица | Лицензия MIT | [14] |
tQA | ответ на вопрос | 1670 | финансовые отчеты | текст, таблица | Лицензия MIT | [15] |
FXL | числовая маркировка | 318 | SEC | текст | Общественный | [16] |
ФСРЛ | классификация токенов | 97 | новостные статьи | текст | Лицензия MIT | [17] |
ЭКТСУМ | обобщение текста | 495 | заработок на транзакциях по звонкам | текст | Общественный | [18] |
ЭДЦУМ | обобщение текста | 2000 г. | новостные статьи | текст | Общественный | [19] |
немецкий | кредитный скоринг | 1000 | кредитные записи | стол | CC BY 4.0 | [20] |
австралийский | кредитный скоринг | 690 | кредитные записи | стол | CC BY 4.0 | [двадцать один] |
Кредитный клуб | кредитный скоринг | 1,3453 | финансовая информация | стол | СС0 1.0 | [двадцать два] |
Большие данные22 | прогноз движения запасов | 7,164 | твиты, исторические цены | текст, временной ряд | Общественный | [двадцать три] |
ACL18 | прогноз движения запасов | 27 053 | твиты, исторические цены | текст, временной ряд | Лицензия MIT | [двадцать четыре] |
CIKM18 | прогноз движения запасов | 4967 | твиты, исторические цены | текст, временной ряд | Общественный | [25] |
КонвФинQA | многоходовой ответ на вопрос | 1490 | отчеты о доходах | текст, таблица | Лицензия MIT | [26] |
Мошенничество с кредитными картами | Обнаружение мошенничества | 11 392 | финансовая информация | стол | (ДбКЛ) v1.0 | [двадцать два] |
ccFraud | Обнаружение мошенничества | 10,485 | финансовая информация | стол | Общественный | [двадцать два] |
Польский | Выявление финансовых проблем | 8,681 | особенности финансового положения | стол | CC BY 4.0 | [двадцать два] |
Тайваньский экономический журнал | Выявление финансовых проблем | 6,819 | особенности финансового положения | стол | CC BY 4.0 | [двадцать два] |
ПортоСегуро | Анализ претензий | 11 904 | претензия и финансовая информация | стол | Общественный | [двадцать два] |
Страхование путешествий | Анализ претензий | 12 665 | претензия и финансовая информация | стол | (ОДбЛ) v1.0 | [двадцать два] |
1. Пекка Мало, Анкур Синха, Пекка Корхонен, Юрки Валлениус и Пюри Такала, 2014. Хороший долг или плохой долг: определение семантических ориентаций в экономических текстах. Журнал Ассоциации информационных наук и технологий 65, 4 (2014), 782. –796.
2. Маседо Майя, Зигфрид Хандшу, Андре Фрейтас, Брайан Дэвис, Росс МакДермотт, Манель Заррук и Александра Балахур, 2018. Открытый вызов Www'18: анализ финансовых мнений и ответы на вопросы в материалах веб-конференции Companion 2018. 1941. –1942.
3. Кейт Кортис, Андре Фрейтас, Тобиас Даудерт, Мануэла Хюрлиманн, Манель Заррук, Зигфрид Хандшу и Брайан Дэвис, 2017. Задача SemEval-2017: Детальный анализ настроений в финансовых микроблогах и новостях в материалах 11-го международного семинара . по семантической оценке (SemEval-2017) , стр. 519–535, Ванкувер, Канада. Ассоциация компьютерной лингвистики.
4. Агам Шах, Суван Патури и Судхир Чава, 2023. Слова на триллион долларов: новый набор финансовых данных, задачи и анализ рынка. В материалах 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) , страницы. 6664–6679, Торонто, Канада. Ассоциация компьютерной лингвистики.
5. Анкур Синха и Танмай Хандайт, 2021. Влияние новостей на товарный рынок: набор данных и результаты. В достижениях в области информации и коммуникации: материалы конференции «Будущее информации и коммуникации» (FICC) 2021 года. Том 2. Springer, 589–. 601.
6. Chen CC, Lin CY, Chiu CJ и др. Обзор задачи NTCIR-17 FinArg-1: Детальное понимание аргументов в финансовом анализе [C] // Материалы 17-й конференции NTCIR по оценке технологий доступа к информации. , Токио, Япония 2023.
7. Расмус Йоргенсен, Оливер Брандт, Марейке Хартманн, Сян Дай, Кристиан Игель и Десмонд Эллиотт, 2023. MultiFin: набор данных для многоязычного финансового НЛП. В выводах Ассоциации компьютерной лингвистики: EACL 2023 , стр. 894–909, Дубровник. , Хорватия Ассоциация компьютерной лингвистики.
8. Ян Л., Кенни Э.М., Нг, Т.Л., Ян Ю., Смит Б. и Донг Р. (2020). Международная конференция по вычислительным вычислениям . Создание правдоподобных контрфактических объяснений глубоких преобразователей в классификации финансовых текстов. Лингвистика .
9. Чунг-Чи Чен, Ю-Мин Ценг, Джуён Кан, Анаис Люиссье, Мин-Ю Дэй, Тенг-Цай Ту и Синь-Си Чен, 2023. Многоязычная идентификация проблем ESG в материалах пятого семинара . Финансовые технологии и обработка естественного языка (FinNLP) и второй мультимодальный ИИ для финансового прогнозирования (Muffin) .
10. Хулио Сезар Салинас Альварадо, Карин Верспур и Тимоти Болдуин, 2015. Адаптация определения названной организации для поддержки оценки кредитного риска. В материалах семинара Австралазийской ассоциации языковых технологий, 2015. 84–90.
11. Шах А., Витхани Р., Гуллапалли А. и др. Файнер: Набор данных для распознавания финансовых имен и модель слабого надзора [J].
12. Шарма, Сумья и др. «FinRED: набор данных для извлечения отношений в финансовой сфере». Сопутствующие материалы веб-конференции 2022 (2022): стр.
13. Доминик Марико, Ханна Аби-Акл, Эстель Лабидури, Стефан Дюрфор, Хьюг Де Мазанкур и Махмуд Эль-Хадж, 2020. Общая задача по выявлению причинно-следственной связи в финансовых документах (FinCausal, 2020), в материалах 1-го совместного семинара по финансовому повествованию. Финансовая сводка Processing and MultiLing , стр. 23–32, Барселона, Испания (Онлайн).
14. Чжию Чен, Вэньху Чен, Чарез Смайли, Самина Шах, Яна Борова, Дилан Лэнгдон, Рима Мусса, Мэтт Бин, Тин-Хао Хуанг, Брайан Р. Рутледж и др. 2021. FinQA: набор данных для численного анализа финансовых данных. В материалах конференции 2021 года по эмпирическим методам обработки естественного языка. 3697–3711.
15. Чжу, Фэнбинь, Вэньцян Лэй, Ючэн Хуан, Чао Ван, Шуо Чжан, Цзяньчэн Лв, Фули Фэн и Тат-Сенг Чуа «TAT-QA: тест на ответы на вопросы по гибриду табличного и текстового контента в финансах». ArXiv abs/2105.07624 (2021): н. стр.
16. Сумья Шарма, Субхенду Хатуя, Манджунат Хегде, Африн Шейх, Кустув Дасгупта, Паван Гоял и Нилой Гангули, 2023. Финансовая числовая экстремальная маркировка: набор данных и сравнительный анализ в выводах Ассоциации компьютерной лингвистики: ACL 2023 , стр. 3550. –3561, Торонто, Канада. Ассоциация вычислительных технологий. Лингвистика.
17. Мэтью Ламм, Арун Чаганти, Кристофер Д. Мэннинг, Дэн Джурафски и Перси Лян, 2018. Анализ текстовой аналогии: что общего и что сравнивается среди аналогичных фактов. В материалах конференции 2018 года по эмпирическим методам обработки естественного языка , страницы. 82–92, Брюссель, Бельгия Ассоциация компьютерной лингвистики.
18. Радждип Мукерджи, Абхинав Бора, Акаш Банерджи, Сумья Шарма, Манджунат Хегде, Африн Шейх, Шивани Шривастава, Кустув Дасгупта, Нилой Гангули, Саптарши Гош и Паван Гоял, 2022. ECTSum: новый эталонный набор данных для обобщения длинных пунктов. Транскрипты звонков о доходах. Материалы конференции 2022 года по эмпирическим методам обработки естественного языка , страницы 10893–10906, Абу-Даби, Ассоциация компьютерной лингвистики Объединенных Арабских Эмиратов.
19. Чжихан Чжоу, Лицянь Ма и Хан Лю, 2021. Торгуйте событием: обнаружение корпоративных событий для торговли, основанной на новостях, в выводах Ассоциации компьютерной лингвистики: ACL-IJCNLP 2021 , страницы 2114–2124, онлайн. Ассоциация компьютерной лингвистики.
20. Хофманн, Ганс (1994). Statlog (Репозиторий машинного обучения UCI).
21. Куинлан, Росс. Statlog (Австралийское кредитное хранилище).
22. Дуаньюй Фэн, Юнфу Дай, Цзиминь Хуан, Ифан Чжан, Цяньцянь Се, Вэйгуан Хан, Алехандро Лопес-Лира, Хао Ван. 2023. Расширение прав и возможностей многих, смещение немногих : общий кредитный рейтинг с помощью больших языковых моделей. 2023): н.с.
23. Йеджун Соун, Джэмин Ю, Минён Чо, Чжихён Чон и У Кан, 2022. Точное прогнозирование движения запасов с помощью самостоятельного обучения на основе редких шумных твитов. Международная конференция IEEE по большим данным (IEEE, 1691 г.). –1700.
24. Юмо Сюй и Шей Б. Коэн. 2018. Прогноз движения акций на основе твитов и исторических цен. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи, 1970–1979).
25. Хуэйчэ Ву, Вэй Чжан, Вэйвэй Шен и Цзюнь Ван, 2018. Гибридное глубокое последовательное моделирование для прогнозирования акций на основе текста. В материалах 27-й международной конференции ACM по управлению информацией и знаниями.
26. Чжию Чен, Шиянг Ли, Чарез Смайли, Чжицян Ма, Самина Шах и Уильям Ян Ван, 2022. ConvFinQA: Исследование цепочки числовых рассуждений при ответе на вопросы в области разговорных финансов в материалах конференции 2022 года по эмпирическим методам на естественном языке. Обработка, страницы 6279–6292, Абу-Даби, Ассоциация Объединенных Арабских Эмиратов. по компьютерной лингвистике.
git clone https://github.com/The-FinAI/PIXIU.git --recursive
cd PIXIU
pip install -r requirements.txt
cd src/financial-evaluation
pip install -e .[multilingual]
sudo bash scripts/docker_run.sh
Приведенная выше команда запускает Docker-контейнер, вы можете изменить docker_run.sh
в соответствии с вашей средой. Мы предоставляем предварительно созданный образ, запустив sudo docker pull tothemoon/pixiu:latest
docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864
--network host
--env https_proxy= $https_proxy
--env http_proxy= $http_proxy
--env all_proxy= $all_proxy
--env HF_HOME= $hf_home
-it [--rm]
--name pixiu
-v $pixiu_path : $pixiu_path
-v $hf_home : $hf_home
-v $ssh_pub_key :/root/.ssh/authorized_keys
-w $workdir
$docker_user /pixiu: $tag
[--sshd_port 2201 --cmd " echo 'Hello, world!' && /bin/bash " ]
Аргументы объясняют:
[]
означает игнорируемые аргументыHF_HOME
: каталог кэша Huggingfacesshd_port
: sshd-порт контейнера, вы можете запустить ssh -i private_key -p $sshd_port root@$ip
для подключения к контейнеру, по умолчанию 22001--rm
: удалить контейнер при выходе из контейнера (т. е. CTRL + D
) Перед оценкой загрузите контрольную точку BART в src/metrics/BARTScore/bart_score.pth
.
Для автоматической оценки следуйте этим инструкциям:
Обнимающийся трансформер
Чтобы оценить модель, размещенную в HuggingFace Hub (например, finma-7b-full), используйте следующую команду:
python eval.py
--model " hf-causal-llama "
--model_args " use_accelerate=True,pretrained=TheFinAI/finma-7b-full,tokenizer=TheFinAI/finma-7b-full,use_fast=False "
--tasks " flare_ner,flare_sm_acl,flare_fpb "
Более подробную информацию можно найти в документации lm_eval.
Обратите внимание, что для таких задач, как NER, автоматическая оценка основана на определенном шаблоне. При нулевых настройках может не получиться извлечь соответствующую информацию, что приведет к относительно более низкой производительности по сравнению с предыдущими результатами, аннотированными человеком.
export OPENAI_API_SECRET_KEY=YOUR_KEY_HERE
python eval.py
--model gpt-4
--tasks flare_ner,flare_sm_acl,flare_fpb
Чтобы запустить серверную часть вывода:
bash scripts/run_interface.sh
Настройте run_interface.sh в соответствии с требованиями вашей среды.
Чтобы оценить:
python data/ * /evaluate.py
Создание новой задачи для FinBen включает в себя создание набора данных Huggingface и реализацию задачи в файле Python. Это руководство проведет вас через каждый шаг настройки новой задачи с использованием платформы FinBen.
Ваш набор данных должен быть создан в следующем формате:
{
"query" : "..." ,
"answer" : "..." ,
"text" : "..."
}
В этом формате:
query
: сочетание вашего приглашения и текста.answer
: Ваш лейблДля многооборотных задач (таких как )
Для задач классификации (таких как FPB (FinBen_fpb)) следует определить дополнительные ключи:
choices
: Набор этикетокgold
: индекс правильной метки в выборе (начиная с 0).Для задач последовательной маркировки (например, Finer Ord (FinBen_finer_ord)) следует определить дополнительные ключи:
label
: Список меток токенов.
token
: список токенов
Для задач экстракционного суммирования (таких как ECTSUM (FinBen_ectsum)) следует определить дополнительные ключи:
label
: Список меток предложений.Для абстрактных задач суммирования и ответов на вопросы (таких как EDTSUM (FinBen_edtsum)) дополнительные ключи определять не следует.
Как только ваш набор данных будет готов, вы можете приступить к реализации своей задачи. Ваша задача должна быть определена в новом классе в Flare.py или любом другом файле Python, расположенном в каталоге задач.
Для решения широкого спектра задач мы предлагаем несколько специализированных базовых классов, включая Classification
, SequentialLabeling
, RelationExtraction
, ExtractiveSummarization
, AbstractiveSummarization
и QA
.
Например, если вы приступаете к задаче классификации, вы можете напрямую использовать наш базовый класс Classification
. Этот класс позволяет эффективно и интуитивно понятно создавать задачи. Чтобы лучше продемонстрировать это, давайте углубимся в пример создания задачи с именем FinBen-FPB. Базовый класс Classification
:
class flareFPB ( Classification ):
DATASET_PATH = "flare-fpb"
И все! После того, как вы создали класс задачи, следующим шагом будет его регистрация в файле src/tasks/__init__.py
. Для этого добавьте новую строку в формате "task_name": module.ClassName
. Вот как это делается:
TASK_REGISTRY = {
"flare_fpb" : flare . FPB ,
"your_new_task" : your_module . YourTask , # This is where you add your task
}
Задача | Метрика | Иллюстрация |
---|---|---|
Классификация | Точность | Этот показатель представляет собой отношение правильно предсказанных наблюдений к общему количеству наблюдений. Он рассчитывается как (Истинные положительные результаты + Истинные отрицательные результаты) / Общее количество наблюдений. |
Классификация | Оценка F1 | Оценка F1 представляет собой гармоническое среднее значение точности и полноты, тем самым создавая равновесие между этими двумя факторами. Она оказывается особенно полезной в сценариях, где один фактор имеет большее значение, чем другой. Оценка варьируется от 0 до 1, где 1 означает идеальную точность. и отзыв, а 0 указывает на худший случай. Кроме того, мы предоставляем как «взвешенную», так и «макро» версию оценки F1. |
Классификация | Отсутствует соотношение | Эта метрика рассчитывает долю ответов, в которых не возвращено ни одного варианта из заданных вариантов в задаче. |
Классификация | Коэффициент корреляции Мэтьюза (MCC) | MCC — это показатель, который оценивает качество двоичной классификации и дает оценку в диапазоне от -1 до +1. Оценка +1 означает идеальное предсказание, 0 означает предсказание не лучше, чем случайное совпадение, а -1 указывает на полностью обратное. прогноз. |
Последовательная маркировка | Оценка F1 | В контексте задач последовательной маркировки мы используем оценку F1, вычисленную библиотекой seqeval , надежную метрику оценки на уровне объекта. Эта метрика требует точного соответствия как диапазона, так и типа сущности между прогнозируемыми и фактическими объектами для объекта. правильные оценки (TP) представляют правильно предсказанные объекты, ложные положительные результаты (FP) обозначают неправильно предсказанные объекты или объекты с несовпадающими диапазонами/типами, а ложные отрицательные значения (FN) обозначают пропущенные объекты из. Затем с использованием этих величин вычисляются основная истина, точность, полнота и показатель F1, причем показатель F1 представляет собой среднее гармоническое значение точности и полноты. |
Последовательная маркировка | Оценка метки F1 | Эта метрика оценивает производительность модели исключительно на основе правильности предсказанных меток без учета диапазонов сущностей. |
Извлечение отношений | Точность | Точность измеряет долю правильно предсказанных отношений среди всех предсказанных отношений. Она рассчитывается как количество истинных положительных результатов (TP), деленное на сумму истинных положительных результатов и ложных положительных результатов (FP). |
Извлечение отношений | Отзывать | Напомним, измеряет долю правильно предсказанных отношений среди всех фактических отношений. Он рассчитывается как количество истинных положительных результатов (TP), деленное на сумму истинных положительных и ложных отрицательных результатов (FN). |
Извлечение отношений | Оценка F1 | Показатель F1 представляет собой гармоническое среднее значение точности и полноты и обеспечивает баланс между этими двумя показателями. Показатель F1 в лучшем случае равен 1 (идеальная точность и полнота), а в худшем — 0. |
Экстрактивное и абстрактное обобщение | Руж-Н | При этом измеряется перекрытие N-грамм (непрерывная последовательность N элементов из заданного образца текста) между сводкой, сгенерированной системой, и справочной сводкой. «N» может быть 1, 2 или более для ROUGE-1 и. ROUGE-2 обычно используется для оценки перекрытий униграмм и биграмм соответственно. |
Экстрактивное и абстрактное обобщение | Руж-Л | Эта метрика оценивает самую длинную общую подпоследовательность (LCS) между системой и эталонными сводками. LCS естественным образом учитывает сходство структуры уровня предложения и автоматически определяет самые длинные совпадающие n-граммы в последовательности. |
Вопрос Ответ | ЕМАКС | EMACC оценивает точное соответствие между ответом, сгенерированным моделью, и эталонным ответом. Другими словами, ответ, сгенерированный моделью, считается правильным только в том случае, если он точно, слово в слово, соответствует эталонному ответу. |
Кроме того, вы можете определить, должны ли метки быть в нижнем регистре во время процесса сопоставления, указав
LOWER_CASE
в определении вашего класса. Это актуально, поскольку метки сопоставляются на основе их внешнего вида в сгенерированных выходных данных для таких задач, как экзамены, где метки представляют собой определенный набор. заглавных букв, таких как «A», «B», «C», обычно следует установить значение False.
Наш набор данных инструкций специально разработан для отраслевой LLM, FinMA. Этот набор данных был тщательно собран для точной настройки нашей модели для решения широкого спектра финансовых задач. Он содержит общедоступные многозадачные и многомодальные данные, полученные на основе. несколько открытых опубликованных наборов финансовых данных.
Набор данных многогранен и включает в себя такие задачи, как анализ настроений, классификацию заголовков новостей, распознавание названных объектов, ответы на вопросы и прогнозирование движения акций. Он охватывает как текстовые методы, так и временные ряды данных, предлагая широкий спектр финансовых данных. конкретные инструкции для каждой задачи были тщательно разработаны экспертами в данной области.
В таблице ниже приведены различные задачи, соответствующие им модальности, типы текста и примеры инструкций, используемых для каждой задачи:
Задача | Условия | Типы текста | ИнструкцииПримеры |
---|---|---|---|
Анализ настроений | Текст | заголовки новостей, твиты | «Проанализируйте настроение этого заявления, взятого из статьи о финансовых новостях. Дайте свой ответ как отрицательный, положительный или нейтральный. Например, «Акции компании резко упали после скандала» будет классифицировано как отрицательное». |
Классификация заголовков новостей | Текст | Заголовки новостей | «Подумайте, упоминается ли в заголовке цена золота. Есть ли цена на товарном рынке золота, указанная в заголовке новости? Пожалуйста, ответьте «Да» или «Нет». |
Распознавание именованного объекта | Текст | финансовые соглашения | «В предложениях, извлеченных из финансовых соглашений в документах Комиссии по ценным бумагам и биржам США, укажите названные организации, которые представляют человека («PER»), организацию («ORG») или местоположение («LOC»). Требуемый формат ответа: «имя объекта, тип объекта». Например, в «Илон Маск, генеральный директор SpaceX, объявил о запуске с мыса Канаверал»., сущности будут такими: «Илон Маск, SpaceX, ORG»; |
Вопрос Ответ | Текст | отчеты о доходах | «В контексте этой серии взаимосвязанных запросов, связанных с финансами, и дополнительной информации, предоставленной предлогом, данными таблицы и текстом сообщения из финансовых отчетов компании, пожалуйста, дайте ответ на последний вопрос. Для этого может потребоваться извлечение информации из контекст и выполнение математических расчетов. При формулировании своего ответа примите во внимание информацию, представленную в предыдущих вопросах, и ответы на них:" |
Прогноз движения запасов | Текст, временной ряд | твиты, Курсы акций | «Проанализируйте информацию и сообщения в социальных сетях, чтобы определить, будет ли цена закрытия {tid} повышаться или понижаться в {point} . Пожалуйста, ответьте либо Rise, либо Fall». |
Набор данных содержит огромное количество образцов данных инструкций (136 КБ), что позволяет FinMA улавливать нюансы различных финансовых задач. В таблице ниже представлены статистические данные набора данных инструкций:
Данные | Задача | Сырой | Инструкция | Типы данных | Условия | Лицензия | Оригинальная бумага |
---|---|---|---|---|---|---|---|
ФПБ | анализ настроений | 4845 | 48 450 | новости | текст | CC BY-SA 3.0 | [1] |
FiQA-SA | анализ настроений | 1173 | 11730 | заголовки новостей, твиты | текст | Общественный | [2] |
Заголовок | классификация заголовков новостей | 11 412 | 11 412 | заголовки новостей | текст | CC BY-SA 3.0 | [3] |
НЭР | распознавание названного объекта | 1366 | 13 660 | финансовые соглашения | текст | CC BY-SA 3.0 | [4] |
ФинQA | ответ на вопрос | 8,281 | 8,281 | отчеты о доходах | текст, таблица | Лицензия MIT | [5] |
КонвФинQA | ответ на вопрос | 3892 | 3892 | отчеты о доходах | текст, таблица | Лицензия MIT | [6] |
Большие данные22 | прогноз движения запасов | 7,164 | 7,164 | твиты, исторические цены | текст, временной ряд | Общественный | [7] |
ACL18 | прогноз движения запасов | 27 053 | 27 053 | твиты, исторические цены | текст, временной ряд | Лицензия MIT | [8] |
CIKM18 | прогноз движения запасов | 4967 | 4967 | твиты, исторические цены | текст, временной ряд | Общественный | [9] |
Когда вы работаете с набором данных финансовых инструкций (FIT), очень важно следовать установленному формату моделей обучения и тестирования.
Формат должен выглядеть следующим образом:
{
"id" : " unique id " ,
"conversations" : [
{
"from" : " human " ,
"value" : " Your prompt and text "
},
{
"from" : " agent " ,
"value" : " Your answer "
}
],
"text" : " Text to be classified " ,
"label" : " Your label "
}
Вот что означает каждое поле:
Первая очередь в списке «разговоров» всегда должна быть от «человека» и содержать ваше приглашение и текст. Вторая очередь должна быть от «агента» и содержать ваш ответ.
Мы рады представить первую версию FinMA, включающую три модели FinMA-7B, FinMA-7B-full, FinMA-30B, доработанные на LLaMA 7B, а также LLaMA-30B, обученные с помощью FinMA-7B и FinMA-30B. Данные инструкций NLP, а FinMA-7B-full обучается с использованием полных данных инструкций от FIT, охватывающих как задачи NLP, так и задачи прогнозирования.
FinMA v0.1 теперь доступна на Huggingface для публичного использования. Мы с нетерпением ожидаем ценного вклада, который эта первоначальная версия внесет в область финансового НЛП, и призываем пользователей применять ее для различных финансовых задач и сценариев. Мы также приглашаем вас поделиться своими отзывами. опыт, который поможет улучшить будущие версии.
Вскоре.
FinMem — это новая агентская структура на основе LLM, разработанная для принятия финансовых решений, которая включает в себя три основных модуля: профилирование для описания характеристик агента; память с многоуровневой обработкой, помогающая агенту усваивать реалистичные иерархические финансовые данные и принимать решения; , чтобы преобразовать информацию, полученную из воспоминаний, в инвестиционные решения. В настоящее время FinMem может торговать отдельными акциями с высокой доходностью после простого прогрева режима. Ниже приведен быстрый старт для платформы докеризованной версии с примером TSLA. вход.
Шаг 1. Установите переменные среды в .env
добавьте HUGGINGFACE TOKEN и OPENAI API KEY по мере необходимости.
OPENAI_API_KEY = " <Your OpenAI Key> "
HF_TOKEN = " <Your HF token> "
Шаг 2. Установите URL-адрес конечной точки в config.toml
Используйте URL-адрес конечной точки для развертывания моделей на основе выбранной модели (OPENAI, Gemini, модели с открытым исходным кодом на HuggingFace и т. д.). Для моделей с открытым исходным кодом на HuggingFace один из вариантов создания TGI. конечные точки находятся через RunPod.
[chat]
model = " tgi "
end_point = " <set the your endpoint address> "
tokenization_model_name = " <model name> "
...
Шаг 3. Создайте образ и контейнер Docker
docker build -t test-finmem .devcontainer/.
запустить контейнер:
docker run -it --rm -v $( pwd ) :/finmem test-finmem bash
Шаг 4: Запустите симуляцию!
Usage: run.py sim [OPTIONS]
Start Simulation
╭─ Options ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
│ --market-data-path -mdp TEXT The environment data pickle path [default: data/06_input/subset_symbols.pkl] │
│ --start-time -st TEXT The training or test start time [default: 2022-06-30 For Ticker ' TSLA ' ] │
│ --end-time -et TEXT The training or test end time [default: 2022-10-11] │
│ --run-model -rm TEXT Run mode: train or test [default: train] │
│ --config-path -cp TEXT config file path [default: config/config.toml] │
│ --checkpoint-path -ckp TEXT The checkpoint save path [default: data/10_checkpoint_test] │
│ --result-path -rp TEXT The result save path [default: data/11_train_result] │
│ --trained-agent-path -tap TEXT Only used in test mode, the path of trained agent [default: None. Can be changed to data/05_train_model_output OR data/06_train_checkpoint] │
│ --help Show this message and exit. │
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯
Пример использования:
python run.py sim --market-data-path data/03_model_input/tsla.pkl --start-time 2022-06-30 --end-time 2022-10-11 --run-model train --config-path config/tsla_tgi_config.toml --checkpoint-path data/06_train_checkpoint --result-path data/05_train_model_output
Также имеются функции контрольных точек. Для получения более подробной информации посетите репозиторий FinMem.
Если вы используете PIXIU в своей работе, пожалуйста, цитируйте нашу статью.
@misc{xie2023pixiu,
title={PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance},
author={Qianqian Xie and Weiguang Han and Xiao Zhang and Yanzhao Lai and Min Peng and Alejandro Lopez-Lira and Jimin Huang},
year={2023},
eprint={2306.05443},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{xie2024FinBen,
title={The FinBen: An Holistic Financial Benchmark for Large Language Models},
author={Qianqian Xie and Weiguang Han and Zhengyu Chen and Ruoyu Xiang and Xiao Zhang and Yueru He and Mengxi Xiao and Dong Li and Yongfu Dai and Duanyu Feng and Yijing Xu and Haoqiang Kang and Ziyan Kuang and Chenhan Yuan and Kailai Yang and Zheheng Luo and Tianlin Zhang and Zhiwei Liu and Guojun Xiong and Zhiyang Deng and Yuechen Jiang and Zhiyuan Yao and Haohang Li and Yangyang Yu and Gang Hu and Jiajia Huang and Xiao-Yang Liu and Alejandro Lopez-Lira and Benyou Wang and Yanzhao Lai and Hao Wang and Min Peng and Sophia Ananiadou and Jimin Huang},
year={2024},
eprint={2402.12659},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
PIXIU имеет лицензию [MIT]. Более подробную информацию можно найти в файле MIT.