Pixiu 종이 FinBen 리더보드 |
부인 성명
이 저장소와 그 내용은 학문적, 교육적 목적으로만 제공됩니다. 내용의 정확성, 완전성 또는 유용성에 대해 명시적이든 묵시적이든 어떠한 보증도 제공되지 않습니다. 기여자는 여기에 있는 정보의 사용으로 인해 발생하는 모든 오류, 누락 또는 결과에 대해 책임을 지지 않습니다. 사용자는 소프트웨어 및 정보의 사용에 대해 스스로 판단하고 전문가와 상담해야 합니다. 이 저장소에 포함된 것은 전적으로 사용자 자신의 책임입니다.
이 저장소의 정보를 사용하거나 액세스함으로써 귀하는 모든 청구 또는 손해로부터 작성자, 기여자 및 관련 조직이나 개인을 면책하고 방어하며 해를 끼치지 않을 것에 동의합니다.
? 업데이트(날짜: 2023년 9월 22일)
우리는 "PIXIU: 금융을 위한 종합 벤치마크, 명령 데이터 세트 및 대규모 언어 모델"이라는 논문이 NeurIPS 2023 트랙 데이터 세트 및 벤치마크에 승인되었음을 발표하게 되어 매우 기쁩니다!
? 업데이트(날짜: 2023년 10월 8일)
? 이제 중국어와 스페인어를 모두 지원하는 향상된 FinBen 버전을 공유하게 된 것을 자랑스럽게 생각합니다!
? 업데이트 (날짜: 2024년 2월 20일)
? 우리의 논문 "FinBen: 대규모 언어 모델을 위한 전체적인 재무 벤치마크"가 이제 FinBen에서 제공된다는 소식을 공유하게 되어 기쁘게 생각합니다.
? 업데이트(날짜: 2024년 5월 2일)
? IJCAI2024 챌린지인 "대형 언어 모델의 재정적 과제 - FinLLM"에 귀하를 초대하게 된 것을 기쁘게 생각합니다. 스타터 키트는 스타터 키트에서 제공됩니다.
체크포인트:
언어
서류
평가 :
감성분석
분류
지식 추출
숫자 이해
텍스트 요약
신용 점수
예측
PIXIU 프로젝트에 오신 것을 환영합니다! 이 프로젝트는 금융 도메인에서 LLM(대형 언어 모델)의 개발, 미세 조정 및 평가를 지원하도록 설계되었습니다. PIXIU는 금융 도메인에서 LLM의 힘을 이해하고 활용하기 위한 중요한 단계입니다. .
리포지토리는 여러 가지 주요 구성 요소로 구성되어 있으며 각 구성 요소는 금융 NLP 파이프라인에서 고유한 목적을 수행합니다.
FinBen : 금융 언어 이해 및 예측 평가 벤치마크 FinBen은 다양한 금융 상황에 대한 이해 및 예측 작업에 중점을 두고 금융 LLM을 위한 평가 제품군 역할을 합니다.
FIT : 금융 지침 데이터 세트 FIT는 금융 업무에 맞게 특별히 제작된 다중 작업 및 다중 모드 교육 데이터 세트입니다. 이는 이러한 작업을 위한 LLM 미세 조정을 위한 교육 기반 역할을 합니다.
FinMA : 금융용 대형 언어 모델(LLM) FinMA는 금융 업무에 대한 학습 및 예측 능력을 제공하는 프로젝트의 핵심입니다.
공개 리소스 : PIXIU는 공개 연구와 투명성을 장려하기 위해 평가 벤치마크에 포함된 재무 LLM, 교육 튜닝 데이터 및 데이터 세트를 공개적으로 제공합니다.
멀티태스크 : PIXIU의 명령 튜닝 데이터 및 벤치마크는 4개의 금융 NLP 작업과 1개의 금융 예측 작업을 포함하여 다양한 재무 작업 세트를 다룹니다.
다중 양식 : PIXIU의 명령 튜닝 데이터 및 벤치마크는 주식 이동 예측 작업의 시계열 데이터를 포함한 다중 양식 재무 데이터로 구성됩니다. 이는 보고서, 뉴스 기사, 트윗 및 규제 서류를 포함한 다양한 유형의 금융 텍스트를 포함합니다.
다양성 : 주로 금융 NLP 작업에 초점을 맞춘 이전 벤치마크와 달리 PIXIU의 평가 벤치마크에는 실제 시나리오와 연계된 중요한 금융 예측 작업이 포함되어 있어 더욱 까다롭습니다.
이 섹션에서는 ChatGPT, GPT-4 및 BloombergGPT 등을 포함한 다른 주요 모델과 비교하여 FinMA의 자세한 성능 분석을 제공합니다. 이 분석을 위해 금융의 다양한 측면을 포괄하는 다양한 작업 및 측정항목을 선택했습니다. 자연어 처리 및 금융 예측. FinBen의 모든 모델 결과는 리더보드에서 확인할 수 있습니다!
데이터 | 일 | 날것의 | 데이터 유형 | 양식 | 특허 | 종이 |
---|---|---|---|---|---|---|
FPB | 감정 분석 | 4,845 | 소식 | 텍스트 | CC BY-SA 3.0 | [1] |
FiQA-SA | 감정 분석 | 1,173 | 뉴스 헤드라인, 트윗 | 텍스트 | 공공의 | [2] |
TSA | 감정 분석 | 561 | 뉴스 헤드라인 | 텍스트 | CC BY-NC-SA 4.0 | [3] |
FOMC | 매파-비파 분류 | 496 | FOMC 성적표 | 텍스트 | CC BY-NC 4.0 | [4] |
헤드라인 | 뉴스 헤드라인 분류 | 11,412 | 뉴스 헤드라인 | 텍스트 | CC BY-SA 3.0 | [5] |
FinArg-ECC-Task1 | 인수 단위 분류 | 969 | 실적 컨퍼런스콜 | 텍스트 | CC BY-NC-SA 4.0 | [6] |
FinArg-ECC-Task2 | 논쟁 관계 분류 | 690 | 실적 컨퍼런스콜 | 텍스트 | CC BY-NC-SA 4.0 | [6] |
멀티핀 EN | 다중 클래스 분류 | 546 | 기사 헤드라인 | 텍스트 | 공공의 | [7] |
엄마 | 거래 완전성 분류 | 500 | 뉴스 기사, 트윗 | 텍스트 | 공공의 | [8] |
멜레스겐 | ESG 이슈 식별 | 300 | 뉴스 기사 | 텍스트 | CC BY-NC-ND | [9] |
NER | 명명된 개체 인식 | 1,366 | 금융 계약 | 텍스트 | CC BY-SA 3.0 | [10] |
더 미세한 오드 | 명명된 개체 인식 | 1,080 | 뉴스 기사 | 텍스트 | CC BY-NC 4.0 | [11] |
핀레드 | 관계 추출 | 1,070 | 통화 거래 획득 | 텍스트 | 공공의 | [12] |
핀캐주얼 2020 태스크1 | 인과적 분류 | 8,630 | 뉴스 기사, SEC | 텍스트 | CC BY 4.0 | [13] |
핀캐주얼 2020 태스크2 | 인과관계 탐지 | 226 | 뉴스 기사, SEC | 텍스트 | CC BY 4.0 | [13] |
핀QA | 질문 응답 | 8,281 | 수익 보고서 | 텍스트, 표 | MIT 라이센스 | [14] |
tQA | 질문 응답 | 1,670 | 재무 보고서 | 텍스트, 표 | MIT 라이센스 | [15] |
FXL | 숫자 라벨링 | 318 | 비서 | 텍스트 | 공공의 | [16] |
FSRL | 토큰 분류 | 97 | 뉴스 기사 | 텍스트 | MIT 라이센스 | [17] |
엑스섬 | 텍스트 요약 | 495 | 통화 거래 획득 | 텍스트 | 공공의 | [18] |
EDTSUM | 텍스트 요약 | 2000 | 뉴스 기사 | 텍스트 | 공공의 | [19] |
독일 사람 | 신용 점수 | 1000 | 신용 기록 | 테이블 | CC BY 4.0 | [20] |
오스트레일리아 사람 | 신용 점수 | 690 | 신용 기록 | 테이블 | CC BY 4.0 | [스물 하나] |
렌딩클럽 | 신용 점수 | 1,3453 | 금융정보 | 테이블 | CC0 1.0 | [스물 둘] |
빅데이터22 | 주식 움직임 예측 | 7,164 | 트윗, 과거 가격 | 텍스트, 시계열 | 공공의 | [스물셋] |
ACL18 | 주식 움직임 예측 | 27,053 | 트윗, 과거 가격 | 텍스트, 시계열 | MIT 라이센스 | [스물넷] |
CIKM18 | 주식 움직임 예측 | 4,967 | 트윗, 과거 가격 | 텍스트, 시계열 | 공공의 | [25] |
ConvFinQA | 다단계 질문 답변 | 1,490 | 수익 보고서 | 텍스트, 표 | MIT 라이센스 | [26] |
신용카드 사기 | 사기 탐지 | 11,392 | 금융정보 | 테이블 | (DbCL) v1.0 | [스물 둘] |
cc 사기 | 사기 탐지 | 10,485 | 금융정보 | 테이블 | 공공의 | [스물 둘] |
광택 | 재정적 어려움 식별 | 8,681 | 재무상태 특징 | 테이블 | CC BY 4.0 | [스물 둘] |
대만경제저널 | 재정적 어려움 식별 | 6,819 | 재무상태 특징 | 테이블 | CC BY 4.0 | [스물 둘] |
포르투세구로 | 청구 분석 | 11,904 | 청구 및 금융 정보 | 테이블 | 공공의 | [스물 둘] |
여행 보험 | 청구 분석 | 12,665 | 청구 및 금융 정보 | 테이블 | (ODbL) v1.0 | [스물 둘] |
1. Pekka Malo, Ankur Sinha, Pekka Korhonen, Jyrki Wallenius 및 Pyry Takala. 2014. 좋은 부채 또는 나쁜 부채: 경제 텍스트에서 의미론적 방향 탐지 Journal of the Association for Information Science and Technology 65, 4(2014), 782 -796.
2. Macedo Maia, Siegfried Handschuh, André Freitas, Brian Davis, Ross McDermott, Manel Zarrouk 및 Alexandra Balahur. 2018. Www'18 공개 챌린지: 2018 웹 컨퍼런스의 동반 진행 과정에서. -1942.
3. Keith Cortis, André Freitas, Tobias Daudert, Manuela Huerlimann, Manel Zarrouk, Siegfried Handschuh 및 Brian Davis. 2017. SemEval-2017 작업 5: 제11차 국제 워크숍 진행 중 금융 마이크로블로그 및 뉴스에 대한 세밀한 감정 분석. 의미론적 평가(SemEval-2017) , 페이지 519-535, 캐나다 밴쿠버, 전산 언어학 협회.
4. Agam Shah, Suvan Paturi 및 Sudheer Chava 2023. 수조 달러 단어: 새로운 재무 데이터 세트, 작업 및 시장 분석. 전산 언어학 협회 제61차 연례 회의 진행 중(1권: 긴 논문) 6664-6679, 캐나다 토론토.
5. Ankur Sinha 및 Tanmay Khandait. 2021. 뉴스가 상품 시장에 미치는 영향: 데이터 세트 및 결과 정보 및 통신의 발전: 2021년 정보 통신 미래 컨퍼런스(FICC) 진행, 2권. Springer, 589– 601.
6. Chen CC, Lin CY, Chiu CJ 등 NTCIR-17 FinArg-1 개요 작업: 재무 분석의 세분화된 주장 이해[C]//정보 액세스 기술 평가에 관한 제17차 NTCIR 컨퍼런스 진행 , 일본 도쿄. 2023.
7. Rasmus Jørgensen, Oliver Brandt, Mareike Hartmann, Xiang Dai, Christian Igel 및 Desmond Elliott. 2023. MultiFin: 전산 언어학 협회 조사 결과: EACL 2023 , 페이지 894-909, Dubrovnik , 크로아티아 컴퓨터 언어학 협회.
8. Yang, L., Kenny, EM, Ng, TL, Yang, Y., Smyth, B., & Dong, R. (2020) 금융 텍스트 분류에 대한 심층 변환기에 대한 타당한 반사실 설명 생성. 언어학 .
9. Chung-Chi Chen, Yu-Min Tseng, Juyon Kang, Anaïs Lhuissier, Min-Yuh Day, Teng-Tsai Tu 및 Hsin-Hsi Chen 2023. 제5차 워크숍 진행 중 . 금융 기술 및 자연어 처리(FinNLP) 및 금융 예측을 위한 두 번째 멀티모달 AI(Muffin) .
10. Julio Cesar Salinas Alvarado, Karin Verspoor 및 Timothy Baldwin. 2015. 호주 언어 기술 협회 워크숍 2015 진행을 지원하기 위한 명명된 엔터티 인식의 도메인 적용.
11. Shah A, Vithani R, Gullapalli A, et al. Finer: 금융 명명 개체 인식 데이터세트 및 약한 감독 모델[J].
12. Sharma, Soumya 외. “FinRED: 금융 영역의 관계 추출을 위한 데이터 세트.” 웹 컨퍼런스 2022 (2022): n.
13. Dominique Mariko, Hanna Abi-Akl, Estelle Labidurie, Stephane Durfort, Hugues De Mazancourt 및 Mahmoud El-Haj 2020. 금융 문서 인과성 탐지 공유 작업(FinCausal 2020). 금융 내러티브에 관한 제1차 공동 워크숍 진행 중. 처리 및 MultiLing 재무 요약 , 23~32페이지, 스페인 바르셀로나(온라인).
14. Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan R Routledge, 외 2021. FinQA: 재무 데이터에 대한 수치 추론 데이터세트 2021년 자연어 처리의 경험적 방법에 관한 회의 진행 중. 3697-3711.
15. Zhu, Fengbin, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng 및 Tat-Seng Chua. “TAT-QA: 금융의 표 형식 및 텍스트 콘텐츠 혼합에 대한 벤치마크에 대한 질문” ArXiv abs/2105.07624 (2021): 페이지.
16. Soumya Sharma, Subhendu Khatuya, Manjunath Hegde, Afreen Shaikh, Koustuv Dasgupta, Pawan Goyal 및 Niloy Ganguly. 2023. 재무 수치 극단적 라벨링: 전산 언어학 협회 조사 결과: ACL 2023 , 3550페이지. –3561, 캐나다 토론토 언어학.
17. Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky 및 Percy Liang 2018. 텍스트 유추 분석: 유사한 사실 사이에서 공유되는 것과 비교되는 것 2018년 자연어 처리의 실증적 방법 회의 진행 중 82-92, 벨기에 브뤼셀. 전산 언어학 협회.
18. Rajdeep Mukherjee, Abhinav Bohra, Akash Banerjee, Soumya Sharma, Manjunath Hegde, Afreen Shaikh, Shivani Shrivastava, Koustuv Dasgupta, Niloy Ganguly, Saptarshi Ghosh 및 Pawan Goyal 2022. ECTSum: Long의 글머리 기호 요약을 위한 새로운 벤치마크 데이터 세트. 수입 통화 기록. 2022년 자연어 처리의 경험적 방법에 관한 회의 간행물 , 페이지 10893-10906, 아부다비, 아랍에미리트 전산 언어학 협회.
19. Zhihan Zhou, Liqian Ma 및 Han Liu 2021. 이벤트 거래: 뉴스 기반 이벤트 중심 거래를 위한 기업 이벤트 감지. 전산 언어학 협회 조사 결과: ACL-IJCNLP 2021 , 페이지 2114-2124, 온라인 전산언어학협회.
20. Hofmann, Hans(1994). Statlog(독일 신용 데이터) https://doi.org/10.24432/C5NC77.
21. Quinlan, Ross. Statlog(호주 신용 승인) https://doi.org/10.24432/C59012.
22. Duanyu Feng, Yongfu Dai, Jimin Huang, Yifang Zhang, Qianqian Xie, Weiguang Han, Alejandro Lopez-Lira, Hao Wang. 2023. 많은 사람에게 권한을 부여하고 소수에게 편향: 대규모 언어 모델을 통한 일반 신용 점수 산정 ArXiv abs/2310.00566 ( 2023): n.
23. 손예준, 유재민, 조민용, 전지형, 강우. 2022. 2022년 IEEE 빅 데이터 국제 컨퍼런스(빅 데이터)에서 자기 지도 학습을 통한 정확한 주가 변동 예측. -1700.
24. Yumo Xu 및 Shay B Cohen, 2018년. 트윗 및 과거 가격을 통한 주식 변동 예측. 제56차 전산언어학 회의록(1권: 긴 논문).
25. Huizhe Wu, Wei Zhang, Weiwei Shen 및 Jun Wang. 2018년. 소셜 텍스트 기반 주식 예측을 위한 하이브리드 심층 순차 모델링. 1627~1630년 정보 및 지식 관리에 관한 제27차 ACM 국제 컨퍼런스.
26. Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah 및 William Yang Wang. 2022. ConvFinQA: 2022년 자연어 실증적 방법 회의 진행 중 대화형 금융 질문 답변에서 수치 추론 사슬 탐구. 처리, 페이지 6279-6292, 아부다비, 아랍에미리트 연합. 전산언어학을 위한.
git clone https://github.com/The-FinAI/PIXIU.git --recursive
cd PIXIU
pip install -r requirements.txt
cd src/financial-evaluation
pip install -e .[multilingual]
sudo bash scripts/docker_run.sh
위 명령은 docker 컨테이너를 시작합니다. docker_run.sh
환경에 맞게 수정할 수 있습니다. sudo docker pull tothemoon/pixiu:latest
실행하여 사전 빌드된 이미지를 제공합니다.
docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864
--network host
--env https_proxy= $https_proxy
--env http_proxy= $http_proxy
--env all_proxy= $all_proxy
--env HF_HOME= $hf_home
-it [--rm]
--name pixiu
-v $pixiu_path : $pixiu_path
-v $hf_home : $hf_home
-v $ssh_pub_key :/root/.ssh/authorized_keys
-w $workdir
$docker_user /pixiu: $tag
[--sshd_port 2201 --cmd " echo 'Hello, world!' && /bin/bash " ]
인수 설명:
[]
무시할 수 있는 인수를 의미합니다.HF_HOME
: 허깅페이스 캐시 디렉토리sshd_port
: 컨테이너의 sshd 포트입니다. ssh -i private_key -p $sshd_port root@$ip
실행하여 컨테이너에 연결할 수 있습니다. 기본값은 22001입니다.--rm
: 컨테이너 종료 시 컨테이너 제거(예: CTRL + D
) 평가하기 전에 BART 체크포인트를 src/metrics/BARTScore/bart_score.pth
에 다운로드하세요.
자동 평가를 위해서는 다음 지침을 따르십시오.
허깅페이스 트랜스포머
HuggingFace Hub(예: finma-7b-full)에서 호스팅되는 모델을 평가하려면 다음 명령을 사용하세요.
python eval.py
--model " hf-causal-llama "
--model_args " use_accelerate=True,pretrained=TheFinAI/finma-7b-full,tokenizer=TheFinAI/finma-7b-full,use_fast=False "
--tasks " flare_ner,flare_sm_acl,flare_fpb "
자세한 내용은 lm_eval 문서에서 확인할 수 있습니다.
NER와 같은 작업의 경우 자동 평가는 특정 패턴을 기반으로 합니다. 이로 인해 제로 샷 설정에서 관련 정보를 추출하지 못하여 이전에 사람이 주석을 추가한 결과에 비해 상대적으로 성능이 저하될 수 있습니다.
export OPENAI_API_SECRET_KEY=YOUR_KEY_HERE
python eval.py
--model gpt-4
--tasks flare_ner,flare_sm_acl,flare_fpb
추론 백엔드를 실행하려면:
bash scripts/run_interface.sh
환경 요구 사항에 따라 run_interface.sh를 조정하십시오.
평가하려면:
python data/ * /evaluate.py
FinBen을 위한 새 작업을 생성하려면 Huggingface 데이터세트를 생성하고 Python 파일에 작업을 구현해야 합니다. 이 가이드는 FinBen 프레임워크를 사용하여 새 작업을 설정하는 각 단계를 안내합니다.
데이터세트는 다음 형식으로 생성되어야 합니다.
{
"query" : "..." ,
"answer" : "..." ,
"text" : "..."
}
이 형식에서는:
query
: 프롬프트와 텍스트의 조합answer
: 당신의 레이블다중 회전 작업(예:)
분류 작업(예: FPB(FinBen_fpb))의 경우 추가 키를 정의해야 합니다.
choices
: 라벨 세트gold
: 선택 항목에서 올바른 라벨의 인덱스(0부터 시작)순차적 라벨링 작업(예: Finer Ord(FinBen_finer_ord))의 경우 추가 키를 정의해야 합니다.
label
: 토큰 라벨 목록
token
: 토큰 목록
추출적 요약 작업(예: ECTSUM(FinBen_ectsum))의 경우 추가 키를 정의해야 합니다.
label
: 문장 라벨 목록추상적인 요약 및 질문 응답 작업(예: EDTSUM(FinBen_edtsum))의 경우 추가 키를 정의하면 안 됩니다.
데이터세트가 준비되면 작업 구현을 시작할 수 있습니다. 작업은 Flare.py의 새 클래스 또는 작업 디렉터리에 있는 다른 Python 파일 내에서 정의되어야 합니다.
다양한 작업을 처리하기 위해 Classification
, SequentialLabeling
, RelationExtraction
, ExtractiveSummarization
, AbstractiveSummarization
및 QA
포함한 여러 가지 특수 기본 클래스를 제공합니다.
예를 들어 분류 작업을 시작하는 경우 Classification
기본 클래스를 직접 활용할 수 있습니다. 이 클래스를 사용하면 효율적이고 직관적인 작업 생성이 가능합니다. 이를 더 잘 설명하기 위해 FinBen-FPB를 사용하여 작업을 만드는 예를 살펴보겠습니다. Classification
기본 클래스:
class flareFPB ( Classification ):
DATASET_PATH = "flare-fpb"
이것이 전부입니다! 작업 클래스를 생성한 후 다음 단계는 이를 src/tasks/__init__.py
파일에 등록하는 것입니다. 이렇게 하려면 "task_name": module.ClassName
형식에 따라 새 줄을 추가하세요. 수행 방법은 다음과 같습니다.
TASK_REGISTRY = {
"flare_fpb" : flare . FPB ,
"your_new_task" : your_module . YourTask , # This is where you add your task
}
일 | 미터법 | 삽화 |
---|---|---|
분류 | 정확성 | 이 측정항목은 총 관측값에 대한 올바르게 예측된 관측값의 비율을 나타냅니다. 이는 (참양성 + 참음성) / 총 관측값으로 계산됩니다. |
분류 | F1 점수 | F1 점수는 정밀도와 재현율의 조화 평균을 나타내므로 이 두 요소 사이에 균형이 형성됩니다. 이는 한 요소가 다른 요소보다 더 큰 의미를 갖는 시나리오에서 특히 유용하며, 1은 완벽한 정밀도를 나타냅니다. 그리고 0은 최악의 경우를 나타냅니다. 또한 F1 점수의 '가중치' 버전과 '매크로' 버전을 모두 제공합니다. |
분류 | 누락비율 | 이 측정항목은 작업의 지정된 선택 항목에서 옵션이 반환되지 않은 응답의 비율을 계산합니다. |
분류 | 매튜스 상관계수(MCC) | MCC는 이진 분류의 품질을 평가하는 측정항목으로 -1에서 +1 사이의 점수를 생성합니다. 점수가 +1이면 완벽한 예측을 나타내고, 0은 무작위 확률보다 나을 것이 없는 예측을 나타내고, -1은 완전히 역전됨을 나타냅니다. 예측. |
순차적 라벨링 | F1 점수 | 순차적 라벨링 작업의 맥락에서 우리는 강력한 엔터티 수준 평가 지표인 seqeval 라이브러리에서 계산한 F1 점수를 활용합니다. 이 지표는 예측 엔터티와 실제 엔터티 간의 엔터티 범위와 유형이 모두 정확히 일치하도록 요구합니다. 올바른 평가: 참양성(TP)은 올바르게 예측된 항목을 나타내고, 거짓양성(FP)은 잘못 예측된 항목 또는 범위/유형이 일치하지 않는 항목을 나타내며, 거짓음성(FN)은 누락된 항목을 나타냅니다. 그런 다음 정밀도, 재현율 및 F1 점수가 이러한 수량을 사용하여 계산되며 F1 점수는 정밀도와 재현율의 조화 평균을 나타냅니다. |
순차적 라벨링 | 라벨 F1 점수 | 이 측정항목은 엔터티 범위를 고려하지 않고 예측된 라벨의 정확성만을 기준으로 모델 성능을 평가합니다. |
관계 추출 | 정도 | 정밀도는 모든 예측 관계 중에서 올바르게 예측된 관계의 비율을 측정합니다. 이는 참 긍정(TP) 수를 참 긍정(True Positive)과 거짓 긍정(FP)의 합으로 나누어 계산됩니다. |
관계 추출 | 상기하다 | 재현율은 모든 실제 관계 중에서 올바르게 예측된 관계의 비율을 측정합니다. 이는 참 긍정(TP) 수를 참 긍정과 거짓 부정(FN)의 합으로 나누어 계산됩니다. |
관계 추출 | F1 점수 | F1 점수는 정밀도와 재현율의 조화 평균이며 이 두 측정항목 간의 균형을 제공합니다. F1 점수는 최고 1(완벽한 정밀도 및 재현율)이고 최악은 0입니다. |
추출 및 추상 요약 | 루즈엔 | 이는 시스템 생성 요약과 참조 요약 사이의 N-그램(주어진 텍스트 샘플에서 N 항목의 연속 시퀀스)의 중첩을 측정합니다. ROUGE-1 및 참조 요약은 1, 2 이상이 될 수 있습니다. ROUGE-2는 유니그램과 바이그램 중복을 각각 평가하는 데 일반적으로 사용됩니다. |
추출 및 추상 요약 | 루즈-L | 이 메트릭은 시스템과 참조 요약 사이의 가장 긴 공통 부분 시퀀스(LCS)를 평가합니다. LCS는 문장 수준 구조 유사성을 자연스럽게 고려하고 가장 긴 동시 발생 시퀀스 n-그램을 자동으로 식별합니다. |
질문 답변 | EMACC | EMACC는 모델 생성 응답과 참조 답변 간의 정확한 일치를 평가합니다. 즉, 모델 생성 응답은 단어 대 단어로 정확히 일치하는 경우에만 올바른 것으로 간주됩니다. |
또한 클래스 정의에
LOWER_CASE
지정하여 일치 프로세스 중에 레이블을 소문자로 줄여야 하는지 결정할 수 있습니다. 이는 레이블이 특정 세트인 검사와 같은 작업의 경우 생성된 출력의 모양에 따라 일치하기 때문입니다. 'A', 'B', 'C'와 같은 대문자로 구성된 경우 일반적으로 False로 설정해야 합니다.
우리의 교육 데이터 세트는 도메인별 LLM인 FinMA에 맞춰 특별히 제작되었습니다. 이 데이터 세트는 다양한 금융 업무에 대한 모델을 세심하게 조정하기 위해 만들어졌습니다. 공개된 여러 금융 데이터 세트.
데이터 세트는 정서 분석, 뉴스 헤드라인 분류, 명명된 엔터티 인식, 질문 답변 및 주식 이동 예측을 포함한 작업을 특징으로 하며 텍스트 및 시계열 데이터 형식을 모두 다루며 다양한 금융 데이터를 제공합니다. 각 작업에 대한 구체적인 지침 프롬프트는 도메인 전문가가 신중하게 설계했습니다.
아래 표에는 다양한 작업, 해당 양식, 텍스트 유형 및 각 작업에 사용되는 지침의 예가 요약되어 있습니다.
일 | 양식 | 텍스트 유형 | 지침예제 |
---|---|---|---|
감성분석 | 텍스트 | 뉴스 헤드라인, 트윗 | "금융 뉴스 기사에서 추출한 이 진술의 감정을 분석하십시오. 부정적, 긍정적 또는 중립적 답변을 제공하십시오. 예를 들어 '스캔들 이후 회사 주가가 급락했습니다.'는 부정적인 것으로 분류됩니다. |
뉴스 헤드라인 분류 | 텍스트 | 뉴스 헤드라인 | "제목에 금 가격이 언급되어 있는지 생각해 보십시오. 뉴스 제목에 표시된 금 상품 시장에 가격이 있습니까, 없습니까? 예 또는 아니오로 대답해 주십시오." |
명명된 엔터티 인식 | 텍스트 | 금융 계약 | "US SEC 서류의 금융 계약에서 추출한 문장에서 사람('PER'), 조직('ORG') 또는 위치('LOC')를 나타내는 명명된 엔터티를 식별합니다. 필수 답변 형식은 다음과 같습니다. '엔티티 이름, 엔터티 유형'. 예를 들어 'SpaceX의 CEO인 Elon Musk가 Cape Canaveral에서 출시를 발표했습니다.'에서 엔터티는 'Elon Musk, PER Cape Canaveral, LOC'입니다. |
질문 답변 | 텍스트 | 수익 보고서 | "이 일련의 상호 연결된 금융 관련 쿼리와 회사 재무 서류의 구실, 표 데이터 및 게시물 텍스트에서 제공되는 추가 정보의 맥락에서 마지막 질문에 대한 답변을 제공하십시오. 이를 위해서는 다음에서 정보를 추출해야 할 수 있습니다. 답변을 공식화할 때 앞의 질문과 답변에 제공된 정보를 고려하십시오." |
주식 움직임 예측 | 텍스트, 시계열 | 트윗, 주가 | "정보와 소셜 미디어 게시물을 분석하여 {tid} 의 종가가 {point} 에서 오를지 내릴지 결정하세요. 상승 또는 하락으로 응답해 주세요." |
데이터 세트에는 방대한 양의 명령 데이터 샘플(136K)이 포함되어 있어 FinMA가 다양한 재무 작업의 미묘한 차이를 포착할 수 있습니다. 아래 표는 명령 데이터 세트의 통계적 세부 정보를 제공합니다.
데이터 | 일 | 날것의 | 지침 | 데이터 유형 | 양식 | 특허 | 원본 용지 |
---|---|---|---|---|---|---|---|
FPB | 감정 분석 | 4,845 | 48,450 | 소식 | 텍스트 | CC BY-SA 3.0 | [1] |
FiQA-SA | 감정 분석 | 1,173 | 11,730 | 뉴스 헤드라인, 트윗 | 텍스트 | 공공의 | [2] |
표제 | 뉴스 헤드라인 분류 | 11,412 | 11,412 | 뉴스 헤드라인 | 텍스트 | CC BY-SA 3.0 | [3] |
NER | 명명된 개체 인식 | 1,366 | 13,660 | 금융 계약 | 텍스트 | CC BY-SA 3.0 | [4] |
핀QA | 질문 응답 | 8,281 | 8,281 | 수익 보고서 | 텍스트, 표 | MIT 라이센스 | [5] |
ConvFinQA | 질문 응답 | 3,892 | 3,892 | 수익 보고서 | 텍스트, 표 | MIT 라이센스 | [6] |
빅데이터22 | 주식 움직임 예측 | 7,164 | 7,164 | 트윗, 과거 가격 | 텍스트, 시계열 | 공공의 | [7] |
ACL18 | 주식 움직임 예측 | 27,053 | 27,053 | 트윗, 과거 가격 | 텍스트, 시계열 | MIT 라이센스 | [8] |
CIKM18 | 주식 움직임 예측 | 4,967 | 4,967 | 트윗, 과거 가격 | 텍스트, 시계열 | 공공의 | [9] |
FIT(Financial Instruction Dataset)로 작업할 때는 모델 훈련 및 테스트에 대해 규정된 형식을 따르는 것이 중요합니다.
형식은 다음과 같아야 합니다.
{
"id" : " unique id " ,
"conversations" : [
{
"from" : " human " ,
"value" : " Your prompt and text "
},
{
"from" : " agent " ,
"value" : " Your answer "
}
],
"text" : " Text to be classified " ,
"label" : " Your label "
}
각 필드의 의미는 다음과 같습니다.
"대화" 목록의 첫 번째 차례는 항상 "사람"이 해야 하며 프롬프트와 텍스트가 포함되어야 합니다. 두 번째 차례는 "상담원"이 있어야 하며 답변이 포함되어야 합니다.
FinMA-7B, FinMA-7B-full, FinMA-30B 세 가지 모델을 포함하여 LLaMA 7B 및 LLaMA-30B에서 미세 조정된 FinMA-7B 및 FinMA-30B의 첫 번째 버전을 소개하게 된 것을 기쁘게 생각합니다. NLP 명령 데이터인 반면, FinMA-7B-full은 NLP와 예측 작업을 모두 다루는 FIT의 전체 명령 데이터로 훈련됩니다.
FinMA v0.1은 이제 Huggingface에서 공개적으로 사용할 수 있습니다. 우리는 이 초기 버전이 금융 NLP 분야에 기여할 것을 기대하고 사용자가 이를 다양한 금융 작업 및 시나리오에 적용하도록 권장합니다. 향후 버전을 개선하는 데 도움이 되는 경험을 제공합니다.
곧 출시됩니다.
FinMem은 재무 의사 결정을 위해 고안된 새로운 LLM 기반 에이전트 프레임워크로, 에이전트의 특성을 설명하는 프로파일링, 에이전트가 현실적인 계층적 재무 데이터 및 의사 결정을 동화하는 데 도움이 되는 메모리, , 추억에서 얻은 통찰력을 투자 결정으로 전환하기 위해 현재 FinMem은 간단한 모드 워밍업 후 단일 주식을 높은 수익으로 거래할 수 있습니다. 다음은 TSLA를 샘플로 사용하는 도킹화된 버전 프레임워크의 빠른 시작입니다. 입력.
1단계: .env
에서 환경 변수를 설정하고 필요에 따라 HUGGINGFACE TOKEN 및 OPENAI API KEY를 추가합니다.
OPENAI_API_KEY = " <Your OpenAI Key> "
HF_TOKEN = " <Your HF token> "
2단계: config.toml
에서 엔드포인트 URL 설정 엔드포인트 URL을 사용하여 선택한 모델(OPENAI, Gemini, HuggingFace의 오픈 소스 모델 등)을 기반으로 모델을 배포합니다. HuggingFace의 오픈 소스 모델의 경우 TGI 생성을 위한 한 가지 선택입니다. 엔드포인트는 RunPod를 통해 이루어집니다.
[chat]
model = " tgi "
end_point = " <set the your endpoint address> "
tokenization_model_name = " <model name> "
...
3단계: Docker 이미지 및 컨테이너 구축
docker build -t test-finmem .devcontainer/.
시작 컨테이너:
docker run -it --rm -v $( pwd ) :/finmem test-finmem bash
4단계: 시뮬레이션 시작!
Usage: run.py sim [OPTIONS]
Start Simulation
╭─ Options ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮
│ --market-data-path -mdp TEXT The environment data pickle path [default: data/06_input/subset_symbols.pkl] │
│ --start-time -st TEXT The training or test start time [default: 2022-06-30 For Ticker ' TSLA ' ] │
│ --end-time -et TEXT The training or test end time [default: 2022-10-11] │
│ --run-model -rm TEXT Run mode: train or test [default: train] │
│ --config-path -cp TEXT config file path [default: config/config.toml] │
│ --checkpoint-path -ckp TEXT The checkpoint save path [default: data/10_checkpoint_test] │
│ --result-path -rp TEXT The result save path [default: data/11_train_result] │
│ --trained-agent-path -tap TEXT Only used in test mode, the path of trained agent [default: None. Can be changed to data/05_train_model_output OR data/06_train_checkpoint] │
│ --help Show this message and exit. │
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯
사용 예:
python run.py sim --market-data-path data/03_model_input/tsla.pkl --start-time 2022-06-30 --end-time 2022-10-11 --run-model train --config-path config/tsla_tgi_config.toml --checkpoint-path data/06_train_checkpoint --result-path data/05_train_model_output
체크포인트 기능도 있습니다. 자세한 내용은 FinMem Repository를 직접 방문하세요.
PIXIU를 업무에 사용하는 경우 당사 논문을 인용해 주세요.
@misc{xie2023pixiu,
title={PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance},
author={Qianqian Xie and Weiguang Han and Xiao Zhang and Yanzhao Lai and Min Peng and Alejandro Lopez-Lira and Jimin Huang},
year={2023},
eprint={2306.05443},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{xie2024FinBen,
title={The FinBen: An Holistic Financial Benchmark for Large Language Models},
author={Qianqian Xie and Weiguang Han and Zhengyu Chen and Ruoyu Xiang and Xiao Zhang and Yueru He and Mengxi Xiao and Dong Li and Yongfu Dai and Duanyu Feng and Yijing Xu and Haoqiang Kang and Ziyan Kuang and Chenhan Yuan and Kailai Yang and Zheheng Luo and Tianlin Zhang and Zhiwei Liu and Guojun Xiong and Zhiyang Deng and Yuechen Jiang and Zhiyuan Yao and Haohang Li and Yangyang Yu and Gang Hu and Jiajia Huang and Xiao-Yang Liu and Alejandro Lopez-Lira and Benyou Wang and Yanzhao Lai and Hao Wang and Min Peng and Sophia Ananiadou and Jimin Huang},
year={2024},
eprint={2402.12659},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
PIXIU는 [MIT]에 따라 라이선스가 부여됩니다. 자세한 내용은 MIT 파일을 참조하세요.