Pixiu Paper | FinBen Leaderboard
- PIXIU: A Comprehensive Benchmark, Instruction Dataset and Large Language Model for Finance
- The FinBen: An Holistic Financial Benchmark for Large Language Models
- No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks
- Dólares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English
评估 (更多详情,请参阅FinBen部分):
FinBen_ZH 是一项专注于中文金融领域的基石计划,旨在促进专为中文金融环境定制的大型语言模型(LLMs)的进展、完善和评估。FinBen_ZH 是 PIXIU 更大范围工作的一个重要部分,证明了我们在利用 LLMs 能力方面的承诺,确保中文世界的金融专业人士和爱好者拥有顶级的语言工具。
- 公开资源: PIXIU 公开提供财务 LLM、教学调整数据和评估基准中的数据集,以鼓励公开研究和透明度。
- 多任务: PIXIU 中的指令调整数据和基准涵盖了一系列不同的金融任务。
- 多模态: PIXIU 的指令调整数据和基准由多模态金融数据组成,包括股票走势预测任务的时间序列数据。它涵盖各种类型的金融文本,包括报告、新闻报道、推特和监管文件。
- 多样性: 与以往主要侧重于金融 NLP 任务的基准不同,PIXIU 的评估基准包括与真实世界场景相一致的关键金融预测任务,因此更具挑战性。
在本节中,我们将提供 FinMA 与其他领先模型(包括 ChatGPT、GPT-4、ince-zero 等)相比的详细性能分析。为了进行分析,我们选择了一系列任务和指标,涵盖了金融自然语言处理和金融预测的各个方面。
数据 | 任务类型 | 原始数据 | 数据类型 | 模式 | 许可证 | 论文 |
AFQMC | 语义匹配 | 38,650 | 提问数据, 对话 | 文本 | Apache-2.0 | [1] |
corpus | 语义匹配 | 120,000 | 提问数据, 对话 | 文本 | Public | [2] |
stockA | 股票分类 | 14,769 | 新闻, 历史价格 | 文本, 时间序列 | Public | [3] |
Fineval | 多项选择 | 1,115 | 金融考试 | 文本 | Apache-2.0 | [4] |
NL | 新闻分类 | 7,955 | 新闻报道 | 文本 | Public | [5] |
NL2 | 新闻分类 | 7,955 | 新闻报道 | 文本 | Public | [5] |
NSP | 负面新闻判断 | 4,499 | 新闻、社交媒体文本 | 文本 | Public | [5] |
RE | 关系识别 | 14,973 | 新闻、实体对 | 文本 | Public | [5] |
FE | 情感分析 | 18,177 | 金融社交媒体文本 | 文本 | Public | [5] |
stockB | 情感分析 | 9,812 | 金融社交媒体文本 | 文本 | Apache-2.0 | [6] |
QA | 金融问答 | 22,375 | 财经新闻公告 | 文本, 表格 | Public | [5] |
NA | 文本摘要 | 32,400 | 新闻文章、公告 | 文本 | Public | [5] |
19CCKS | 事件主体提取 | 156,834 | 新闻报道 | 文本 | CC BY-SA 4.0 | [7] |
20CCKS | 事件主体提取 | 372,810 | 新闻报道 | 文本 | CC BY-SA 4.0 | [8] |
21CCKS | 事件因果关系抽取 | 8,000 | 新闻报道 | 文本 | CC BY-SA 4.0 | [9] |
22CCKS | 事件主体提取 | 109,555 | 新闻报道 | 文本 | CC BY-SA 4.0 | [10] |
NER | 命名实体识别 | 1,685 | 新闻报道 | 文本 | Public | [11] |
FPB | 情感分析 | 4,845 | 新闻 | 文本 | MIT license | [12] |
FIQASA | 情感分析 | 1,173 | 新闻头条、推文 | 文本 | MIT license | [12] |
Headlines | 新闻标题分类 | 11,412 | 新闻头条 | 文本 | MIT license | [12] |
BigData | 股票走势预测 | 7,164 | 推文、历史价格 | 文本, 时间序列 | MIT license | [12] |
ACL | 股票走势预测 | 27,053 | 推文、历史价格 | 文本, 时间序列 | MIT license | [12] |
CIKM | 股票走势预测 | 4,967 | 推文、历史价格 | 文本, 时间序列 | MIT license | [12] |
FinQA | 金融问答 | 14,900 | 收益报告 | 文本, 表格 | MIT license | [12] |
ConvFinQA | 多轮问答 | 48,364 | 收益报告 | 文本, 表格 | MIT license | [12] |
git clone https://github.com/TheFinAI/PIXIU.git --recursive
pip install -r requirements.txt
cd PIXIU/src/financial-evaluation
pip install -e .[multilingual]
sudo bash scripts/docker_run.sh
以上命令会启动一个 docker 容器,你可以根据自己的环境修改 docker_run.sh
。我们通过运行 sudo docker pull tothemoon/pixiu:latest
docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \
--network host \
--env https_proxy=$https_proxy \
--env http_proxy=$http_proxy \
--env all_proxy=$all_proxy \
--env HF_HOME=$hf_home \
-it [--rm] \
--name pixiu \
-v $pixiu_path:$pixiu_path \
-v $hf_home:$hf_home \
-v $ssh_pub_key:/root/.ssh/authorized_keys \
-w $workdir \
$docker_user/pixiu:$tag \
[--sshd_port 2201 --cmd "echo 'Hello, world!' && /bin/bash"]
: huggingface 缓存目录sshd_port
: 容器的 sshd 端口,可以运行ssh -i private_key -p $sshd_port root@$ip
来连接容器,默认为 22001--rm
: 退出容器时移除容器(即CTRL + D
在评估前, 请下载 punto de control BART 到 src/metrics/BARTScore/bart_score.pth
Transformador Huggingface
要评估 HuggingFace Hub 上托管的模型(例如,finma-7b-full),请使用此命令:
python eval.py \
--model "hf-causal-llama" \
--model_args "use_accelerate=True,pretrained=TheFinAI/finma-7b-full,tokenizer=TheFinAI/finma-7b-full,use_fast=False" \
--tasks "flare_ner,flare_sm_acl,flare_fpb"
更多详情,请参阅 lm_eval 文档。
- 商用接口
请注意,对于 NER 等任务,自动评估是基于特定模式进行的。这可能无法提取零镜头设置中的相关信息,导致性能相对低于之前的人工标注结果。
python eval.py \
--model gpt-4 \
--tasks flare_ner,flare_sm_acl,flare_fpb
title={PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance},
author={Qianqian Xie and Weiguang Han and Xiao Zhang and Yanzhao Lai and Min Peng and Alejandro Lopez-Lira and Jimin Huang},
title={The FinBen: An Holistic Financial Benchmark for Large Language Models},
author={Qianqian Xie and Weiguang Han and Zhengyu Chen and Ruoyu Xiang and Xiao Zhang and Yueru He and Mengxi Xiao and Dong Li and Yongfu Dai and Duanyu Feng and Yijing Xu and Haoqiang Kang and Ziyan Kuang and Chenhan Yuan and Kailai Yang and Zheheng Luo and Tianlin Zhang and Zhiwei Liu and Guojun Xiong and Zhiyang Deng and Yuechen Jiang and Zhiyuan Yao and Haohang Li and Yangyang Yu and Gang Hu and Jiajia Huang and Xiao-Yang Liu and Alejandro Lopez-Lira and Benyou Wang and Yanzhao Lai and Hao Wang and Min Peng and Sophia Ananiadou and Jimin Huang},
PIXIU 采用 [MIT] 许可。有关详细信息,请参阅 MIT 文件。