金融文本分析测评：Llama 3是最强开源模型吗？

高智威，王小康量化智投

一、测评背景及设定

1. 国金金工金融文本解析应用评估体系

2. 测评选用开源大模型

二、测评结果对比

1. 结果汇总

2. 回答原文

风险提示

摘要

■ 投资逻辑

Llama3发布迎来广泛关注

近日，Meta重磅推出了Llama 3大模型，一度被评为最强开源模型。当前的8B版本模型在五项基准上得分超过了Gemma 7B-1t和Mistral 7B Instruct。Llama 3 70B三项基准超过Gemini Pro 1.5和Claude 3 Sonnet。

在模型架构方面，Llama 3采用了相对标准的Decoder-Only Transformer架构，使用128K的tokenizer，能够有效地编码语言。数据层面上，使用了超过15T的token进行预训练，是Llama 2的7倍。并在8192个token的序列上对模型进行训练，使用掩码来确保自注意力不会跨越文档边界。此外，为了应对多语言使用情况，Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据，涵盖 30 多种语言。

除了目前已经推出的Llama 3 8B和70B之外，Meta官方表示，未来将会推出400B+版本，有望能达到GPT4同样的水准。

GPT4模型依旧领先，期待后续Llama 3 400B版本有所提升

我们针对目前市场上主流的开源模型及GPT进行测评对比，以二级市场投研的视角评判并分析各开源模型的优劣，以给投资者选择模型进行部署使用时提供参考依据。

我们共选择5篇来自不同行业的个股研报，设计3个不同角度的问题：作者对该股票的看好程度、公司技术优势以及政策对行业产生影响。发现：Llama 3在回答时无法全部使用中文回答，且部分回答的引用内容和逻辑推理过于牵强，与人类的一般判断标准具有一定偏差。而InternLM回答错误率明显更高，在多个问题上拒绝回答。在涉及行业技术壁垒的问题上，多次错误引用、错误推导，会给用户使用带来一定困扰。相较而言，ChatGLM 3和Qwen国产开源大模型表现出色，大部分回答对于文本的引用全面、清晰富有条理，能准确判断用户意图和文本观点，具有较高的可信度和参考价值，是部署开源大模型的较好选择。

GPT4在所有模型中拔得头筹，在所有的判断类问题中均能完整、准确地分析文本中所涉及内容，其推理过程和判断标准也与人类最为相近。对于部分大模型在回答某些问题时存在的“无中生有”倾向，GPT4对于文中未提及内容会直接给出否定回答，具有相对客观的回答标准。

风险提示

1. 大模型回答具有一定随机性，每次回答无法保证结果完全一致，需要人为辅助判断作为决策依据。

2. 本文涉及测评问题未针对模型擅长领域调整，可能存在不同领域下模型表现相对优劣出现变化。

正文

一、测评背景及设定

近日，Meta重磅推出了Llama 3大模型，一度被评为最强开源模型。在模型架构方面，Llama 3采用了相对标准的Decoder-Only Transformer架构，使用128K的tokenizer，能够有效地编码语言。数据层面上，使用了超过15T的token进行预训练，是Llama 2的7倍。并在8192个token的序列上对模型进行训练，使用掩码来确保自注意力不会跨越文档边界。此外，为了应对多语言使用情况，Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据，涵盖 30 多种语言。

除了目前已经推出的Llama 3 8B和70B之外，Meta官方表示，未来将会推出400B+版本。而当前的8B版本模型在五项基准上得分超过了Gemma 7B-1t和Mistral 7B Instruct。Llama 3 70B三项基准超过Gemini Pro 1.5和Claude 3 Sonnet。

不过该模型一个明显的缺陷在于上下文窗口仅有8K，落后于行业内的平均水平。当面对较长的多轮问答任务或基于长文本进行分析总结类的任务时，模型的表现可能会受到影响。

在本篇报告中，我们将针对目前市场上主流的开源模型进行测评对比，以二级市场投研的视角评判并分析各开源模型的优劣，以给投资者选择模型进行部署使用时提供参考依据。

1.国金金工金融文本解析应用评估体系

在投资研究领域，大模型的一个重要应用场景是针对海量的信息及文本进行针对性地提炼总结信息、分析作者的观点、并对投资者关心的问题快速定位给出答案。因此，我们设计了基于研报读取问答场景下的三个问题，对所测评开源大模型使用相同的提示词分别提问，最终评判各模型在相应任务上的表现。

以下为我们设计的金融文本应用评估体系主要内容：

考虑到目前大模型在面对复杂问题时的有限能力，确保模型的思考角度与我们预期一致，我们对三个问题均使用One-Shot或Few-Shot的方式设计提示词以提升模型回答准确度。此外，为确保使模型回答具有一定区分度，同时为保证回答的分布均衡性，我们共搜集了5篇国金证券研究所发布的个股研报摘要，研报文本内容在上述方面具有一定差异性，从而进行评估对比。

由上表可以看出，5篇研报选自5个不同行业，涉及不同的研究框架和投资逻辑。且部分研报有明确提示公司的相关技术积累和政策影响，如华东医药的“生物药和小分子创新产品”、唐山港涉及的“港口整合”和“北煤南运”政策、江苏国信设计的“保供政策”等。因此，我们以上述研报文本作为大模型评测基准，尝试区分不同模型的文本信息提取能力。

2.测评选用开源大模型

在ChatGPT发布以来，国内外众多厂商推出了自己的大语言模型。其中，开源模型是指将模型的参数权重文件完全公开，以供用户进行本地部署、微调、二次开发等。通过开源的方式，厂商可以轻松搭建起围绕该模型的应用生态，众多基于大模型进行二次开发的应用能不断提升模型的影响力，从而降低其后续的训练成本。

对于投资者而言，使用本地部署的开源大模型可以保证数据的隐私安全，同时能够在自己的终端上随时随地无限制使用大模型进行问答。在本文中，我们将主流的开源大模型以及ChatGPT3.5、GPT4放在一起共同对比。

二、测评结果对比

1.结果汇总

由于大模型回答语句无固定格式，我们将所有模型主要答案整理如下：

在上表中，我们将明显错误的答案标红处理。打分回答由于具有较强的主观性，我们不再对打分准确性做判断。不过可以看出，由于研报文本天然的乐观倾向，即便我们在提示词中已经要求模型对细微用语差异进行判别，但模型依然难以准确区分研报作者的看好程度，绝大部分模型所给出评分都较相近，其中Baichuan和InternLM给分会普遍偏低一些。

此外，我们统计各模型对于技术水平和行业政策影响问题的判断结果，可以发现InternLM在技术水平的判断上极易给出“是”的回答，而Qwen则过于保守。政策影响问题上，除InternLM和Llama 3外，其余模型回答准确率尚可。

就具体回答质量和准确性来看：

InternLM出现了多个涉及到行业政策影响问题无法回答的情况，对于无法得到准确答案的问题，该模型倾向于拒绝作答。而在关于公司技术水平及行业壁垒的问题中，该模型也出现了多次回答错误，与事实不符。如，唐山港报告中并未提及公司有明确的技术领先地位，但模型回答“公司所在的港口行业经历了多次整合，这有助于改善竞争格局并提高装卸费率，这些因素表明该公司具有一定的技术壁垒和技术护城河。”，另外针对江苏国信的报告，模型回答“公司通过规模、资源整合、技术创新和风险管理等方面的努力，可以在一定程度上建立起竞争优势和防御机制，从而形成一定程度的“技术壁垒”或“技术护城河””。此类回答对于期望使用大模型进行快速研报读取或信息提取工作的投资者而言，存在较大的误导可能性。
近期备受关注的Llama 3模型表现也不尽如人意，其回答错误率在所有模型中处于较高水平。且该模型无法使用中文进行完整回答，使用体验受到一定程度影响。在对于江苏国信的报告关于技术水平的提问中，模型回答“The company's ability to reduce costs through improved coal procurement and increased use of long-term coal contracts suggests a high level of technical and operational capabilities.”错将运营能力与技术水平混为一谈，理由过于牵强。而在完美世界得到报告关于政策影响的问题中，GPT模型能正确定位“版号发放政策”进行回答，而Llama 3未能正确判断，“The report does not mention any specific government policies or regulations that could impact the company's operations or the industry as a whole.”。
GPT4依然“遥遥领先”，在所有的判断类问题中均能完整、准确地分析文本中所涉及内容，其推理过程和判断标准也与人类最为相近。我们发现，部分大模型在回答某些问题时，有“无中生有”的倾向，更有可能给出肯定答案。在仲景食品的报告关于相关政策影响的问题中，部分模型“自由发挥”：“公司在调味食品和调味配料方面的业务发展，这些都与人们的日常生活息息相关，因此政府的食品安全法规、消费者保护政策等相关政策可能会对行业的竞争格局和发展方向产生影响。”或“政府可能通过某种形式促进了企业在线线下的融合，比如鼓励数字化转型或者是通过促销活动促进春节期间的消费需求。这样的政策对行业竞争格局产生了积极影响，使得公司能够在多个渠道快速响应消费者需求，同时应对节假日效应带来的机遇”。而GPT4对于文中未提及内容直接给出否定回答，“没有明显的迹象表明政府政策直接影响了该上市公司所处的调味食品行业的竞争格局或未来发展方向”。

2.回答原文

由于对比模型较多，此处仅展示部分模型部分问题的回答结果：