香港科技大学工商管理学院(科大商学院)研究团队成功开发本港首个专为金融界而设、应用于生成式人工智能(生成式AI)的开源大语言模型 — 「InvestLM」,可就金融相关题目跟用户对话,响应质素更可媲美知名商业聊天机器人,包括OpenAI旗下 的ChatGPT。研究团队已公开该模型参数[i]及开发过程所得见解,以支持业界及研究人员应用大语言模型相关技术。
建基于拥有逾数十亿甚至百亿个参数大语言模型(LLM)的AI聊天机器人,在处理不同类型的实时文本生成任务有出色表现。由于开发大语言模型需要动用庞大资源,通常需要大企业才能应付,而年初面世的开源大语言模型改变有关情况,让算力资源有限的群体也能根据自身需求训练大语言模型。
科大商学院研究团队通过指令微调技术[ii](instruction-finetuning),利用经精选的广泛类型财经问答文本[iii]对开源基础通用大语言模型LLaMA-65B[iv] 进行训练,开发出先进[v]的财经领域开源大语言模型。研究团队指出,「InvestLM」的表现获包括对冲基金经理及财经分析师的金融专家评为可媲美最先进商用大语言模型,如GPT-3.5、GPT-4和Claude-2等[vi],印证「InvestLM」在理解金融文本的强大能力,同时具备提高金融专业人士工作效率的潜力,包括提供投资意见、撮写财经文章、从文件报告中提取数据和总结等。相对于基础通用大型语言模型LLaMA-65B,「InvestLM」在控制输出「人工智能幻觉」内容方面有更好的表现。
科大商学院院长谭嘉因教授表示:「金融机构内部开发大语言模型,有助透过应用生成式AI取得竞争优势,同时确保对专有数据及客户数据有较佳管控。科大在拥抱生成式AI方面走在香港高等教育界前列,商学院这个大语言模型项目,不但为金融界于这发展迅速领域开展创新应用带来启发,更将性能卓越的财经大语言模型开放予各界使用。」
研究团队成员之一、科大商学院信息、商业统计及营运学系副教授杨毅表示:「金融领域的大语言模型,有的因属于企业专有而未有公开,有的则质素偏低。据我们所知,『InvestLM』为首个开源财经领域大语言模型,获金融界专业人士评为能够按金融文本提供投资相关响应。通过分享针对生成金融文本对基础模型进行微调所得的见解,期望这项目能够为金融及其他领域的人士提供有用参考,以助把握生成式AI的潜力。」
研究团队发现,相对于使用大量的通用指令训练大语言模型,以领域特定(domain-specific)的高质素指令训练大语言模型,对提高模型处理领域特定任务的能力更为有效;在算力有限的情况下,模型开发者通常使用规模较小的大语言模型作训练,而弃用较大的模型。团队亦发现,对于采用指令微调提升规模较小的大语言模型表现,成效高于规模较大的大语言模型。[vii]
有关InvestLM开发的更多资料,可参阅题为「InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning」的研究论文,网址为https://arxiv.org/abs/2309.13064。InvestLM的模型参数可于https://github.com/AbaciNLP/InvestLM下载。[viii]
关于香港科技大学
香港科技大学(科大)(https://www.hkust.edu.hk/) 是国际知名的研究型大学,其科学、工程、商业管理及人文社会科学领域,均臻达世界一流水准。科大校园国际化,提供全人教育及跨学科研究,培育具国际视野、创业精神及创新思维的优秀人才。逾八成的科大研究,于香港的大学教育资助委员会「2020研究评审工作」被评为「国际卓越」或「世界领先」水平。我们于最新的《泰晤士高等教育全球年轻大学排名榜2023》中排行第二,而科大的毕业生在2023年度的全球大学就业能力排名第29位,位于亚洲院校前列。截至2023年9月,科大成员共创立了1,747间至今活跃的初创公司,当中包括9间独角兽企业和13间成功退场的公司(上市集资或被并购),合共创造了逾4,000亿港元的经济效益。投资推广署早前引用「2021年QS世界大学学科排名」,展示跻身全球百大的五所本地大学在多个创新领域的表现,当中科大在四个工程与材料科学领域的排名为本地大学之首。
关于香港科大商学院
香港科技大学工商管理学院(香港科大商学院)是一所年轻、创新和致力推动全球商学教育的学府。其卓越的研究成就和高质教学课程,广获各界认同,并于全球排名榜上名列前茅。有关商学院更多资料,请浏览https://bm.hkust.edu.hk。
[i] 模型参数是模型在训练过程中学习的数字,用于预测文本。参数亦可视为权重,控制模型处理生成文本任务时如何按输入产生输出。模型参数是参数模型能够从数据中学习,并执行各种自然语言处理任务的核心构件,故对于实现建基于大语言模型的聊天机器服务十分重要。一般而言,模型参数越多,即模型规模越大,质素亦越高,但数据运算量亦会较多。
[ii] 预训练及微调是训练大语言模型的两类技术。预训练是用一般性文本语料库训练模型,而微调是让大语言模型适应特定任务或数据集。预训练一般需要长时间以及大量算力。
[iii] 用于训练InvestLM的数据集涵盖广泛金融相关题目,包括特许金融分析师(CFA)考试题目、教科书、学术期刊、SEC申报文件、Stackexchange量化金融讨论、财经相关自然语言处理任务,以及投资问题。
[iv] LLaMA-65B是由Meta公司开发及发布的先进基础大语言模型,具备650亿个参数。
[v] 研究团队曾进行评估,比较InvestLM与其他大语言模型的性能,包括两个经指令微调的模型﹐即OpenAI的GPT-3.5及GPT-4;两个金融领域大语言模型,即BloombergGPT(一个500亿参数的基础模型)及FinMA(一个经指令微调、建基于LLaMA-7B的模型),以及基础模型LLaMA-65B(InvestLM建基于此模型)。在评估的九项任务中,GPT-4于六项表现最佳,而InvestLM则于两项表现最佳,可见GPT-4是最先进的商业大语言模型。
[vi] 商用模型的输出是在2023年8月获得。
[vii] 相对于较大的LLaMA-65B(一个拥有650亿参数的大语言模型),领域指令微调能为较小的LLaMA-7B(一个有70亿参数的大语言模型)带来的改进更加明显。换言之,倘因算力所限未能应用LLaMA-65B模型,而需要用较小模型,领域指令微调对优化这类较小的模型﹐可发挥更大的作用。
[viii] InvestLM采用与LLaMA相同的许可条款,即仅用于非商业及研究用途。
传媒查询:
香港科大商学院
李应权
电话: (852) 3469 2090
电邮:dannyyklee@ust.hk