Joseph Tsidulko | 高级撰稿人 | 2025 年 7 月 29 日
大语言模型 (LLM) 是一种日益普及的人工智能,主要用于对用户通过文本、语音或其他方式提供的输入,生成类人化的回应。LLM 基于海量文本进行训练,能够根据提示词给出的上下文预测下一个词或词组,甚至可以模仿特定作者或文体的写作风格。
2020 年代初,LLM 走出实验室,进入公众视野。凭借出色的请求理解和相关应答能力,它们既成为独立产品,也作为增值功能嵌入到业务软件中,提供自然语言处理、机器翻译、内容生成、智能对话、文档摘要等多种功能。
这项技术仍在快速迭代,通过接入更大规模数据集,并增加多层训练和调优来提升模型表现。日益强大的计算基础设施支持了更广泛、更深入的训练,使模型具备越来越成熟的推理能力,可用于制定实现组织目标的方案。这些推理能力也是 AI agent 功能的基础,AI agent 借助前沿 LLM 完成人类操作员设定的各种任务。
大语言模型是一种经过大型数据集训练的人工智能系统,其训练数据通常包含来自书籍、网络及其他来源的数十亿词汇,旨在针对查询生成贴合语境、类人化的应答。LLM 能够理解问题(在其术语中称为“提示词”)并生成自然语言回复,因此可执行多项任务,例如解答客户咨询、汇总报告信息、语言互译、创作诗歌、编写计算机代码以及草拟邮件初稿等。LLM 通常对训练所用语言的语法和语义有着精准理解,还可结合企业自有数据进行配置,提供专属于该企业的定制化应答。
尽管 LLM 具备这些出色的能力,用户仍需留意其局限性。过时的数据和表述不当的提示词都可能导致错误,例如聊天机器人给出关于企业产品的错误信息。缺乏足够的数据会导致 LLM 虚构答案,这也称为“幻觉”。此外,LLM 虽擅长预测,但以往在解释自身结论推导过程方面表现较差。这些都是新一代 LLM 力求改进的方向。
尽管如此,LLM 依然标志着自然语言处理领域的重大进步。其业务使用场景十分广泛,新的应用方案正被快速开发和采用。
关键要点
自 20 世纪 60 年代以来,自然语言处理一直是人工智能研究的活跃领域,早期语言模型的发展也已历经数十年。大语言模型通过深度学习技术推动了该领域向前发展 — 深度学习将机器学习架构于神经网络之上,从而打造出更复杂的模型。LLM 的另一大特点是,其基础模型的训练无需人工进行数据标注,这种训练方式称为自监督学习。
现代意义上的 LLM 诞生于 2017 年,Google 发表了一篇开创性的论文,提出了一种名为 Transformer 网络的强大全新架构。Transformer 采用自注意力机制,支持并行处理,大幅加快了模型训练和部署的速度,并降低了成本。OpenAI 基于这一架构研发出 GPT-1,该模型被许多人视为首个现代 LLM。
企业界对此高度关注,它们迅速发现:LLM 能够支撑众多使用场景,具备巨大潜力,可帮助企业提升生产力和运营效率,增强对客户需求的响应能力。
LLM 是通过机器学习研发的众多 AI 类型之一。然而,有几项特性可定义和区分这些模型,其中最重要的是模型规模。LLM 中的“大”,既指用于计算最终输出的参数数量,也指通过调整这些参数来训练模型所投入的数据量。
LLM 是众多前沿应用背后的核心引擎。随着 OpenAI 推出基于浏览器的 GPT‑3.5 模型及后续版本(包括 GPT‑4o 和 GPT‑4),也就是 ChatGPT,公众才广泛见识到它令人惊叹的能力。其价值更深入渗透到企业各个领域,在金融服务、HR、零售、营销、软件开发、客户服务及医疗卫生等行业与业务部门中展现出强大能力。
LLM 在企业中的主流应用包括:客服聊天机器人、客户情感分析,以及贴合语境、口语化、表达自然的翻译服务。在幕后,LLM 还承担着更专业的任务,例如在药物研发中预测蛋白质结构、编写软件代码,以及为企业越来越多部署的 agent 提供支撑,实现业务流程自动化。
LLM 正被应用于越来越多的业务使用场景中。例如,如今许多公司将聊天机器人纳入其客户服务策略。但得益于这类模型的通用性,富有创新力的企业软件开发者正运用其底层技术,处理远超单纯生成文本回复的各种任务。
1. 客户支持自动化
客户支持是 LLM 在企业场景中最直观的应用,尤其面向客户的使用场景。基于语言模型的对话式用户界面(即聊天机器人)可全天候处理几乎无上限的咨询量,大幅缓解呼叫中心人员超负荷工作导致的响应缓慢问题 — 而这正是引发客户不满的主要原因。
将聊天机器人与其他 LLM 应用集成,还能在客服对话后自动执行后续操作,例如寄送设备配件、发送文档或调查问卷等。LLM 也可直接辅助人工座席,为其提供及时的信息、情感分析、翻译和对话摘要等支持。
一家业务遍及 50 多个国家/地区、支持 80 种语言的基金管理公司,便借助这些能力,让客户能更轻松地发现和选择最适合自身需求的金融产品。这家退休账户管理服务商通过定制化聊天机器人完成了客户支持体系的现代化升级,服务效率提升 150%,运营成本降低 30%。如今,客户可随时登录公司官网,使用多种语言向机器人咨询账户相关问题。
2. 内容生成和摘要
LLM 能够创作原创内容或对现有内容归纳摘要。这两个使用场景对各种规模的企业都极具价值:企业正利用生成式 AI 撰写报告、电子邮件、博客、营销素材和社交媒体文案,同时利用 LLM 的能力为特定群体或单个客户量身定制生成内容。
摘要是将大量信息结合领域特性进行浓缩,转化为便于人类快速浏览和理解的形式。LLM 实现这一功能的方式有两种:评估文本中不同观点的重要性并提取关键段落;或基于原文中最相关、最关键的信息生成简洁概述。
LLM 有时会被批评“摘要趋于平庸”,即生成的摘要过于泛化,遗漏原文关键细节或重点内容。此外,评估摘要的可靠性并据此对不同模型的效果进行排序也颇具难度。尽管如此,企业仍在积极采用这项能力。
一家云技术通信企业部署 LLM,自动对每天以近二十四种语言产生的数百份支持工单和聊天记录归纳摘要。这些摘要可帮助支持工程师更快地解决客户问题,提升了整体服务体验。
3. 语言翻译
Google 最初开发 Transformer 架构的目的,是让机器在语言互译上表现更出色;直到后来,该模型才凭借更广泛的能力令开发者眼前一亮。开发者基于这一架构的首批应用便实现了最初目标,在英德翻译任务中取得了无可匹敌的效果,且模型训练所需的时间和计算资源远少于前代模型。
现代 LLM 早已超越这一单一使用场景。尽管大多数 LLM 并非专门作为翻译模型训练,但只要在两种语言的数据集上进行充分训练,它们依然能出色地将一种语言的文本理解并清晰地转换成另一种语言。这项打破语言壁垒的突破,对跨国运营的企业极具价值。例如,跨国企业利用前沿语言服务为产品和服务搭建多语言支持体系;翻译各种指南、教程和营销素材;在拓展新市场时,利用现有教育资料开展员工培训等。
多模态模型的技术演进
当前一个热门的研究方向,是将 LLM 作为基础模型,用于生成非文本形式输出的 AI。LLM 具备出色的通用性,通过使用标注数据进行微调,便能够理解并生成音频、图像乃至视频。这些可以接收非文本提示词或生成非文本输出的模型,通常被称为多模态大模型 (LMM)。
环境考量
LLM 在研发和规模化运行时,通常需要大量的计算资源。在由数百甚至数千颗 GPU 组成的计算集群上,训练单个模型往往需要数周时间,能耗极高。而成功部署后的模型,在持续响应用户查询时,其推理运行的基础设施仍会消耗大量电力。
据估算,训练 GPT‑4 约需 50 吉瓦时 (GWh) 的能源。作为对比,50 吉瓦时理论上可满足 4500 至 5000 户普通美国家庭一整年的用电量。如今,ChatGPT 每天为响应数百万次查询,预计要消耗数百兆瓦时 (MWh) 的电力。随着语言模型规模不断扩大,能源消耗和可持续发展问题将愈发紧迫。因此,人工智能企业正率先探索替代能源,以降低自身的碳足迹。
借助 Oracle 技术,企业可轻松掌握 LLM 的强大能力,无需纠结于这项前沿技术的底层细节和算力需求。Oracle Cloud Infrastructure (OCI) Generative AI 是一项全托管服务,可简化新 LLM 的部署流程,实现定制化、高效率和成本效益,同时免去复杂的基础设施管理工作。企业可从多款基础模型中选择,并在专属 GPU 集群上使用自有数据进行微调,打造最贴合自身业务需求的定制化模型。
希望对底层技术进行深度定制的企业,可选用 Machine Learning in Oracle Database。该平台简化并自动化了机器学习生命周期中的关键环节,助力数据科学家快速构建模型,且无需将敏感数据迁出 Oracle 数据库。其特性包括主流机器学习框架、API、自动化机器学习 (AutoML)、零代码界面,以及 30 余种高性能数据库内算法,可直接生成供应用使用的模型。
众多领先企业还利用 Oracle AI 基础设施自主研发 LLM。AI 基础设施是 OCI Generative AI 等高层级 AI 服务的底层支撑,凭借加速计算、网络和存储能力,可满足要求最严苛的 LLM 训练和运行需求。
LLM 拥有巨大潜力,能够深刻改变企业运营和客户互动方式。相关技术的新突破和资本投入,甚至可以影响全球市场、重塑企业战略。但对业务和 IT 主管而言,在积极挖掘这项技术可带来的实际价值的同时,也应跳出炒作泡沫,理解 LLM 的工作原理、局限性以及应用中面临的挑战。
LLM 是正在改变我们工作方式的众多颠覆性技术的核心。
大语言模型如何针对特定应用进行微调?
LLM 在完成初始预训练阶段后进行微调,以适配特定应用:初始预训练通过自学习构建基础模型,之后在更少、更具领域针对性的标注数据上开展监督学习。
哪些行业从大语言模型中获益最大?
几乎所有行业都在发掘 LLM 的价值。医疗卫生、金融服务和零售行业正积极探索各种使用场景,以优化客户支持、自动化业务流程。
大语言模型能否与企业系统集成?
大语言模型常通过以下方式与企业系统集成:使用企业数据微调基础模型,并通过检索增强生成 (RAG) 利用专有数据对模型进行增强。
注:为免疑义,本网页所用以下术语专指以下含义: