什么是大语言模型?

Joseph Tsidulko | 高级撰稿人 | 2025 年 7 月 29 日

大语言模型 (LLM) 是一种日益普及的人工智能,主要用于对用户通过文本、语音或其他方式提供的输入,生成类人化的回应。LLM 基于海量文本进行训练,能够根据提示词给出的上下文预测下一个词或词组,甚至可以模仿特定作者或文体的写作风格。

2020 年代初,LLM 走出实验室,进入公众视野。凭借出色的请求理解和相关应答能力,它们既成为独立产品,也作为增值功能嵌入到业务软件中,提供自然语言处理、机器翻译、内容生成、智能对话、文档摘要等多种功能。

这项技术仍在快速迭代,通过接入更大规模数据集,并增加多层训练和调优来提升模型表现。日益强大的计算基础设施支持了更广泛、更深入的训练,使模型具备越来越成熟的推理能力,可用于制定实现组织目标的方案。这些推理能力也是 AI agent 功能的基础,AI agent 借助前沿 LLM 完成人类操作员设定的各种任务。

什么是大语言模型?

大语言模型是一种经过大型数据集训练的人工智能系统,其训练数据通常包含来自书籍、网络及其他来源的数十亿词汇,旨在针对查询生成贴合语境、类人化的应答。LLM 能够理解问题(在其术语中称为“提示词”)并生成自然语言回复,因此可执行多项任务,例如解答客户咨询、汇总报告信息、语言互译、创作诗歌、编写计算机代码以及草拟邮件初稿等。LLM 通常对训练所用语言的语法和语义有着精准理解,还可结合企业自有数据进行配置,提供专属于该企业的定制化应答。

尽管 LLM 具备这些出色的能力,用户仍需留意其局限性。过时的数据和表述不当的提示词都可能导致错误,例如聊天机器人给出关于企业产品的错误信息。缺乏足够的数据会导致 LLM 虚构答案,这也称为“幻觉”。此外,LLM 虽擅长预测,但以往在解释自身结论推导过程方面表现较差。这些都是新一代 LLM 力求改进的方向。

尽管如此,LLM 依然标志着自然语言处理领域的重大进步。其业务使用场景十分广泛,新的应用方案正被快速开发和采用。

关键要点

  • 大语言模型是自然语言处理领域的前沿技术,也被用于开发可生成音频和图像的多模态 AI。
  • “大”是一个相对概念,指模型在针对任意给定提示词生成输出时所评估的参数数量。
  • 2022 年,随着 ChatGPT 的发布,LLM 迅速声名鹊起,这款应用让普通公众得以使用 OpenAI 的 GPT‑3.5 模型。其他主流模型还包括 Llama、Gemini 以及 Cohere Command R。

大语言模型详解

自 20 世纪 60 年代以来,自然语言处理一直是人工智能研究的活跃领域,早期语言模型的发展也已历经数十年。大语言模型通过深度学习技术推动了该领域向前发展 — 深度学习将机器学习架构于神经网络之上,从而打造出更复杂的模型。LLM 的另一大特点是,其基础模型的训练无需人工进行数据标注,这种训练方式称为自监督学习。

现代意义上的 LLM 诞生于 2017 年,Google 发表了一篇开创性的论文,提出了一种名为 Transformer 网络的强大全新架构。Transformer 采用自注意力机制,支持并行处理,大幅加快了模型训练和部署的速度,并降低了成本。OpenAI 基于这一架构研发出 GPT-1,该模型被许多人视为首个现代 LLM。

企业界对此高度关注,它们迅速发现:LLM 能够支撑众多使用场景,具备巨大潜力,可帮助企业提升生产力和运营效率,增强对客户需求的响应能力。

LLM 与其他 AI 模型对比:效率和可扩展性

LLM 是通过机器学习研发的众多 AI 类型之一。然而,有几项特性可定义和区分这些模型,其中最重要的是模型规模。LLM 中的“大”,既指用于计算最终输出的参数数量,也指通过调整这些参数来训练模型所投入的数据量。

  • 规模和性能:LLM 由模型规模定义,规模反映了决定其输出结果的参数数量。仅几年时间,主流模型的规模就呈指数级增长:GPT‑1 仅有 1 亿多参数,而其新一代 GPT‑4 虽未被 OpenAI 披露真实规模,但据推测已超过 1.75 万亿。

    通常来说,模型规模越大、训练集越丰富,其生成独特、相关且能精准模仿人类理解和语言生成能力的回复效果就越好。模型性能可通过困惑度 (perplexity) 来衡量,该指标用于量化模型在预测输出序列中下一个词时的置信程度。

    更大的模型通常性能更优,但并非在所有方面都如此。其潜在缺点包括更高的延迟(即模型处理提示词并给出答案所需的时间),以及因所需计算基础设施导致的扩展难度。它们在针对特定企业使用场景做定制化时也更为复杂。因此,业内正大力研发轻量化 LLM,这类模型部署成本更低,同时至少在特定领域和使用场景中仍能保持良好表现。
  • 可扩展性和部署:LLM 可通过多种方式部署。OpenAI、Google、Cohere 等商业供应商通过托管服务,以浏览器、应用程序或 API 调用的形式提供其模型。然而,许多企业更倾向于自行部署 LLM,通常是在本地服务器或公有云环境中运行已通过企业私有业务数据进行微调或增强的基础模型,并在此执行模型推理。个人用户和软件可通过直接调用或 API 端点与模型交互。

    无论采用何种部署方式,LLM(尤其是面向公众或大量员工使用的模型)都需要具备扩展能力,以满足预期需求,同时不超出企业预算。这种规模化部署在成本上需要权衡取舍。提升可扩展性的措施(例如更强大的推理基础设施、分布式计算、高效的负载均衡和缓存)均会产生相应成本。如果无法在成本和收益之间取得合理平衡,可能会导致延迟升高,从而产生影响应用实时运行、性能不稳定、员工使用意愿降低以及数据隐私和安全措施不足等问题。
  • 领域适配性:优秀的基础模型能够融合高层次、抽象化的数据,并在输出结果中展现出创造性。选定具备合适能力和功能的基础模型后,可通过微调进一步提升其在专业领域和特定使用场景下的性能。这一监督学习阶段能让 LLM 适配目标领域,而无需对基础模型进行从头再训练。

    在模型的初始训练和微调阶段,通过突出不同领域间具有共同特征的数据,以此对齐特征分布,同样是提升领域适配性的有效方法。

    大语言模型示意图
    该图展示了大语言模型如何学习和进行预测。在训练阶段,模型学习数据中的模式;随后进入推理阶段,处理新数据以生成洞察或预测。
    LLM 是一种生成语言的 AI,它利用经过深度训练的神经网络来评估和响应提示词。“大”并没有明确的阈值 — 随着模型愈发精密、计算能力(尤其是 GPU 集群的使用)愈发充足,符合这一描述的标准也在不断提高。

    训练开始前,语言会被转换为令牌 (token),即单词、字母片段或语音的数值化表示,以便计算机能够理解。

    随后,会选定包含大规模计算机神经网络的算法和数据集,用于自监督学习。在训练阶段,算法会调整其数十亿乃至数万亿的参数,以精准预测序列中的下一个令牌,直到模型能够对提示词做出恰当响应。因此,模型的参数中就存储了训练阶段所习得的知识。
  • Transformer 核心架构:Transformer 是概念性的飞跃,引领了当下 LLM 和生成式 AI 的热潮。2017 年,Google 研究人员在一篇开创性的论文中提出了 Transformer 架构,它跳出了以往构建语言模型的传统思路。传统模型严格依赖名为循环 (recurrence) 的处理流程,按顺序处理输入和输出;而 Transformer 则采用一种名为自注意力 (self‑attention) 的机制,在处理句子时,能同时考量文本中多个词语之间的关联,即便这些词语相隔甚远。它通过创建三种不同的向量来实现这一点:一个向量用于当前待处理的词;另一个向量用于周边词语,以确定它们在理解该词时的重要程度;第三个向量则表示该词所承载的信息。第三个向量的值会随词语上下文而变化。例如,单词 blue 既可以表示颜色“蓝色”,也可以形容人的情绪“忧郁”,还可以用在习语中表示“突如其来、出乎意料”,如:the thought came to her out of the blue(这个念头突然浮现在她脑海中)。

    例如,文本字符串可能是:
    “您感觉怎么样?”她问道。

    “我也说不好。”他答道,“今天实在没法专心工作,这种状态已经持续一段时间了。我就是心情特别低落。”

    在自注意力机制被引入之前,算法无法捕捉到 feeling(感觉)与 blue 之间的关联,因此很容易产生误读。自注意力机制能够建立这两个词之间关联的重要程度,即便它们在词序中相距较远。

    此外,通过使用自注意力机制,模型可以对大量数据进行并行训练,本质上是一次处理整句话,而非逐词处理。这能进一步发挥 GPU 的性能优势。Transformer 还能同时分析提示词中的令牌,从而更快地给出答案,并更好地消除歧义。
  • 训练和微调:基础模型是当前的主流 LLM,它们通常基于从互联网及其他文本信息库中提取的数据语料进行训练。在这种自监督学习过程中,数十亿个参数会被迭代调整,训练成功的模型往往擅长生成通用输出:在不同语境下创作文本,从各类语言风格中理解含义,并表达复杂甚至抽象的概念。

    基础模型可以通过微调来提升精度,并在医疗、金融等特定领域,或翻译、摘要等具体使用场景中优化性能。微调以基础模型为起点,再利用更小、更精准的标注数据集对最终的 LLM 进行进一步训练,从而增强其处理对商业领域或应用有价值的特定任务的能力。
  • 模型和可扩展性的重要性:LLM 的研发者最终会确定其算法需要训练的参数数量,以及实现高效训练所需的数据量。参数数量越多,模型就越复杂,通常其输出结果也会越独特、准确且贴合语境。但高性能的背后,是更高的训练和运营成本,以及模型训练完成后面向更多用户进行扩展时所面临的挑战。

    任何 LLM 部署方案的可扩展性,一定程度上都取决于模型的质量。AI 研发者所选择的训练算法、模型架构和数据集,都会影响基础模型在执行目标功能时,对内存、处理器、能源等资源的优化利用效率。

    目前也出现了一些可减小模型规模和训练数据语料量的新技术,这些技术能够在不显著影响 LLM 性能的前提下,降低扩展的成本和难度,尤其适用于使用场景相对专一的情况。

大语言模型的优势和应用

LLM 是众多前沿应用背后的核心引擎。随着 OpenAI 推出基于浏览器的 GPT‑3.5 模型及后续版本(包括 GPT‑4o 和 GPT‑4),也就是 ChatGPT,公众才广泛见识到它令人惊叹的能力。其价值更深入渗透到企业各个领域,在金融服务、HR、零售、营销、软件开发、客户服务及医疗卫生等行业与业务部门中展现出强大能力。

LLM 在企业中的主流应用包括:客服聊天机器人、客户情感分析,以及贴合语境、口语化、表达自然的翻译服务。在幕后,LLM 还承担着更专业的任务,例如在药物研发中预测蛋白质结构、编写软件代码,以及为企业越来越多部署的 agent 提供支撑,实现业务流程自动化。

  • 跨应用的通用性:LLM 是支撑众多面向消费者及企业级应用的核心技术,且应用范围仍在不断扩大。这种通用性源于模型在大型数据集上的自监督训练过程,使 AI 能够精准分析数据中的复杂模式,生成贴合语境、相关性强的输出结果。

    前沿应用充分利用这一特性,完成撰写原创营销文案与报告、评估客户情感、编写文档摘要等任务,甚至可生成图像、音频等非语言类内容。AI agent 尤其体现了 LLM 的通用性 — 它能够在无专业知识的情况下与环境交互并跨领域执行任务。

    通过监督学习对模型进行微调,可进一步拓展基于生成式 AI 的业务应用范围。而 RAG 技术能够在不改动底层模型的前提下,接入可持续更新的企业私有数据,提升 LLM 输出结果的准确性和相关性,使其在企业使用场景中发挥更大效用。
  • 增强客户交互:LLM 在客户服务领域迅速证明了自身价值。只要体验过 LLM 对话能力的人都知道,它能针对一个个细致问题,给出清晰、详尽且实用的回答,这显然是它的典型使用场景。

    不过,除聊天机器人外,LLM 还能通过多种方式增强客户交互。有些企业使用它们生成电子邮件、短信或社交媒体内容,回复客户有关产品、技术或销售相关的咨询;还有企业利用 LLM 翻译外语客户的问询。LLM 还可用于助力销售和客服人员(无论是人工还是 AI),为其提供切实可行的信息和相关文档,总结历史对话,跟进客户,并记录互动内容。

    某家在 100 多个国家/地区开展业务的全球大型专业服务机构,近期通过采用由 LLM 驱动的生成式 AI 应用,加强了客户关系管理。为了从客户反馈问卷中挖掘更多洞察,该公司部署了 LLM 来分析问卷情感倾向。如今,这套 AI 能够提炼趋势,并就产品和服务的市场接受度、优化方向提供全面洞察。
  • 自动化和生产力:LLM 在自动执行重复性任务方面表现极为出色,甚至能处理那些对早期 AI 模型而言过于复杂、需要做出判断的工作。这种自动化有助于提升员工生产力,让工作人员能够专注于更具创造性和批判性思维的高阶工作。

    agent 是一种新兴技术,它利用 LLM 强大的推理能力,在极少人工干预的情况下引导工作流程。这类应用基于语言基础模型构建,能够在企业环境中与人员及其他软件交互时自主决策,并可跨领域自动执行任务,同时生成需要审核或授权的操作提醒,确保过程可监管。

    LLM 还通过其他方式提升生产力:例如为企业管理者和决策者快速筛选关键信息,为营销人员撰写文案初稿,与开发人员协同编写软件代码等。

大语言模型使用场景和示例

LLM 正被应用于越来越多的业务使用场景中。例如,如今许多公司将聊天机器人纳入其客户服务策略。但得益于这类模型的通用性,富有创新力的企业软件开发者正运用其底层技术,处理远超单纯生成文本回复的各种任务。

1. 客户支持自动化

客户支持是 LLM 在企业场景中最直观的应用,尤其面向客户的使用场景。基于语言模型的对话式用户界面(即聊天机器人)可全天候处理几乎无上限的咨询量,大幅缓解呼叫中心人员超负荷工作导致的响应缓慢问题 — 而这正是引发客户不满的主要原因。

将聊天机器人与其他 LLM 应用集成,还能在客服对话后自动执行后续操作,例如寄送设备配件、发送文档或调查问卷等。LLM 也可直接辅助人工座席,为其提供及时的信息、情感分析、翻译和对话摘要等支持。

一家业务遍及 50 多个国家/地区、支持 80 种语言的基金管理公司,便借助这些能力,让客户能更轻松地发现和选择最适合自身需求的金融产品。这家退休账户管理服务商通过定制化聊天机器人完成了客户支持体系的现代化升级,服务效率提升 150%,运营成本降低 30%。如今,客户可随时登录公司官网,使用多种语言向机器人咨询账户相关问题。

2. 内容生成和摘要

LLM 能够创作原创内容或对现有内容归纳摘要。这两个使用场景对各种规模的企业都极具价值:企业正利用生成式 AI 撰写报告、电子邮件、博客、营销素材和社交媒体文案,同时利用 LLM 的能力为特定群体或单个客户量身定制生成内容。

摘要是将大量信息结合领域特性进行浓缩,转化为便于人类快速浏览和理解的形式。LLM 实现这一功能的方式有两种:评估文本中不同观点的重要性并提取关键段落;或基于原文中最相关、最关键的信息生成简洁概述。

LLM 有时会被批评“摘要趋于平庸”,即生成的摘要过于泛化,遗漏原文关键细节或重点内容。此外,评估摘要的可靠性并据此对不同模型的效果进行排序也颇具难度。尽管如此,企业仍在积极采用这项能力。

一家云技术通信企业部署 LLM,自动对每天以近二十四种语言产生的数百份支持工单和聊天记录归纳摘要。这些摘要可帮助支持工程师更快地解决客户问题,提升了整体服务体验。

3. 语言翻译

Google 最初开发 Transformer 架构的目的,是让机器在语言互译上表现更出色;直到后来,该模型才凭借更广泛的能力令开发者眼前一亮。开发者基于这一架构的首批应用便实现了最初目标,在英德翻译任务中取得了无可匹敌的效果,且模型训练所需的时间和计算资源远少于前代模型。

现代 LLM 早已超越这一单一使用场景。尽管大多数 LLM 并非专门作为翻译模型训练,但只要在两种语言的数据集上进行充分训练,它们依然能出色地将一种语言的文本理解并清晰地转换成另一种语言。这项打破语言壁垒的突破,对跨国运营的企业极具价值。例如,跨国企业利用前沿语言服务为产品和服务搭建多语言支持体系;翻译各种指南、教程和营销素材;在拓展新市场时,利用现有教育资料开展员工培训等。

LLM 的未来发展方向

多模态模型的技术演进

当前一个热门的研究方向,是将 LLM 作为基础模型,用于生成非文本形式输出的 AI。LLM 具备出色的通用性,通过使用标注数据进行微调,便能够理解并生成音频、图像乃至视频。这些可以接收非文本提示词或生成非文本输出的模型,通常被称为多模态大模型 (LMM)。

环境考量

LLM 在研发和规模化运行时,通常需要大量的计算资源。在由数百甚至数千颗 GPU 组成的计算集群上,训练单个模型往往需要数周时间,能耗极高。而成功部署后的模型,在持续响应用户查询时,其推理运行的基础设施仍会消耗大量电力。

据估算,训练 GPT‑4 约需 50 吉瓦时 (GWh) 的能源。作为对比,50 吉瓦时理论上可满足 4500 至 5000 户普通美国家庭一整年的用电量。如今,ChatGPT 每天为响应数百万次查询,预计要消耗数百兆瓦时 (MWh) 的电力。随着语言模型规模不断扩大,能源消耗和可持续发展问题将愈发紧迫。因此,人工智能企业正率先探索替代能源,以降低自身的碳足迹。

利用 OCI Generative AI 构建 LLM 应用

借助 Oracle 技术,企业可轻松掌握 LLM 的强大能力,无需纠结于这项前沿技术的底层细节和算力需求。Oracle Cloud Infrastructure (OCI) Generative AI 是一项全托管服务,可简化新 LLM 的部署流程,实现定制化、高效率和成本效益,同时免去复杂的基础设施管理工作。企业可从多款基础模型中选择,并在专属 GPU 集群上使用自有数据进行微调,打造最贴合自身业务需求的定制化模型。

希望对底层技术进行深度定制的企业,可选用 Machine Learning in Oracle Database。该平台简化并自动化了机器学习生命周期中的关键环节,助力数据科学家快速构建模型,且无需将敏感数据迁出 Oracle 数据库。其特性包括主流机器学习框架、API、自动化机器学习 (AutoML)、零代码界面,以及 30 余种高性能数据库内算法,可直接生成供应用使用的模型。

众多领先企业还利用 Oracle AI 基础设施自主研发 LLM。AI 基础设施是 OCI Generative AI 等高层级 AI 服务的底层支撑,凭借加速计算、网络和存储能力,可满足要求最严苛的 LLM 训练和运行需求。

LLM 拥有巨大潜力,能够深刻改变企业运营和客户互动方式。相关技术的新突破和资本投入,甚至可以影响全球市场、重塑企业战略。但对业务和 IT 主管而言,在积极挖掘这项技术可带来的实际价值的同时,也应跳出炒作泡沫,理解 LLM 的工作原理、局限性以及应用中面临的挑战。

LLM 是正在改变我们工作方式的众多颠覆性技术的核心。

LLM 常见问题解答

大语言模型如何针对特定应用进行微调?

LLM 在完成初始预训练阶段后进行微调,以适配特定应用:初始预训练通过自学习构建基础模型,之后在更少、更具领域针对性的标注数据上开展监督学习。

哪些行业从大语言模型中获益最大?

几乎所有行业都在发掘 LLM 的价值。医疗卫生、金融服务和零售行业正积极探索各种使用场景,以优化客户支持、自动化业务流程。

大语言模型能否与企业系统集成?

大语言模型常通过以下方式与企业系统集成:使用企业数据微调基础模型,并通过检索增强生成 (RAG) 利用专有数据对模型进行增强。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。