什么是自然语言处理 (NLP)?

Jeffrey Erickson | 高级撰稿人 | 2025 年 9 月 22 日

正如科幻作品长久以来所预见的,我们人类正逐渐习惯与计算机对话。今天的大语言模型 (LLM) 与 AI agent 正是朝着这一方向迈出的巨大一步,而它们流畅的表达能力都要归功于自然语言处理 (NLP) 这一领域。每当您向手机口述信息、输入一段随意的搜索提问,或是让 AI 总结一份文档时,NLP 技术和方法都会开始运作。它们理解您的话语,并以您和邻居隔着栅栏聊天时会使用的那种语言生成回复。这一发展,值得我们深入探究。

什么是 NLP?

NLP 是人工智能的一个分支,它使计算机能够理解、生成和处理人类语言。NLP 适用于语音和书面文本,可用于所有人类语言。一些已存在数十年的 NLP 技术和方法近年来取得了显著进步,在过去几年中,依托 NLP 技术的主流 LLM 更是推动其得到更广泛的应用。此外,通过 AI agent 的形式将 LLM 融入更复杂的工作流程中,将进一步提升 NLP 在日常生活中的应用程度。

定义和概述

如今的 LLM 源自计算语言学 (CL) 这一科学领域,该学科研究人类语言的计算建模;而 NLP 则是一门工程学科,专注于构建能帮助计算机理解、生成和处理人类语言的计算方法。过去十年间的重大突破得益于机器学习(AI 的一个分支,旨在开发能通过示例进行学习的系统)技术发展。近几年的技术发展,让机器学习能够理解大数据集中极其复杂的模式,使其非常适合学习语言的复杂细节。

将 NLP 集成到应用中的开发者主要利用 NLP 的两大分支:一个专注于语言理解,另一个专注于针对查询生成全新回应。自然语言理解 (NLU) 适用于情感分析、实体识别和关键短语提取等任务。这类任务要求 NLP 应用对文本或语音进行解析,以理解其表达内容;而自然语言生成 (NLG) 则在理解人类语言所包含的情感和细节的基础上,生成答案、翻译和摘要。如今,云技术服务供应商或开源平台(如 Hugging Face)提供的越来越多的 LLM 在运行过程中同时集成了 NLU 和 NLG 技术。

NLP 的重要性

不断进步的 LLM,已将原本只能识别问题含义并匹配预设固定答案的基础 NLP 技术,转变为借助复杂神经网络、基于千万亿字节级通用数据训练而成的灵活交互对象。如今,计算机能够理解人类语言的结构和含义,让开发人员和应用用户可以与之进行更细腻的交流。这在商业、数据分析、人际关系、客户服务、医疗卫生等诸多领域都产生了深远影响 — 数据和文档变得易于检索和总结,其价值也前所未有地凸显。以下是 NLP 的部分应用实例。

NLP 的应用

NLP 是人工智能和计算语言学的一个分支,专注于让计算机理解和解读人类语言,因此拥有极为广泛的应用场景。凡是能从机器读取、解析文本数据并从中提取含义(模拟人类交流方式)中获益的应用场景,都适用于 NLP。考虑以下具体场景:

  • 任务自动化:运用 NLP 技术的聊天机器人和 AI agent 能够在职责范围内处理愈发复杂的任务,例如开票、数据分析或网络安全。其结果是实现了全新的效率提升。例如,企业应用中的 AI agent 可以自动从供应商的报价单(如扫描版 PDF 文件)中提取相关信息,然后根据需要进行翻译并在系统中创建采购申请。这有助于实现采购流程的自动化,如果数据存在差异,还可协助自动标记供应商的最终发票,供管理人员审核。
  • 优化搜索:传统 NLP 基于上下文识别词语,提供了多种优化关键词匹配搜索与检索的技术。例如,“carrier” 一词在生物医学和物流领域中的含义截然不同。近年来利用向量数据库的架构极大提升了 NLP 对人类语言语义的理解能力。向量嵌入过程会为单词、短语乃至整篇文档赋予数值表示,使得语义搜索、情感分析、文档相似度分析等任务能够快速且高精度地完成。由 NLP 驱动的语义搜索,是各种常用服务的关键组成部分,例如零售网站或娱乐流媒体平台的推荐系统。
  • 分析和整理大规模文档集:文档聚类、主题建模等 NLP 技术可简化对企业报告、新闻文章、科研文献等大规模文档集的内容多样性理解工作。近年来,越来越多的嵌入模型将人类语言与数据、文档的交互提升到了新高度。在检索增强生成 (RAG) 架构下,搭载 NLP 技术的应用能够通过人类语言提示词(而非使用 SQL 或其他编程语言)来探索文档库中的信息。
  • 提供社交媒体分析:NLP 可以分析客户评价和社交媒体评论,从而更好地理解海量信息。情感分析能够从社交媒体评论流中识别正面和负面评论,实时直观地衡量客户情绪。长远来看,这将带来巨大收益,例如提升客户满意度和复购率。
  • 提供市场洞察:NLP 可帮助分析企业客户的语言,让企业更好地掌握客户需求,并更清楚如何与客户沟通。例如,情感分析能够识别社交媒体中提到的具体方面或产品(如“键盘很棒,但屏幕太暗”),为产品设计和营销提供切实可行的信息。
  • 内容审核:如果您的企业有活跃的社交渠道,NLP 可以帮助审核人员跟踪并回应用户言论。它不仅能分析文字本身,还能识别评论的语气和意图,帮助维护内容质量和文明交流。这可以作为常规客户评分和标记系统的有效补充。

NLP 的工作原理

NLP 模型最常使用神经网络从文本训练数据中学习语言模式和特征表示。NLP 模型可在大规模数据集上进行训练,以完成情感分析、命名实体识别、机器翻译和文本摘要等任务。在 NLP 领域中,大语言模型通过从输入数据中提取的模式和特征,学习进行预测或生成文本。

NLP 的目标是弥合人类交流与计算机理解之间的鸿沟,使机器能够执行需要自然语言理解的任务。以下是需要考虑的一些具体方面。

  • 计算语言学:计算语言学是一门融合了计算机科学、人工智能和语言学的研究领域,旨在开发能够处理人类语言各组成部分的 AI 模型。其研究成果形成了可用于分析和处理文本与语音的计算方法。计算语言学涉及语法和语法解析、语义分析以及话语分析等研究内容。这些研究的应用最终转化为我们在机器翻译、语音识别、情感分析和语言生成等场景中实际使用的 NLP 能力。
  • NLP 中的机器学习:由于 AI 模型通过分析大型训练数据集(这些数据集是理解语言的基础)来学习完成各种基于语言的任务,因此现代 NLP 离不开机器学习 (ML)。在 NLP 领域,最终会形成能够完成情感分析、实体识别或语言生成等目标任务的机器学习模型。

    例如,情感分析的训练数据由标注了情感倾向(如积极、消极或中性)的句子组成。机器学习算法读取该数据集后,生成一个模型:以句子为输入,返回对应的情感倾向。由此得到的文档分类模型可以快速判断文档对主题的观点是积极、中性还是消极,以及内容涉及的领域,例如体育、金融或政治。同样,机器学习模型也可经过训练,识别并分类文档中的实体,如人名、地名和日期。
  • NLP 中的深度学习深度学习是使用深度神经网络模型的机器学习技术。深度神经网络包含多层相互连接的节点(即神经元),使模型能够从训练数据中学习极其复杂的模式。将深度学习与大规模训练数据相结合,可以提升机器翻译、情感分析和语音识别等 NLP 任务的效果。
  • 迁移学习:迁移学习通常也称为 AI 模型微调,指的是采用一个成熟的基础 LLM,利用规模更小、面向特定任务的数据集,使其适配于某项具体任务。这些基础 LLM 具备出色的语言理解能力和广博的通识知识,可以通过微调来适应新任务中的细节差异。在 NLP 领域,企业或机构可以借助迁移学习来提升 AI 模型对某地方言的识别准确率,或让模型适配特定行业的专业术语(如医学领域)。

NLP 实施步骤

实施 NLP 的常规步骤包括:

1. 收集和准备文本数据:从社交媒体、文档或网页内容等多种来源采集文本数据,再将其预处理为适合机器分析的格式。

2. 提取特征和表示:将预处理后的文本转换为机器学习模型能够理解的数值格式。最先进的技术会将单词和文本片段转换为向量嵌入。

3. 选择和训练模型:根据要执行的任务(如情感分析、文本分类)选择合适的 NLP 模型,再利用准备好的数据集进行训练,并调整超参数以优化模型性能和准确性。

4. 评估和部署模型:从准确率、精确率、召回率等维度评估 NLP 模型,检验其在新数据上的泛化能力。确认效果达标后,将模型部署到生产环境中,用于实际场景下的文本数据处理和分析。

关键 NLP 技术和任务

NLP 利用 AI 实现机器与人之间的语音交互,为此会运用一系列相关技术和任务。

  • 预处理技术:在 NLP 领域,对文本数据进行清洗和预处理以用于分析,向来是至关重要的环节。这类技术包括分词 (tokenization),即将原始文本(如句子或文档)切分为词元(如单词或子词单元)序列。分词通常是 NLP 流程中的第一步。随后词干提取 (stemming) 和词形还原 (lemmatization) 会将单词简化为基本形式或词根形式。例如,"revisited" 由前缀 "re-"、词干 "visit" 和过去时态后缀 "-ed" 构成。而停用词去除则通过剔除不承载实际语义的常用词汇来提升模型性能、节省计算资源,这类词汇通常是简短且高频的词,如 “a”、“the” 和 “an”。

    其他预处理步骤还可能包括去除标点符号、处理特殊字符以及修正拼写错误。这些技术能够确保数据格式统一可用,以便支撑核心 NLP 任务。
  • 核心 NLP 任务:核心 NLP 任务随着时间不断演进,但它们都服务于理解文本的结构和含义,且通常会被组合使用,以构建最复杂的 NLP 系统。

    核心 NLP 任务将人类语言拆解,使计算机能够识别、提取和模仿语言。这些任务包括:词性标注 (POS tagging):识别句子中每个单词的语法角色,如名词、动词、形容词等;句法解析:识别单词如何组合构成短语、从句和完整句子;命名实体识别 (NER):识别并分类人物、机构、地点等信息;情感分析:判断一段文本的情感基调。

    近年来,深度神经网络已成为 LLM 的主流前沿技术,它使用向量嵌入取代了词性标注和句法解析,能更灵活、更精准地处理人类语言。
  • 高级 NLP 任务:LLM 依托高级 NLP 技术,实现人机之间自然流畅的对话。这些方法包括自动翻译(将一种语言转换为另一种语言)、文本摘要(为较长文本段落提供更简洁的摘要),以及问答系统(从文档中提取信息,通常还会对信息进行转述,以回答与文本相关的特定问题)。这类自然语言生成 (NLG) 通常需要复杂的模型、大规模数据集,并且在很多情况下还需要经过微调过程才能胜任医疗、零售等特定领域的任务。

NLP 在各行业中的应用

NLP 可以简化并自动化大量业务流程,尤其是涉及电子邮件、调查问卷、社交媒体对话等大量非结构化文本的流程。借助 NLP,企业能够更好地分析数据,从而辅助做出正确决策。以下是 NLP 的一些真实应用示例。

  • 医疗卫生:随着全球医疗系统逐步采用电子健康档案 (EHR),大量非结构化数据不断积累。NLP 能够对健康档案进行分析并挖掘全新见解,同时帮助快节奏的临床医护人员无需手动录入即可在电子健康档案中添加和更新就诊小结等记录。
  • 金融:在金融行业中,交易员可以使用 NLP 技术从企业文件和新闻稿中自动挖掘信息,提取与其投资组合和交易决策相关的内容。
  • 客户服务:许多企业使用虚拟助手或聊天机器人来解答客户的基础咨询和信息查询,仅在必要时将问题转交给人工处理。近年来,结合 RAG 架构的 LLM 已能够处理许多更为复杂的交互场景。
  • 保险:大型保险公司可利用 NLP 技术,对与理赔相关的文件和报告进行筛选,并快速提供承保相关信息。

NLP 面临的挑战和未来发展趋势

NLP 领域已取得巨大进步,但同时也面临诸多挑战,我们将在下文展开讨论。科技企业和研究人员每天都在努力提升 NLP 系统的稳定性和适应性,使其更擅长理解和生成类人语言。这些努力将在机器翻译、虚拟助手、文本分析等领域带来重大突破。下面我们来看看具体的挑战和发展机遇。

当前挑战

处理人类语言的复杂性和歧义性(包括理解不同语言、方言中的语境、反讽和细微差别)并非易事。NLP 模型通常需要海量标注数据进行训练,而这类数据的制作非常耗时,获取成本高昂。

研究人员还面临着哪些其他挑战?

  • 计算成本:随着 AI 模型的规模和复杂度不断提升,完成任务所需的计算周期变长,成本也随之增加。即使近期在强化学习领域的创新能够缩短训练时间、降低训练成本,但 NLP 在生产环境中的运行成本依然较高。机器学习工程师们正在探索更高效的架构,并在强化学习之外,采用模型剪枝、量化等方法来降低计算成本。
  • 数据偏见:根据用于训练的数据集不同,NLP 模型可能容易生成偏向特定群体的文本 — 这只是在简单模仿训练数据集中体现的措辞或方言。要解决这一问题,训练人员必须留意数据集中是否过度代表了某类人群或语境,从而补充更多样化的语言类型。如果您在训练自己的 LLM,公平感知算法可以帮助检测偏见。
  • 可解释性:NLP 中的可解释性是指理解并解释模型输出结果的能力。这是一项挑战,尤其对于前沿 LLM 模型而言,其内部运行机制十分复杂,甚至可以说是不透明的。在需要解释模型推理依据的场景(如法律、医疗和保险决策)中,可解释性是必不可少的要求。因此,目前越来越多的策略被用于提升模型输出的可解释性,其中最具代表性的是强化学习,此外还有线性回归、决策树以及一系列特征工程技术。

未来趋势

NLP 的未来发展重点,是在提升语言理解和生成能力的同时,让这项技术更易普及,并在各种应用中发挥更大价值。研究人员正致力于开发更高效的算法,增强多语言处理能力,打造仅需更少标注数据即可学习的模型。

NLP 领域的观察者可以关注以下趋势:

  • 基础模型的进展:Cohere、Llama、BERT、GPT 等基础模型在持续演进,可用模型的数量也在不断增加。部分模型正变得更加复杂、通用,另一些则侧重简洁性和针对性用途,只需极少的额外训练和更低的计算成本就能应用于广泛任务。更大规模的模型通过融合文本、图像、视频、音频等多模态数据,通用性不断增强。可以期待在模型架构和基础设施设计上取得进展,包括近期在强化学习领域的发展,以便在控制成本的同时,适配模型的复杂性和规模。
  • 理解和生成能力的提升:尽管 NLP 已应用数十年,但得益于能更好地捕捉语言细微差别(包括语境、情感和意图)的技术,它在语言理解和生成方面仍在实现跨越式进步。可以预见,NLP 系统在机器翻译、文本摘要、自然语言对话等任务上的表现将持续提升 — 尤其是随着 RAG 架构和知识图谱技术为现实商业应用带来更具上下文关联性且更精准的内容。

借助 Oracle GenAI 强化您的 NLP 能力

您是否知道,Oracle Cloud Infrastructure (OCI) 能为您提供升级和优化前沿 NLP 应用所需的一切?例如,OCI 生成式 AI 服务可轻松集成通用性强的 LLM(如 Cohere 的 Command 模型或 Meta 的开源 Llama 系列)并以简易易用的服务形式提供。您可以利用它对模型进行微调,以适配各种 NLP 场景,包括写作辅助、文本摘要、数据分析和智能对话。

为了让企业更便捷地使用前沿 NLP 技术,Oracle SaaS 应用可在任意需要的场景中即时提供 AI 能力,无需离开您日常支撑业务运行的软件环境。

随着 NLP 技术的持续发展,它将拥有巨大潜力,彻底改变我们与技术交互的方式,以及我们处理海量文本信息的模式。

从简单指令到复杂对话,自然语言处理是人机交互的关键密钥。它也为当下一些具有变革性的前沿 AI 创新提供了核心支撑。

自然语言处理 (NLP) 常见问题解答

NLP 如何改善客户服务?

NLP 可通过多种方式改善客户服务。它能够持续处理客户的语音和文字咨询,更快地解决问题。这得益于前沿 LLM 能够理解客户交互中的语境和细微含义。同样,它还能在通话结束后生成通话摘要和待办事项,帮助人工客服更高效地服务客户。

NLP 在业务分析中有哪些优势?

NLP 为更多用户开启了富有洞察力的业务分析。它让业务人员无需通过 SQL 等编程语言来探索数据,而是通过与 AI agent 进行自然语言对话即可实现 — 这类 AI agent 能够访问、整理并呈现企业数据库中的数据。

NLP 如何助力业务流程自动化?

NLP 通过理解和生成语言来实现业务流程自动化。例如,一款 NLP 应用可以接收发票,并自动启动开票和履约流程,员工只需对相关操作进行审核和批准即可。每处理一张发票,都能节省时间和精力。

NLP 和 AI 如何共同提升企业决策水平?

NLP 依赖机器学习,且通常需要借助前沿 AI 基础模型。这些 AI 能力能够为数据分析带来更高的灵活性和易用性,从而助力企业决策。例如,搭载 NLP 技术的分析平台可提供 agentic 界面,让业务人员使用自然语言向企业数据库提问。这使业务人员摆脱了预先设定好的仪表盘,能够在数据探索中发挥更强的创造力。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。