NLP 基础

是什么

NLP(Natural Language Processing,自然语言处理)是计算机科学与人工智能的交叉领域,研究如何让计算机理解、处理和生成人类语言。

简单说:NLP 是目标(让机器懂人话),LLM 是当前最好的手段。

核心任务

任务说明示例
文本分类判断文本属于哪个类别垃圾邮件检测、情感分析
命名实体识别(NER)从文本中提取人名、地名、机构名等苹果公司位于加利福尼亚
机器翻译跨语言翻译Google Translate
文本摘要将长文压缩为短文新闻摘要生成
问答系统根据问题返回答案ChatGPT、搜索引擎
文本生成生成连贯的自然语言LLM 对话、写作辅助

发展脉络

规则系统 → 统计模型 → 深度学习 → 预训练大模型(当前)
(1950s)    (1990s)    (2013)      (2017-至今)
  • 规则时代:人工编写语法规则,覆盖率低
  • 统计时代:n-gram、TF-IDF、朴素贝叶斯——用数据统计替代手写规则
  • 深度学习时代:RNN、LSTM、Seq2Seq——能处理变长序列,但有长距离依赖问题
  • 大模型时代:Transformer → BERT → GPT 系列——统一架构解决几乎所有 NLP 任务

与 LLM 的关系

NLP 是学科领域,LLM 是这个领域当前最强大的技术方案:

NLP(领域)
 ├── 传统方法:规则、统计、小模型
 └── 当前主流:LLM(基于 Transformer)

学习 AI 基础理论,本质上就是在学现代 NLP 的核心技术栈。

关联知识