NLP 基础
是什么
NLP(Natural Language Processing,自然语言处理)是计算机科学与人工智能的交叉领域,研究如何让计算机理解、处理和生成人类语言。
简单说:NLP 是目标(让机器懂人话),LLM 是当前最好的手段。
核心任务
| 任务 | 说明 | 示例 |
|---|---|---|
| 文本分类 | 判断文本属于哪个类别 | 垃圾邮件检测、情感分析 |
| 命名实体识别(NER) | 从文本中提取人名、地名、机构名等 | ”苹果公司位于加利福尼亚” |
| 机器翻译 | 跨语言翻译 | Google Translate |
| 文本摘要 | 将长文压缩为短文 | 新闻摘要生成 |
| 问答系统 | 根据问题返回答案 | ChatGPT、搜索引擎 |
| 文本生成 | 生成连贯的自然语言 | LLM 对话、写作辅助 |
发展脉络
规则系统 → 统计模型 → 深度学习 → 预训练大模型(当前)
(1950s) (1990s) (2013) (2017-至今)
- 规则时代:人工编写语法规则,覆盖率低
- 统计时代:n-gram、TF-IDF、朴素贝叶斯——用数据统计替代手写规则
- 深度学习时代:RNN、LSTM、Seq2Seq——能处理变长序列,但有长距离依赖问题
- 大模型时代:Transformer → BERT → GPT 系列——统一架构解决几乎所有 NLP 任务
与 LLM 的关系
NLP 是学科领域,LLM 是这个领域当前最强大的技术方案:
NLP(领域)
├── 传统方法:规则、统计、小模型
└── 当前主流:LLM(基于 Transformer)
学习 AI 基础理论,本质上就是在学现代 NLP 的核心技术栈。