AI 工程学科全景

是什么

围绕大语言模型（LLM）的工程实践，已经分化出十余个独立的工程学科。它们可以归纳为两条并行演化的主线：

沟通线：人怎么把意图传给模型（Prompt → Context → Memory）
控制线：人怎么驾驭模型的行为（Evaluation → Alignment → Guardrails → Harness）

这两条线不是独立的——沟通越深入，需要的控制就越复杂。

为什么需要这张全景图

当你学完 LLM 原理和 Transformer 架构之后，会发现”让 AI 真正可用”远不止理解模型本身——你还需要知道怎么跟它沟通、怎么控制它、怎么让它稳定地服务于生产环境。

每种工程学科的诞生都遵循同一个模式：

模型能力突破 → 暴露新痛点 → 催生新工程学科

全景分类

三层总览

层面	包含学科	核心问题
沟通层	Prompt / Context / Memory	怎么让模型理解我要什么
控制层	Evaluation / Alignment / Safety / Guardrails / Harness	怎么让模型行为可控
基础设施层	RAG / Vector / Inference / Agent / LLMOps	怎么让模型跑得稳、跑得快、做得多

完整学科表

工程学科	主线	一句话定义	核心时期
Fine-tuning Engineering	沟通	用数据改变模型权重	2018-2020
Prompt Engineering	沟通	设计输入文字的措辞和结构	2020-2023
System Prompt Design	沟通	设计系统级行为规则	2023
Context Engineering	沟通	管理模型看到的全部信息	2024-2025
Memory Engineering	沟通	跨会话的记忆管理	2025-
Evaluation Engineering	控制	量化模型能力	2020-
Alignment Engineering	控制	对齐模型价值观	2022-
Safety / Red Teaming	控制	对抗性安全测试	2023-
Guardrails Engineering	控制	约束输出行为和格式	2024-
Harness Engineering	控制（总称）	全链路驾驭 AI 系统	2025-
RAG Engineering	基础设施	检索增强生成	2023-
Vector Engineering	基础设施	向量检索优化	2023-
Inference Engineering	基础设施	推理性能优化	2020-
Agent Engineering	基础设施	自主任务执行	2024-
LLMOps	基础设施	生产环境运维监控	2023-

主线 A：沟通线演化

演化逻辑

模型越来越强，“怎么跟它沟通”从一句话的措辞技巧，升级为整个信息系统的架构设计。

控制一句话 → 控制一组规则 → 控制一个信息空间 → 控制一个记忆系统

第一代：Prompt Engineering（2020-2022）

痛点：GPT-3 发布后，人们发现”怎么问”比”问什么”更重要——同一个问题换个问法，结果天差地别。

核心思路：精心设计那一段输入文字。

演化路径：

Zero-shot（直接问）
  ↓ 效果不稳定
Few-shot（给几个示例）
  ↓ 复杂推理仍然出错
Chain-of-Thought（让模型"一步步想"）
  ↓ 需要更系统化的结构
Role + Instruction + Format（角色设定 + 指令 + 输出格式）

典型技巧：

技巧	示例	解决的问题
Few-shot	”示例1… 示例2… 现在回答：“	模型不理解任务格式
Chain-of-Thought	”请一步步思考”	模型跳步导致推理出错
Role Prompting	”你是一位资深前端工程师”	模型回答太泛，缺乏专业深度
Output Format	”用 JSON 格式输出，字段为…”	输出格式不可控

局限：你只能控制”一段文字”。当任务变复杂（需要参考文档、记住历史、调用工具），一段 Prompt 装不下所有信息。

更多技巧详见 04-Prompt Engineering。

第二代：System Prompt Design（2023）

痛点：ChatGPT 引入 System/User/Assistant 角色分离后，开发者有了”永久生效”的指令位，但 System Prompt 越写越长，模型对长指令的遵循率下降。

核心转变：从”写一条好问题”变成”设计一套系统级规则”。

典型结构：

System Prompt（开发者写，用户看不到）
├── 角色定义：你是XXX，擅长YYY
├── 行为规则：不做什么、拒绝什么
├── 输出规范：格式、语言、长度
├── 知识边界：不确定时说"我不知道"
└── 工具说明：可调用哪些 Function

User Message（用户输入）
Assistant Response（模型输出）

第三代：Context Engineering（2024-2025）

痛点：模型上下文窗口扩展到 128K-1M Token，RAG、Agent、多轮对话让”模型实际看到的内容”变得极其复杂。真正决定输出质量的不是 Prompt 那几句话，而是整个 Context Window 里塞了什么。

核心定义：

Context Engineering = 系统性地设计和管理 LLM 推理时能看到的全部信息。

与 Prompt Engineering 的区别：

维度	Prompt Engineering	Context Engineering
关注范围	用户输入的那段文字	整个上下文窗口
核心问题	”怎么措辞"	"放什么进去、不放什么、按什么顺序放”
技能性质	文案/语言技巧	信息架构/系统设计
难度来源	找到好的表达方式	在有限窗口内做信息取舍和优先级排序

Context Window 里的信息源：

┌──────────────────── Context Window（如 128K Token）────────────────────┐
│                                                                        │
│  ┌──────────────┐  ┌─────────────┐  ┌──────────┐  ┌──────────────┐  │
│  │ System Prompt │  │ RAG 检索结果 │  │ 对话历史  │  │ 工具调用结果 │  │
│  │ （规则/角色） │  │ （外部知识） │  │ （记忆）  │  │ （实时数据） │  │
│  └──────────────┘  └─────────────┘  └──────────┘  └──────────────┘  │
│                                                                        │
│  ┌──────────────┐  ┌─────────────┐                                    │
│  │ Few-shot 示例 │  │ 用户当前输入 │                                    │
│  │ （行为锚定） │  │ （本轮请求） │                                    │
│  └──────────────┘  └─────────────┘                                    │
└────────────────────────────────────────────────────────────────────────┘

核心挑战：

优先级排序：窗口有限，放了 RAG 文档就得压缩历史对话，怎么取舍？
注意力衰减：模型对中间位置的信息关注度最低（Lost in the Middle 现象），关键信息放头还是放尾？
格式效率：同样的信息用 Markdown 还是 JSON？哪个消耗更少 Token？

第四代：Memory Engineering（2025-）

痛点：Agent 需要跨多轮甚至跨会话维持状态，128K 窗口装不下数天的工作记忆。

核心问题：什么该记住、什么该忘记、什么时候该想起来。

方向	做法	代表
摘要压缩	AI 自动总结前文，用摘要替代原文	ChatGPT Memory、Claude Projects
外部记忆存储	关键信息写入数据库，需要时检索	MemGPT、Zep
分层记忆	短期 + 长期 + 工作记忆	LangGraph、AutoGen
选择性遗忘	主动丢弃不再相关的上下文	尚未成熟

主线 B：控制线演化（Harness Engineering）

演化逻辑

模型越来越自主，“怎么确保它不出格”从简单的评分，升级为全链路的驾驭体系。

Harness Engineering（驾驭工程） 不是一个独立的学科，而是控制线所有学科的上层统称——就像”软件工程”统称了前端/后端/测试/运维一样。

┌────────────── Harness Engineering（AI 驾驭工程）──────────────┐
│                                                               │
│  ┌───────────┐  ┌───────────┐  ┌──────────┐  ┌───────────┐  │
│  │ Evaluation │  │ Alignment │  │ Safety & │  │ Guardrails│  │
│  │ 评估工程   │  │ 对齐工程  │  │ Red Team │  │ 护栏工程  │  │
│  │            │  │           │  │ 安全工程 │  │           │  │
│  │ 能力几分？ │  │ 价值观对？│  │ 能被攻破？│  │ 输出可控？│  │
│  └─────┬─────┘  └─────┬─────┘  └────┬─────┘  └─────┬─────┘  │
│        └──────────┬────┴─────────────┴──────────────┘        │
│                   ▼                                           │
│    ┌──────────────────────────────────────────────────┐      │
│    │         LLMOps（可观测性 + 生产运维）            │      │
│    └──────────────────────────────────────────────────┘      │
└───────────────────────────────────────────────────────────────┘

各子学科的演化

阶段	子学科	触发事件	核心问题
2020	Evaluation	GPT-3 发布，模型越来越多	”这个模型到底行不行？“
2022	Alignment	ChatGPT 上线，模型直面大众	”模型会不会说有害的话？“
2023	Safety / Red Teaming	越狱攻击泛滥	”模型能被诱导绕过限制吗？“
2024	Guardrails	企业大规模落地	”输出的格式和内容可控吗？“
2025	Harness（全链路）	Agent 自主执行任务	”没人盯着的情况下还可靠吗？“

为什么 Agent 时代 Harness 变得关键

Prompt 时代：人打一句话，模型回一句话——出了错，人马上看到
Agent 时代：模型自主规划 10 步，每步调用工具，执行数分钟——出了错，可能已经造成了不可逆后果（删了文件、发了邮件、调了 API）

Agent 的自主性越高，Harness 的重要性越高。

代表性工具

子学科	代表工具/框架
Evaluation	lm-evaluation-harness（EleutherAI）、HELM（Stanford）
Alignment	RLHF、DPO、Constitutional AI
Safety	Red teaming frameworks、内容过滤系统
Guardrails	Guardrails AI、NeMo Guardrails
LLMOps	LangSmith、Arize Phoenix、Weights & Biases

两条主线的交叉关系

两条线在关键节点互相驱动：

沟通线进步 → 触发控制线需求：

Prompt 变复杂了 → 需要 Evaluation 量化哪种 Prompt 更好
Context 引入 RAG → 需要 Guardrails 验证检索结果是否被正确使用
Memory 跨会话持久 → 需要 Safety 确保记忆不被投毒
Agent 自主执行 → 需要 Harness 全链路可观测可回滚

控制线成果 → 反哺沟通线改进：

Evaluation 发现弱项 → 针对性改进 Prompt/Context 策略
Red Team 找到漏洞 → 在 System Prompt 加入防御指令
Guardrails 拦截异常 → 反馈到 Context 动态调整信息源

问题驱动的完整演化时间线

第一阶段：基础架构期（2017-2019）

痛点：RNN/LSTM 处理长文本时”记忆衰减”，100 个词之前的内容模型几乎”忘了”。

解法：Transformer 用自注意力机制让每个词能直接看到所有其他词。

衍生：Fine-tuning Engineering——BERT 证明了”预训练 + 微调”范式，但每个 NLP 任务都需要单独微调一个模型。

第二阶段：规模涌现期（2020-2022）

痛点：每个任务都要微调太贵太慢，能不能一个模型搞定所有任务？

解法：GPT-3（1750 亿参数）证明不需要微调，只需 Few-shot 就能理解新任务。

衍生：

Prompt Engineering：怎么问决定回答质量
Inference Engineering：1750 亿参数推理太贵，需要量化、缓存等优化
Evaluation Engineering：模型越来越多，需要标准化评估谁更好

第三阶段：对话普及期（2022-2023）

痛点：GPT-3 会续写但不会对话，它不分好坏，可能输出有害内容。

解法：ChatGPT 通过 RLHF 让模型学会”像助手一样对话”。

衍生：

Alignment Engineering：模型没有价值观，需要 RLHF/DPO 对齐
Safety / Red Teaming：越狱攻击泛滥，需要对抗性测试

第四阶段：企业落地期（2023-2024）

痛点：企业想用 LLM，但模型不知道公司内部数据，且幻觉严重。

解法：RAG 范式——先从企业知识库检索，把结果塞进 Context 让模型”带着参考资料回答”。

衍生：

RAG Engineering：文档分块 → Embedding → 向量检索 → 生成
Vector Engineering：RAG 效果严重依赖向量检索质量
Guardrails Engineering：企业要求输出格式可控、内容可审计
LLMOps：从 Demo 到生产需要版本管理、监控、A/B 测试
Context Engineering：RAG + 历史 + 工具 = Context Window 管理变成系统级问题

第五阶段：自主 Agent 期（2024-2025）

痛点：LLM 只能一问一答，完成不了多步骤复杂任务。

解法：Agent 架构——规划、工具调用、记忆、多 Agent 协作。

衍生：

Agent Engineering：ReAct、Function Calling、多 Agent 编排
Memory Engineering：Agent 需要跨会话维持状态
Harness Engineering（全链路）：Agent 无人值守时的可靠性保障

演化规律总结

能力突破	暴露的痛点	催生的工程
Transformer 让模型变大	每个任务都要微调	Fine-tuning
GPT-3 证明规模涌现	怎么有效地”问”	Prompt Engineering
ChatGPT 走向大众	怎么保证安全和正确	Alignment / Safety / Evaluation
企业要用自己的数据	怎么让模型知道私域知识	RAG / Vector / Context
模型要自主完成任务	怎么让模型可靠地规划和执行	Agent / Memory / Harness
生产环境要稳定运行	怎么管理和监控	LLMOps

底层规律：随着模型能力增强、应用场景复杂化，工程关注点从语言层逐步上移到信息架构层再到状态管理层。

Muliminty Note

探索

AI 工程学科全景

AI 工程学科全景

是什么

为什么需要这张全景图

全景分类

三层总览

完整学科表

主线 A：沟通线演化

演化逻辑

第一代：Prompt Engineering（2020-2022）

第二代：System Prompt Design（2023）

第三代：Context Engineering（2024-2025）

第四代：Memory Engineering（2025-）

主线 B：控制线演化（Harness Engineering）

演化逻辑

各子学科的演化

为什么 Agent 时代 Harness 变得关键

代表性工具

两条主线的交叉关系

问题驱动的完整演化时间线

第一阶段：基础架构期（2017-2019）

第二阶段：规模涌现期（2020-2022）

第三阶段：对话普及期（2022-2023）

第四阶段：企业落地期（2023-2024）

第五阶段：自主 Agent 期（2024-2025）

演化规律总结

延伸阅读

关系图谱

目录

反向链接