Files
technology-document/AI技术/AI技术栈分层框架.md
2026-05-28 10:16:04 +08:00

322 lines
13 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: AI 技术栈分层框架
subtitle: L0 算力 → L5 Agent 编排,附运维治理横切层
date: 2026-05-15
---
# AI 技术栈分层框架(架构视角)
> 把整个 AI 技术按"分层架构"组织,每层只关心相邻接口。
> 看一眼图,知道自己站在哪一层;看一眼层内容,知道下一步学什么。
---
## 一、全栈分层图
```mermaid
flowchart TB
L5["<b>L5 · Agent 编排层</b><br/>规划 · 记忆 · 工具 · 反思 · 多 Agent 协作<br/><i>LangGraph · AutoGen · CrewAI · Hermes · Claude Code · MCP / A2A</i>"]
L4["<b>L4 · 应用层</b><br/>RAG · Chatbot · 工作流 · 多模态应用<br/><i>RAGFlow · Dify · LangChain · LlamaIndex · Milvus · pgvector · BGE</i>"]
L3["<b>L3 · 模型服务层</b><br/>推理引擎 · 模型路由 · 量化<br/><i>vLLM · SGLang · Ollama · TGI · LiteLLM · OneAPI</i>"]
L2["<b>L2 · 模型层</b><br/>闭源 API · 开源大模型 · 多模态 · 推理模型 · 微调<br/><i>GPT · Claude · Gemini · Llama · Qwen · DeepSeek · SD/Flux</i>"]
L1["<b>L1 · 框架层</b><br/>深度学习框架 · 模型库 · 训练/微调工具<br/><i>PyTorch · JAX · 飞桨 · HuggingFace · DeepSpeed · PEFT</i>"]
L0["<b>L0 · 算力层</b><br/>训练芯片 · 推理芯片 · 高速互联<br/><i>H100/H200/B200 · MI300 · TPU · 昇腾 · L40S</i>"]
OPS["<b>L⊥ · 运维与治理层(横切)</b><br/>评测 · 监控 · 安全 · 成本 · 合规<br/><i>Langfuse · OpenCompass · AgentBench · Guardrails · Helicone</i>"]
L5 -->|调用| L4
L4 -->|调用| L3
L3 -->|加载| L2
L2 -->|训练于| L1
L1 -->|运行于| L0
OPS -.贯穿.-> L5
OPS -.贯穿.-> L4
OPS -.贯穿.-> L3
classDef current fill:#FFD700,stroke:#E69900,stroke-width:3px,color:#000
classDef base fill:#E8F4FD,stroke:#4A90E2,color:#000
classDef ops fill:#F0E6FF,stroke:#9966CC,color:#000
class L4,L5 current
class L0,L1,L2,L3 base
class OPS ops
```
> 🟡 金色 = 你当前主战场(L4 应用层 + L5 Agent 编排层)
> 🔵 蓝色 = 上游基础层(向上理解,按需选型)
> 🟣 紫色 = 横切层(生产化必经)
---
## 二、各层详解
### L0 · 算力层
| 维度 | 内容 |
|---|---|
| **定位** | 物理算力底座,决定能跑多大模型、多快 |
| **关键指标** | FLOPS、显存容量、显存带宽、互联带宽(NVLink/IB) |
| **训练芯片** | NVIDIA H100/H200/B200、AMD MI300X、Google TPU v5p |
| **推理芯片** | NVIDIA L40S/A100/A10、华为昇腾 910B、寒武纪、燧原、海光 |
| **端侧** | Apple M 系 NPU、高通骁龙、Jetson、AMD XDNA |
| **核心矛盾** | 算力 vs 显存 vs 互联 vs **软件生态**CUDA 仍是事实标准) |
**何时关心这一层:** 当你考虑"私有部署 70B+ 模型"或"采购推理服务器"时必做选型。日常应用工程师不必深究。
---
### L1 · 框架层
| 维度 | 内容 |
|---|---|
| **定位** | 把算力变成可编程的训练/推理基础设施 |
| **核心能力** | 自动微分、张量并行、混合精度、分布式训练 |
| **训练框架** | **PyTorch**(事实标准)、JAX(前沿研究)、PaddlePaddle(百度,国内适配好)、MindSpore(华为,昇腾配套) |
| **模型库** | **HuggingFace Transformers / Diffusers / Datasets**(必学) |
| **分布式训练** | DeepSpeedZeRO)、Megatron-LM、FSDP、Accelerate |
| **微调工具** | PEFTLoRA/QLoRA)、TRLRLHF/DPO)、Unsloth(加速 LoRA |
**何时关心这一层:** 当你要**微调模型**或**理解模型如何训练**时必学。HuggingFace 是必经之路;你目录里的"百度飞桨"资料属于这一层。
---
### L2 · 模型层
| 维度 | 内容 |
|---|---|
| **定位** | 基础模型本身——所有 AI 应用的"大脑" |
| **关键技术** | 预训练、SFT、RLHF/DPO/GRPO、长上下文、MoE、推理时计算(test-time compute |
#### 模型分类
| 分类 | 代表 | 特点 |
|---|---|---|
| **闭源 API(旗舰)** | GPT-4o / o3、Claude 4.7 Opus / Sonnet 4.6、Gemini 2.5 Pro | 能力最强,按 token 计费 |
| **开源(旗舰)** | Llama 4、Qwen 3、DeepSeek V3 / R1、GLM-4.5、Mistral Large | 可私有部署,可微调 |
| **推理模型** | o3、DeepSeek R1、Qwen QwQ、Claude Extended Thinking | 长链思考,数学/代码强 |
| **多模态** | GPT-4o(视觉)、Gemini(视频)、Sora(视频生成)、Flux/SD 3.5(图像)、Suno(音乐) | 跨模态理解/生成 |
| **端侧小模型** | Llama 3.2-1B/3B、Qwen 2.5-0.5B/1.5B、Phi-4-mini | 移动设备/边缘部署 |
| **垂域模型** | 代码(DeepSeek-Coder)、数学(DeepSeekMath)、医疗、金融 | 行业特化 |
#### 选型矩阵
| 场景 | 推荐路径 |
|---|---|
| 最强能力、不在意成本 | Claude 4.7 Opus / o3 |
| 平衡能力与成本 | Claude 4.6 Sonnet / GPT-4o / Gemini Flash |
| 私有数据、不能上云 | Qwen 3 / DeepSeek V3(自部署) |
| 推理密集(数学/代码) | DeepSeek R1 / o3-mini |
| 端侧/嵌入式 | Qwen 2.5-1.5B 量化版 |
**何时关心这一层:** 永远关心——这是你能力的天花板。
---
### L3 · 模型服务层
| 维度 | 内容 |
|---|---|
| **定位** | 把模型权重变成可调用的 API(通常兼容 OpenAI 协议) |
| **关键技术** | KV cache、Continuous Batching、PagedAttention、量化(INT8/INT4/FP8)、推测解码(Speculative Decoding |
#### 工具谱系
| 类型 | 代表 | 适用 |
|---|---|---|
| **高性能推理引擎** | **vLLM**(最主流)、SGLang(速度新王)、TensorRT-LLMNVIDIA 极致)、TGIHF 生态) | 生产部署 |
| **易用本地推理** | **Ollama**(最易用)、LM Studio、LocalAI、llama.cpp | 开发/试用 |
| **多模型路由** | **LiteLLM**(统一 OpenAI 协议)、OneAPI、OpenRouter | 多模型切换 |
| **量化格式** | GGUFllama.cpp 系)、AWQ、GPTQ、bitsandbytes | 降显存 |
**核心矛盾:** 吞吐 vs 延迟 vs 显存占用 vs 易用度
- 个人/小流量 → Ollama
- 生产/高并发 → vLLM
- 极致延迟 → SGLang / TensorRT-LLM
**何时关心这一层:** 当你从"调云 API"切换到"自己部署模型"时必须进;用 LiteLLM 做多供应商路由是 L4 工程师的低成本切入点。
---
### L4 · 应用层
> **你正在这一层。**
| 维度 | 内容 |
|---|---|
| **定位** | 把模型能力包装成具体的产品形态 |
| **核心范式** | RAG、Chatbot、工作流、多模态应用、Function Calling |
#### 应用范式
##### 1. RAG(检索增强生成)—— 当前最成熟的企业应用范式
```
文档 → 解析 → 分块 → 向量化 → 索引
用户问 → 查询改写 → 检索(向量+BM25)→ 重排 → 拼上下文 → LLM → 答案+引用
```
| 组件 | 主流选型 |
|---|---|
| **全栈 RAG 平台** | **RAGFlow**(你已部署)、Dify、FastGPT、AnythingLLM |
| **开发框架** | LangChain、LlamaIndex、Haystack |
| **向量数据库** | Milvus(大规模)、Qdrant(性能均衡)、**pgvector**(轻量集成)、Chroma、Weaviate |
| **Embedding 模型** | BGE-M3(中文最强)、jina-v3、OpenAI text-embedding-3、Qwen embedding |
| **重排模型** | bge-reranker-v2、jina-reranker、Cohere rerank |
| **文档解析** | RAGFlow 内置、Unstructured、MinerU、Marker |
**RAG 工程关键问题(你下一步要啃的):**
- 分块策略(固定 / 语义 / 父子分块 / Late Chunking
- 混合检索(向量 + BM25 + 关键词)
- 查询改写(HyDE、Multi-Query、Step-back
- 重排 + 引用追溯
- 长上下文 RAG vs Agentic RAG
##### 2. Chatbot / 对话助手
- 上下文管理、人设(System Prompt)、长期记忆
- 代表:Coze / 扣子、Dify、自建(FastAPI + Next.js,你的路径)
##### 3. 工作流编排
- 可视化拖拽:Dify Workflow、Coze、n8n + AI 节点
- 代码化:LangGraph(更偏 Agent
##### 4. Function Calling / Tool Use
- 模型驱动外部工具调用,是通往 Agent 的桥梁
---
### L5 · Agent 编排层
> **你正在这一层(早期)。**
| 维度 | 内容 |
|---|---|
| **定位** | 把"一次问答"升级为"自主完成多步任务" |
| **核心要素** | **规划 · 记忆 · 工具使用 · 反思 · 多 Agent 协作** |
#### Agent 设计范式
| 范式 | 说明 | 代表 |
|---|---|---|
| **ReAct** | 思考-行动-观察循环 | LangChain ReAct |
| **Plan-and-Execute** | 先规划再执行 | LangGraph、BabyAGI |
| **Reflection** | 自我反思修正 | Reflexion |
| **Multi-Agent** | 多 Agent 协作 | AutoGen、CrewAI、Hermes(你的目录) |
| **Computer Use** | 操控屏幕/浏览器 | Claude Computer Use、Browser Use |
#### Agent 框架
| 框架 | 定位 |
|---|---|
| **LangGraph** | 图式编排,工业级(最主流) |
| **AutoGen** | 多 Agent 对话(微软) |
| **CrewAI** | 角色化协作(简单上手) |
| **OpenAI Agent SDK / Swarm** | OpenAI 官方轻量框架 |
| **LlamaIndex Agents** | RAG 集成好 |
#### 代表性 Agent 产品
| 类型 | 代表 |
|---|---|
| **编程 Agent** | **Claude Code**(你在用)、Cursor、Cline、Aider、Devin |
| **通用 Agent** | Manus、Hermes(你的目录)、OpenAI Operator |
| **研究 Agent** | Deep ResearchOpenAI/Perplexity)、GPT-Researcher |
#### 关键协议(2025-2026 新基建)
| 协议 | 作用 |
|---|---|
| **MCPModel Context Protocol** | Anthropic 推出,工具/资源协议化,已成事实标准 |
| **A2AAgent-to-Agent** | Google 推出,Agent 间互操作 |
| **ACP** | Linux Foundation 协议 |
#### Agent 工程模式(你目录里的资料正好覆盖)
- **SOUL.md** —— 角色 + 协议化指令文件(你已有资料)
- **Kanban** —— 任务看板(Hermes v0.13,你已有资料)
- **Memory** —— 短期 / 长期 / 情景记忆
- **4+1 视图建模** —— 多 Agent 分析方法(OpenClaw,你已有资料)
---
### L⊥ · 运维与治理层(横切)
> 生产化的"必选项",贯穿 L3-L5。
| 维度 | 内容 |
|---|---|
| **可观测性** | Langfuse、Helicone、Arize Phoenix、LangSmith |
| **评测** | OpenCompass、lm-eval、HumanEval、SWE-bench(编程)、AgentBenchAgent)、RAGASRAG |
| **安全** | Guardrails、NeMo Guardrails、Prompt 注入检测、内容审核 |
| **治理** | API Key 鉴权、配额限流、日志审计、成本归集 |
**你已实践的部分:** FastAPI 后端的 API Key + 限流 + 日志审计 = L⊥ 的基础设施雏形。
---
## 三、你当前位置 & 学习路径
### 📍 你当前主要在:L4 + L5(早期)
已掌握 / 在做:
- **L4** FastAPI 后端、Next.js 前端、RAGFlow 部署
- **L5** Hermes / SOUL.md / Claude Code 使用、多 Agent 概念
- **L⊥:** API Key + 限流 + 日志(基础治理)
### 路径建议(按优先级)
#### 🥇 第一优先:横向夯实 L4 + L5(半年内)
| 主题 | 资源 |
|---|---|
| RAG 工程深入 | 啃 RAGFlow 源码 + LangChain RAG 教程 + RAGAS 评测 |
| Agent 设计模式 | 啃 Agents.pdfGoogle 白皮书)+ 清华 Hermes 报告 |
| 多 Agent 协作 | 你目录里的 OpenClaw 4+1 视图 + AutoGen / CrewAI 实践 |
| MCP 协议 | Anthropic MCP 官方文档 + 写一个自己的 MCP Server |
| 评测体系 | OpenCompass / RAGAS / AgentBench(让效果可衡量) |
#### 🥈 第二优先:向下捅穿 L3(理解模型如何被服务)
| 主题 | 资源 |
|---|---|
| vLLM 部署 | 实际跑一次 Qwen / Llama 私有部署 |
| 量化 | GGUF / AWQ 实测对比,理解显存-精度权衡 |
| 路由 | LiteLLM 替换你现在的 ModelArts 单 API 调用 |
#### 🥉 第三优先:选择性进入 L2 / L1(按需)
| 主题 | 何时学 |
|---|---|
| LoRA / QLoRA 微调 | 当 RAG/Prompt 都解决不了的领域问题时 |
| HuggingFace Transformers | 想读懂模型 / 复现论文时 |
| PyTorch 基础 | 想做研究而非应用时 |
#### ❌ 一般不必下到 L0 / L1 深处
除非你做平台/基础设施。L0 是采购问题,L1 是研究问题,对应用工程师边际收益低。
---
## 四、演进时间线(背景)
```
2017 Transformer 论文
2018 BERT / GPT-1
2020 GPT-3 → 涌现现象
2022 ChatGPT / RLHF → AI 出圈
2023 开源浪潮(Llama)/ 多模态 → 应用层崛起
2024 Agent / Tool Use / RAG 工业化 → ← 你大概从这里入场
2025 推理模型(o1/R1/ MCP / Computer Use
2026 Agent OS / 多 Agent 协作 / 智能体管理学 ← 当下
```
---
## 五、一句话总结
> **应用工程师的 AI 成长不是从 L0 往上爬,而是从 L4 向两侧延伸:**
> - 向上(L5):把"会用"变成"会编排"
> - 向下(L3):把"调 API"变成"懂部署"
> - 横切(L⊥):把"能跑"变成"敢上生产"