title, subtitle, date
| title |
subtitle |
date |
| AI 技术栈分层框架 |
L0 算力 → L5 Agent 编排,附运维治理横切层 |
2026-05-15 |
AI 技术栈分层框架(架构视角)
把整个 AI 技术按"分层架构"组织,每层只关心相邻接口。
看一眼图,知道自己站在哪一层;看一眼层内容,知道下一步学什么。
一、全栈分层图
🟡 金色 = 你当前主战场(L4 应用层 + L5 Agent 编排层)
🔵 蓝色 = 上游基础层(向上理解,按需选型)
🟣 紫色 = 横切层(生产化必经)
二、各层详解
L0 · 算力层
| 维度 |
内容 |
| 定位 |
物理算力底座,决定能跑多大模型、多快 |
| 关键指标 |
FLOPS、显存容量、显存带宽、互联带宽(NVLink/IB) |
| 训练芯片 |
NVIDIA H100/H200/B200、AMD MI300X、Google TPU v5p |
| 推理芯片 |
NVIDIA L40S/A100/A10、华为昇腾 910B、寒武纪、燧原、海光 |
| 端侧 |
Apple M 系 NPU、高通骁龙、Jetson、AMD XDNA |
| 核心矛盾 |
算力 vs 显存 vs 互联 vs 软件生态(CUDA 仍是事实标准) |
何时关心这一层: 当你考虑"私有部署 70B+ 模型"或"采购推理服务器"时必做选型。日常应用工程师不必深究。
L1 · 框架层
| 维度 |
内容 |
| 定位 |
把算力变成可编程的训练/推理基础设施 |
| 核心能力 |
自动微分、张量并行、混合精度、分布式训练 |
| 训练框架 |
PyTorch(事实标准)、JAX(前沿研究)、PaddlePaddle(百度,国内适配好)、MindSpore(华为,昇腾配套) |
| 模型库 |
HuggingFace Transformers / Diffusers / Datasets(必学) |
| 分布式训练 |
DeepSpeed(ZeRO)、Megatron-LM、FSDP、Accelerate |
| 微调工具 |
PEFT(LoRA/QLoRA)、TRL(RLHF/DPO)、Unsloth(加速 LoRA) |
何时关心这一层: 当你要微调模型或理解模型如何训练时必学。HuggingFace 是必经之路;你目录里的"百度飞桨"资料属于这一层。
L2 · 模型层
| 维度 |
内容 |
| 定位 |
基础模型本身——所有 AI 应用的"大脑" |
| 关键技术 |
预训练、SFT、RLHF/DPO/GRPO、长上下文、MoE、推理时计算(test-time compute) |
模型分类
| 分类 |
代表 |
特点 |
| 闭源 API(旗舰) |
GPT-4o / o3、Claude 4.7 Opus / Sonnet 4.6、Gemini 2.5 Pro |
能力最强,按 token 计费 |
| 开源(旗舰) |
Llama 4、Qwen 3、DeepSeek V3 / R1、GLM-4.5、Mistral Large |
可私有部署,可微调 |
| 推理模型 |
o3、DeepSeek R1、Qwen QwQ、Claude Extended Thinking |
长链思考,数学/代码强 |
| 多模态 |
GPT-4o(视觉)、Gemini(视频)、Sora(视频生成)、Flux/SD 3.5(图像)、Suno(音乐) |
跨模态理解/生成 |
| 端侧小模型 |
Llama 3.2-1B/3B、Qwen 2.5-0.5B/1.5B、Phi-4-mini |
移动设备/边缘部署 |
| 垂域模型 |
代码(DeepSeek-Coder)、数学(DeepSeekMath)、医疗、金融 |
行业特化 |
选型矩阵
| 场景 |
推荐路径 |
| 最强能力、不在意成本 |
Claude 4.7 Opus / o3 |
| 平衡能力与成本 |
Claude 4.6 Sonnet / GPT-4o / Gemini Flash |
| 私有数据、不能上云 |
Qwen 3 / DeepSeek V3(自部署) |
| 推理密集(数学/代码) |
DeepSeek R1 / o3-mini |
| 端侧/嵌入式 |
Qwen 2.5-1.5B 量化版 |
何时关心这一层: 永远关心——这是你能力的天花板。
L3 · 模型服务层
| 维度 |
内容 |
| 定位 |
把模型权重变成可调用的 API(通常兼容 OpenAI 协议) |
| 关键技术 |
KV cache、Continuous Batching、PagedAttention、量化(INT8/INT4/FP8)、推测解码(Speculative Decoding) |
工具谱系
| 类型 |
代表 |
适用 |
| 高性能推理引擎 |
vLLM(最主流)、SGLang(速度新王)、TensorRT-LLM(NVIDIA 极致)、TGI(HF 生态) |
生产部署 |
| 易用本地推理 |
Ollama(最易用)、LM Studio、LocalAI、llama.cpp |
开发/试用 |
| 多模型路由 |
LiteLLM(统一 OpenAI 协议)、OneAPI、OpenRouter |
多模型切换 |
| 量化格式 |
GGUF(llama.cpp 系)、AWQ、GPTQ、bitsandbytes |
降显存 |
核心矛盾: 吞吐 vs 延迟 vs 显存占用 vs 易用度
- 个人/小流量 → Ollama
- 生产/高并发 → vLLM
- 极致延迟 → SGLang / TensorRT-LLM
何时关心这一层: 当你从"调云 API"切换到"自己部署模型"时必须进;用 LiteLLM 做多供应商路由是 L4 工程师的低成本切入点。
L4 · 应用层
你正在这一层。
| 维度 |
内容 |
| 定位 |
把模型能力包装成具体的产品形态 |
| 核心范式 |
RAG、Chatbot、工作流、多模态应用、Function Calling |
应用范式
1. RAG(检索增强生成)—— 当前最成熟的企业应用范式
| 组件 |
主流选型 |
| 全栈 RAG 平台 |
RAGFlow(你已部署)、Dify、FastGPT、AnythingLLM |
| 开发框架 |
LangChain、LlamaIndex、Haystack |
| 向量数据库 |
Milvus(大规模)、Qdrant(性能均衡)、pgvector(轻量集成)、Chroma、Weaviate |
| Embedding 模型 |
BGE-M3(中文最强)、jina-v3、OpenAI text-embedding-3、Qwen embedding |
| 重排模型 |
bge-reranker-v2、jina-reranker、Cohere rerank |
| 文档解析 |
RAGFlow 内置、Unstructured、MinerU、Marker |
RAG 工程关键问题(你下一步要啃的):
- 分块策略(固定 / 语义 / 父子分块 / Late Chunking)
- 混合检索(向量 + BM25 + 关键词)
- 查询改写(HyDE、Multi-Query、Step-back)
- 重排 + 引用追溯
- 长上下文 RAG vs Agentic RAG
2. Chatbot / 对话助手
- 上下文管理、人设(System Prompt)、长期记忆
- 代表:Coze / 扣子、Dify、自建(FastAPI + Next.js,你的路径)
3. 工作流编排
- 可视化拖拽:Dify Workflow、Coze、n8n + AI 节点
- 代码化:LangGraph(更偏 Agent)
4. Function Calling / Tool Use
L5 · Agent 编排层
你正在这一层(早期)。
| 维度 |
内容 |
| 定位 |
把"一次问答"升级为"自主完成多步任务" |
| 核心要素 |
规划 · 记忆 · 工具使用 · 反思 · 多 Agent 协作 |
Agent 设计范式
| 范式 |
说明 |
代表 |
| ReAct |
思考-行动-观察循环 |
LangChain ReAct |
| Plan-and-Execute |
先规划再执行 |
LangGraph、BabyAGI |
| Reflection |
自我反思修正 |
Reflexion |
| Multi-Agent |
多 Agent 协作 |
AutoGen、CrewAI、Hermes(你的目录) |
| Computer Use |
操控屏幕/浏览器 |
Claude Computer Use、Browser Use |
Agent 框架
| 框架 |
定位 |
| LangGraph |
图式编排,工业级(最主流) |
| AutoGen |
多 Agent 对话(微软) |
| CrewAI |
角色化协作(简单上手) |
| OpenAI Agent SDK / Swarm |
OpenAI 官方轻量框架 |
| LlamaIndex Agents |
RAG 集成好 |
代表性 Agent 产品
| 类型 |
代表 |
| 编程 Agent |
Claude Code(你在用)、Cursor、Cline、Aider、Devin |
| 通用 Agent |
Manus、Hermes(你的目录)、OpenAI Operator |
| 研究 Agent |
Deep Research(OpenAI/Perplexity)、GPT-Researcher |
关键协议(2025-2026 新基建)
| 协议 |
作用 |
| MCP(Model Context Protocol) |
Anthropic 推出,工具/资源协议化,已成事实标准 |
| A2A(Agent-to-Agent) |
Google 推出,Agent 间互操作 |
| ACP |
Linux Foundation 协议 |
Agent 工程模式(你目录里的资料正好覆盖)
- SOUL.md —— 角色 + 协议化指令文件(你已有资料)
- Kanban —— 任务看板(Hermes v0.13,你已有资料)
- Memory —— 短期 / 长期 / 情景记忆
- 4+1 视图建模 —— 多 Agent 分析方法(OpenClaw,你已有资料)
L⊥ · 运维与治理层(横切)
生产化的"必选项",贯穿 L3-L5。
| 维度 |
内容 |
| 可观测性 |
Langfuse、Helicone、Arize Phoenix、LangSmith |
| 评测 |
OpenCompass、lm-eval、HumanEval、SWE-bench(编程)、AgentBench(Agent)、RAGAS(RAG) |
| 安全 |
Guardrails、NeMo Guardrails、Prompt 注入检测、内容审核 |
| 治理 |
API Key 鉴权、配额限流、日志审计、成本归集 |
你已实践的部分: FastAPI 后端的 API Key + 限流 + 日志审计 = L⊥ 的基础设施雏形。
三、你当前位置 & 学习路径
📍 你当前主要在:L4 + L5(早期)
已掌握 / 在做:
- L4: FastAPI 后端、Next.js 前端、RAGFlow 部署
- L5: Hermes / SOUL.md / Claude Code 使用、多 Agent 概念
- L⊥: API Key + 限流 + 日志(基础治理)
路径建议(按优先级)
🥇 第一优先:横向夯实 L4 + L5(半年内)
| 主题 |
资源 |
| RAG 工程深入 |
啃 RAGFlow 源码 + LangChain RAG 教程 + RAGAS 评测 |
| Agent 设计模式 |
啃 Agents.pdf(Google 白皮书)+ 清华 Hermes 报告 |
| 多 Agent 协作 |
你目录里的 OpenClaw 4+1 视图 + AutoGen / CrewAI 实践 |
| MCP 协议 |
Anthropic MCP 官方文档 + 写一个自己的 MCP Server |
| 评测体系 |
OpenCompass / RAGAS / AgentBench(让效果可衡量) |
🥈 第二优先:向下捅穿 L3(理解模型如何被服务)
| 主题 |
资源 |
| vLLM 部署 |
实际跑一次 Qwen / Llama 私有部署 |
| 量化 |
GGUF / AWQ 实测对比,理解显存-精度权衡 |
| 路由 |
LiteLLM 替换你现在的 ModelArts 单 API 调用 |
🥉 第三优先:选择性进入 L2 / L1(按需)
| 主题 |
何时学 |
| LoRA / QLoRA 微调 |
当 RAG/Prompt 都解决不了的领域问题时 |
| HuggingFace Transformers |
想读懂模型 / 复现论文时 |
| PyTorch 基础 |
想做研究而非应用时 |
❌ 一般不必下到 L0 / L1 深处
除非你做平台/基础设施。L0 是采购问题,L1 是研究问题,对应用工程师边际收益低。
四、演进时间线(背景)
五、一句话总结
应用工程师的 AI 成长不是从 L0 往上爬,而是从 L4 向两侧延伸:
- 向上(L5):把"会用"变成"会编排"
- 向下(L3):把"调 API"变成"懂部署"
- 横切(L⊥):把"能跑"变成"敢上生产"