Files

T

zgene 450d3f52e3 新文件： "AI\346\212\200\346\234\257/AI\346\212\200\346\234\257\346\240\210\345\210\206\345\261\202\346\241\206\346\236\266.md"

新文件：   "AI\346\212\200\346\234\257/\346\200\235\350\267\257.md"

2026-05-28 10:16:04 +08:00

13 KiB

Raw Blame History

title, subtitle, date

title	subtitle	date
AI 技术栈分层框架	L0 算力 → L5 Agent 编排，附运维治理横切层	2026-05-15

AI 技术栈分层框架（架构视角）

把整个 AI 技术按"分层架构"组织，每层只关心相邻接口。看一眼图，知道自己站在哪一层；看一眼层内容，知道下一步学什么。

一、全栈分层图

flowchart TB
    L5["<b>L5 · Agent 编排层</b><br/>规划 · 记忆 · 工具 · 反思 · 多 Agent 协作<br/><i>LangGraph · AutoGen · CrewAI · Hermes · Claude Code · MCP / A2A</i>"]
    L4["<b>L4 · 应用层</b><br/>RAG · Chatbot · 工作流 · 多模态应用<br/><i>RAGFlow · Dify · LangChain · LlamaIndex · Milvus · pgvector · BGE</i>"]
    L3["<b>L3 · 模型服务层</b><br/>推理引擎 · 模型路由 · 量化<br/><i>vLLM · SGLang · Ollama · TGI · LiteLLM · OneAPI</i>"]
    L2["<b>L2 · 模型层</b><br/>闭源 API · 开源大模型 · 多模态 · 推理模型 · 微调<br/><i>GPT · Claude · Gemini · Llama · Qwen · DeepSeek · SD/Flux</i>"]
    L1["<b>L1 · 框架层</b><br/>深度学习框架 · 模型库 · 训练/微调工具<br/><i>PyTorch · JAX · 飞桨 · HuggingFace · DeepSpeed · PEFT</i>"]
    L0["<b>L0 · 算力层</b><br/>训练芯片 · 推理芯片 · 高速互联<br/><i>H100/H200/B200 · MI300 · TPU · 昇腾 · L40S</i>"]

    OPS["<b>L⊥ · 运维与治理层（横切）</b><br/>评测 · 监控 · 安全 · 成本 · 合规<br/><i>Langfuse · OpenCompass · AgentBench · Guardrails · Helicone</i>"]

    L5 -->|调用| L4
    L4 -->|调用| L3
    L3 -->|加载| L2
    L2 -->|训练于| L1
    L1 -->|运行于| L0

    OPS -.贯穿.-> L5
    OPS -.贯穿.-> L4
    OPS -.贯穿.-> L3

    classDef current fill:#FFD700,stroke:#E69900,stroke-width:3px,color:#000
    classDef base fill:#E8F4FD,stroke:#4A90E2,color:#000
    classDef ops fill:#F0E6FF,stroke:#9966CC,color:#000

    class L4,L5 current
    class L0,L1,L2,L3 base
    class OPS ops

🟡 金色 = 你当前主战场（L4 应用层 + L5 Agent 编排层） 🔵 蓝色 = 上游基础层（向上理解，按需选型） 🟣 紫色 = 横切层（生产化必经）

二、各层详解

L0 · 算力层

维度	内容
定位	物理算力底座，决定能跑多大模型、多快
关键指标	FLOPS、显存容量、显存带宽、互联带宽（NVLink/IB）
训练芯片	NVIDIA H100/H200/B200、AMD MI300X、Google TPU v5p
推理芯片	NVIDIA L40S/A100/A10、华为昇腾 910B、寒武纪、燧原、海光
端侧	Apple M 系 NPU、高通骁龙、Jetson、AMD XDNA
核心矛盾	算力 vs 显存 vs 互联 vs 软件生态（CUDA 仍是事实标准）

何时关心这一层： 当你考虑"私有部署 70B+ 模型"或"采购推理服务器"时必做选型。日常应用工程师不必深究。

L1 · 框架层

维度	内容
定位	把算力变成可编程的训练/推理基础设施
核心能力	自动微分、张量并行、混合精度、分布式训练
训练框架	PyTorch（事实标准）、JAX（前沿研究）、PaddlePaddle（百度，国内适配好）、MindSpore（华为，昇腾配套）
模型库	HuggingFace Transformers / Diffusers / Datasets（必学）
分布式训练	DeepSpeed（ZeRO）、Megatron-LM、FSDP、Accelerate
微调工具	PEFT（LoRA/QLoRA）、TRL（RLHF/DPO）、Unsloth（加速 LoRA）

何时关心这一层： 当你要微调模型或理解模型如何训练时必学。HuggingFace 是必经之路；你目录里的"百度飞桨"资料属于这一层。

L2 · 模型层

维度	内容
定位	基础模型本身——所有 AI 应用的"大脑"
关键技术	预训练、SFT、RLHF/DPO/GRPO、长上下文、MoE、推理时计算（test-time compute）

模型分类

分类	代表	特点
闭源 API（旗舰）	GPT-4o / o3、Claude 4.7 Opus / Sonnet 4.6、Gemini 2.5 Pro	能力最强，按 token 计费
开源（旗舰）	Llama 4、Qwen 3、DeepSeek V3 / R1、GLM-4.5、Mistral Large	可私有部署，可微调
推理模型	o3、DeepSeek R1、Qwen QwQ、Claude Extended Thinking	长链思考，数学/代码强
多模态	GPT-4o（视觉）、Gemini（视频）、Sora（视频生成）、Flux/SD 3.5（图像）、Suno（音乐）	跨模态理解/生成
端侧小模型	Llama 3.2-1B/3B、Qwen 2.5-0.5B/1.5B、Phi-4-mini	移动设备/边缘部署
垂域模型	代码（DeepSeek-Coder）、数学（DeepSeekMath）、医疗、金融	行业特化

选型矩阵

场景	推荐路径
最强能力、不在意成本	Claude 4.7 Opus / o3
平衡能力与成本	Claude 4.6 Sonnet / GPT-4o / Gemini Flash
私有数据、不能上云	Qwen 3 / DeepSeek V3（自部署）
推理密集（数学/代码）	DeepSeek R1 / o3-mini
端侧/嵌入式	Qwen 2.5-1.5B 量化版

何时关心这一层： 永远关心——这是你能力的天花板。

L3 · 模型服务层

维度	内容
定位	把模型权重变成可调用的 API（通常兼容 OpenAI 协议）
关键技术	KV cache、Continuous Batching、PagedAttention、量化（INT8/INT4/FP8）、推测解码（Speculative Decoding）

工具谱系

类型	代表	适用
高性能推理引擎	vLLM（最主流）、SGLang（速度新王）、TensorRT-LLM（NVIDIA 极致）、TGI（HF 生态）	生产部署
易用本地推理	Ollama（最易用）、LM Studio、LocalAI、llama.cpp	开发/试用
多模型路由	LiteLLM（统一 OpenAI 协议）、OneAPI、OpenRouter	多模型切换
量化格式	GGUF（llama.cpp 系）、AWQ、GPTQ、bitsandbytes	降显存

核心矛盾： 吞吐 vs 延迟 vs 显存占用 vs 易用度

个人/小流量 → Ollama
生产/高并发 → vLLM
极致延迟 → SGLang / TensorRT-LLM

何时关心这一层： 当你从"调云 API"切换到"自己部署模型"时必须进；用 LiteLLM 做多供应商路由是 L4 工程师的低成本切入点。

L4 · 应用层

你正在这一层。

维度	内容
定位	把模型能力包装成具体的产品形态
核心范式	RAG、Chatbot、工作流、多模态应用、Function Calling

应用范式

1. RAG（检索增强生成）—— 当前最成熟的企业应用范式

文档 → 解析 → 分块 → 向量化 → 索引
                                  ↓
用户问 → 查询改写 → 检索（向量+BM25）→ 重排 → 拼上下文 → LLM → 答案+引用

组件	主流选型
全栈 RAG 平台	RAGFlow（你已部署）、Dify、FastGPT、AnythingLLM
开发框架	LangChain、LlamaIndex、Haystack
向量数据库	Milvus（大规模）、Qdrant（性能均衡）、pgvector（轻量集成）、Chroma、Weaviate
Embedding 模型	BGE-M3（中文最强）、jina-v3、OpenAI text-embedding-3、Qwen embedding
重排模型	bge-reranker-v2、jina-reranker、Cohere rerank
文档解析	RAGFlow 内置、Unstructured、MinerU、Marker

RAG 工程关键问题（你下一步要啃的）：

分块策略（固定 / 语义 / 父子分块 / Late Chunking）
混合检索（向量 + BM25 + 关键词）
查询改写（HyDE、Multi-Query、Step-back）
重排 + 引用追溯
长上下文 RAG vs Agentic RAG

2. Chatbot / 对话助手

上下文管理、人设（System Prompt）、长期记忆
代表：Coze / 扣子、Dify、自建（FastAPI + Next.js，你的路径）

3. 工作流编排

可视化拖拽：Dify Workflow、Coze、n8n + AI 节点
代码化：LangGraph（更偏 Agent）

4. Function Calling / Tool Use

模型驱动外部工具调用，是通往 Agent 的桥梁

L5 · Agent 编排层

你正在这一层（早期）。

维度	内容
定位	把"一次问答"升级为"自主完成多步任务"
核心要素	规划 · 记忆 · 工具使用 · 反思 · 多 Agent 协作

Agent 设计范式

范式	说明	代表
ReAct	思考-行动-观察循环	LangChain ReAct
Plan-and-Execute	先规划再执行	LangGraph、BabyAGI
Reflection	自我反思修正	Reflexion
Multi-Agent	多 Agent 协作	AutoGen、CrewAI、Hermes（你的目录）
Computer Use	操控屏幕/浏览器	Claude Computer Use、Browser Use

Agent 框架

框架	定位
LangGraph	图式编排，工业级（最主流）
AutoGen	多 Agent 对话（微软）
CrewAI	角色化协作（简单上手）
OpenAI Agent SDK / Swarm	OpenAI 官方轻量框架
LlamaIndex Agents	RAG 集成好

代表性 Agent 产品

类型	代表
编程 Agent	Claude Code（你在用）、Cursor、Cline、Aider、Devin
通用 Agent	Manus、Hermes（你的目录）、OpenAI Operator
研究 Agent	Deep Research（OpenAI/Perplexity）、GPT-Researcher

关键协议（2025-2026 新基建）

协议	作用
MCP（Model Context Protocol）	Anthropic 推出，工具/资源协议化，已成事实标准
A2A（Agent-to-Agent）	Google 推出，Agent 间互操作
ACP	Linux Foundation 协议

Agent 工程模式（你目录里的资料正好覆盖）

SOUL.md —— 角色 + 协议化指令文件（你已有资料）
Kanban —— 任务看板（Hermes v0.13，你已有资料）
Memory —— 短期 / 长期 / 情景记忆
4+1 视图建模 —— 多 Agent 分析方法（OpenClaw，你已有资料）

L⊥ · 运维与治理层（横切）

生产化的"必选项"，贯穿 L3-L5。

维度	内容
可观测性	Langfuse、Helicone、Arize Phoenix、LangSmith
评测	OpenCompass、lm-eval、HumanEval、SWE-bench（编程）、AgentBench（Agent）、RAGAS（RAG）
安全	Guardrails、NeMo Guardrails、Prompt 注入检测、内容审核
治理	API Key 鉴权、配额限流、日志审计、成本归集

你已实践的部分： FastAPI 后端的 API Key + 限流 + 日志审计 = L⊥ 的基础设施雏形。

三、你当前位置 & 学习路径

📍 你当前主要在：L4 + L5（早期）

已掌握 / 在做：

L4： FastAPI 后端、Next.js 前端、RAGFlow 部署
L5： Hermes / SOUL.md / Claude Code 使用、多 Agent 概念
L⊥： API Key + 限流 + 日志（基础治理）

路径建议（按优先级）

🥇 第一优先：横向夯实 L4 + L5（半年内）

主题	资源
RAG 工程深入	啃 RAGFlow 源码 + LangChain RAG 教程 + RAGAS 评测
Agent 设计模式	啃 Agents.pdf（Google 白皮书）+ 清华 Hermes 报告
多 Agent 协作	你目录里的 OpenClaw 4+1 视图 + AutoGen / CrewAI 实践
MCP 协议	Anthropic MCP 官方文档 + 写一个自己的 MCP Server
评测体系	OpenCompass / RAGAS / AgentBench（让效果可衡量）

🥈 第二优先：向下捅穿 L3（理解模型如何被服务）

主题	资源
vLLM 部署	实际跑一次 Qwen / Llama 私有部署
量化	GGUF / AWQ 实测对比，理解显存-精度权衡
路由	LiteLLM 替换你现在的 ModelArts 单 API 调用

🥉 第三优先：选择性进入 L2 / L1（按需）

主题	何时学
LoRA / QLoRA 微调	当 RAG/Prompt 都解决不了的领域问题时
HuggingFace Transformers	想读懂模型 / 复现论文时
PyTorch 基础	想做研究而非应用时

❌ 一般不必下到 L0 / L1 深处

除非你做平台/基础设施。L0 是采购问题，L1 是研究问题，对应用工程师边际收益低。

四、演进时间线（背景）

2017  Transformer 论文
2018  BERT / GPT-1
2020  GPT-3                              → 涌现现象
2022  ChatGPT / RLHF                     → AI 出圈
2023  开源浪潮（Llama）/ 多模态           → 应用层崛起
2024  Agent / Tool Use / RAG 工业化       → ← 你大概从这里入场
2025  推理模型（o1/R1）/ MCP / Computer Use
2026  Agent OS / 多 Agent 协作 / 智能体管理学  ← 当下

五、一句话总结

应用工程师的 AI 成长不是从 L0 往上爬，而是从 L4 向两侧延伸：

向上（L5）：把"会用"变成"会编排"

向下（L3）：把"调 API"变成"懂部署"

横切（L⊥）：把"能跑"变成"敢上生产"

13 KiB Raw Blame History Unescape Escape