From 450d3f52e35a12b545c0d5f5f7a212b136ffd7ab Mon Sep 17 00:00:00 2001 From: Zimy Date: Thu, 28 May 2026 10:16:04 +0800 Subject: [PATCH] =?UTF-8?q?=09=E6=96=B0=E6=96=87=E4=BB=B6=EF=BC=9A=20=20?= =?UTF-8?q?=20"AI\346\212\200\346\234\257/AI\346\212\200\346\234\257\346\2?= =?UTF-8?q?40\210\345\210\206\345\261\202\346\241\206\346\236\266.md"=20?= =?UTF-8?q?=09=E6=96=B0=E6=96=87=E4=BB=B6=EF=BC=9A=20=20=20"AI\346\212\200?= =?UTF-8?q?\346\234\257/\346\200\235\350\267\257.md"?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- AI技术/AI技术栈分层框架.md | 321 +++++++++++++++++++++++++++++++++++++ AI技术/思路.md | 33 ++++ 2 files changed, 354 insertions(+) create mode 100644 AI技术/AI技术栈分层框架.md create mode 100644 AI技术/思路.md diff --git a/AI技术/AI技术栈分层框架.md b/AI技术/AI技术栈分层框架.md new file mode 100644 index 0000000..f746740 --- /dev/null +++ b/AI技术/AI技术栈分层框架.md @@ -0,0 +1,321 @@ +--- +title: AI 技术栈分层框架 +subtitle: L0 算力 → L5 Agent 编排,附运维治理横切层 +date: 2026-05-15 +--- + +# AI 技术栈分层框架(架构视角) + +> 把整个 AI 技术按"分层架构"组织,每层只关心相邻接口。 +> 看一眼图,知道自己站在哪一层;看一眼层内容,知道下一步学什么。 + +--- + +## 一、全栈分层图 + +```mermaid +flowchart TB + L5["L5 · Agent 编排层
规划 · 记忆 · 工具 · 反思 · 多 Agent 协作
LangGraph · AutoGen · CrewAI · Hermes · Claude Code · MCP / A2A"] + L4["L4 · 应用层
RAG · Chatbot · 工作流 · 多模态应用
RAGFlow · Dify · LangChain · LlamaIndex · Milvus · pgvector · BGE"] + L3["L3 · 模型服务层
推理引擎 · 模型路由 · 量化
vLLM · SGLang · Ollama · TGI · LiteLLM · OneAPI"] + L2["L2 · 模型层
闭源 API · 开源大模型 · 多模态 · 推理模型 · 微调
GPT · Claude · Gemini · Llama · Qwen · DeepSeek · SD/Flux"] + L1["L1 · 框架层
深度学习框架 · 模型库 · 训练/微调工具
PyTorch · JAX · 飞桨 · HuggingFace · DeepSpeed · PEFT"] + L0["L0 · 算力层
训练芯片 · 推理芯片 · 高速互联
H100/H200/B200 · MI300 · TPU · 昇腾 · L40S"] + + OPS["L⊥ · 运维与治理层(横切)
评测 · 监控 · 安全 · 成本 · 合规
Langfuse · OpenCompass · AgentBench · Guardrails · Helicone"] + + L5 -->|调用| L4 + L4 -->|调用| L3 + L3 -->|加载| L2 + L2 -->|训练于| L1 + L1 -->|运行于| L0 + + OPS -.贯穿.-> L5 + OPS -.贯穿.-> L4 + OPS -.贯穿.-> L3 + + classDef current fill:#FFD700,stroke:#E69900,stroke-width:3px,color:#000 + classDef base fill:#E8F4FD,stroke:#4A90E2,color:#000 + classDef ops fill:#F0E6FF,stroke:#9966CC,color:#000 + + class L4,L5 current + class L0,L1,L2,L3 base + class OPS ops +``` + +> 🟡 金色 = 你当前主战场(L4 应用层 + L5 Agent 编排层) +> 🔵 蓝色 = 上游基础层(向上理解,按需选型) +> 🟣 紫色 = 横切层(生产化必经) + +--- + +## 二、各层详解 + +### L0 · 算力层 + +| 维度 | 内容 | +|---|---| +| **定位** | 物理算力底座,决定能跑多大模型、多快 | +| **关键指标** | FLOPS、显存容量、显存带宽、互联带宽(NVLink/IB) | +| **训练芯片** | NVIDIA H100/H200/B200、AMD MI300X、Google TPU v5p | +| **推理芯片** | NVIDIA L40S/A100/A10、华为昇腾 910B、寒武纪、燧原、海光 | +| **端侧** | Apple M 系 NPU、高通骁龙、Jetson、AMD XDNA | +| **核心矛盾** | 算力 vs 显存 vs 互联 vs **软件生态**(CUDA 仍是事实标准) | + +**何时关心这一层:** 当你考虑"私有部署 70B+ 模型"或"采购推理服务器"时必做选型。日常应用工程师不必深究。 + +--- + +### L1 · 框架层 + +| 维度 | 内容 | +|---|---| +| **定位** | 把算力变成可编程的训练/推理基础设施 | +| **核心能力** | 自动微分、张量并行、混合精度、分布式训练 | +| **训练框架** | **PyTorch**(事实标准)、JAX(前沿研究)、PaddlePaddle(百度,国内适配好)、MindSpore(华为,昇腾配套) | +| **模型库** | **HuggingFace Transformers / Diffusers / Datasets**(必学) | +| **分布式训练** | DeepSpeed(ZeRO)、Megatron-LM、FSDP、Accelerate | +| **微调工具** | PEFT(LoRA/QLoRA)、TRL(RLHF/DPO)、Unsloth(加速 LoRA) | + +**何时关心这一层:** 当你要**微调模型**或**理解模型如何训练**时必学。HuggingFace 是必经之路;你目录里的"百度飞桨"资料属于这一层。 + +--- + +### L2 · 模型层 + +| 维度 | 内容 | +|---|---| +| **定位** | 基础模型本身——所有 AI 应用的"大脑" | +| **关键技术** | 预训练、SFT、RLHF/DPO/GRPO、长上下文、MoE、推理时计算(test-time compute) | + +#### 模型分类 + +| 分类 | 代表 | 特点 | +|---|---|---| +| **闭源 API(旗舰)** | GPT-4o / o3、Claude 4.7 Opus / Sonnet 4.6、Gemini 2.5 Pro | 能力最强,按 token 计费 | +| **开源(旗舰)** | Llama 4、Qwen 3、DeepSeek V3 / R1、GLM-4.5、Mistral Large | 可私有部署,可微调 | +| **推理模型** | o3、DeepSeek R1、Qwen QwQ、Claude Extended Thinking | 长链思考,数学/代码强 | +| **多模态** | GPT-4o(视觉)、Gemini(视频)、Sora(视频生成)、Flux/SD 3.5(图像)、Suno(音乐) | 跨模态理解/生成 | +| **端侧小模型** | Llama 3.2-1B/3B、Qwen 2.5-0.5B/1.5B、Phi-4-mini | 移动设备/边缘部署 | +| **垂域模型** | 代码(DeepSeek-Coder)、数学(DeepSeekMath)、医疗、金融 | 行业特化 | + +#### 选型矩阵 + +| 场景 | 推荐路径 | +|---|---| +| 最强能力、不在意成本 | Claude 4.7 Opus / o3 | +| 平衡能力与成本 | Claude 4.6 Sonnet / GPT-4o / Gemini Flash | +| 私有数据、不能上云 | Qwen 3 / DeepSeek V3(自部署) | +| 推理密集(数学/代码) | DeepSeek R1 / o3-mini | +| 端侧/嵌入式 | Qwen 2.5-1.5B 量化版 | + +**何时关心这一层:** 永远关心——这是你能力的天花板。 + +--- + +### L3 · 模型服务层 + +| 维度 | 内容 | +|---|---| +| **定位** | 把模型权重变成可调用的 API(通常兼容 OpenAI 协议) | +| **关键技术** | KV cache、Continuous Batching、PagedAttention、量化(INT8/INT4/FP8)、推测解码(Speculative Decoding) | + +#### 工具谱系 + +| 类型 | 代表 | 适用 | +|---|---|---| +| **高性能推理引擎** | **vLLM**(最主流)、SGLang(速度新王)、TensorRT-LLM(NVIDIA 极致)、TGI(HF 生态) | 生产部署 | +| **易用本地推理** | **Ollama**(最易用)、LM Studio、LocalAI、llama.cpp | 开发/试用 | +| **多模型路由** | **LiteLLM**(统一 OpenAI 协议)、OneAPI、OpenRouter | 多模型切换 | +| **量化格式** | GGUF(llama.cpp 系)、AWQ、GPTQ、bitsandbytes | 降显存 | + +**核心矛盾:** 吞吐 vs 延迟 vs 显存占用 vs 易用度 +- 个人/小流量 → Ollama +- 生产/高并发 → vLLM +- 极致延迟 → SGLang / TensorRT-LLM + +**何时关心这一层:** 当你从"调云 API"切换到"自己部署模型"时必须进;用 LiteLLM 做多供应商路由是 L4 工程师的低成本切入点。 + +--- + +### L4 · 应用层 + +> **你正在这一层。** + +| 维度 | 内容 | +|---|---| +| **定位** | 把模型能力包装成具体的产品形态 | +| **核心范式** | RAG、Chatbot、工作流、多模态应用、Function Calling | + +#### 应用范式 + +##### 1. RAG(检索增强生成)—— 当前最成熟的企业应用范式 + +``` +文档 → 解析 → 分块 → 向量化 → 索引 + ↓ +用户问 → 查询改写 → 检索(向量+BM25)→ 重排 → 拼上下文 → LLM → 答案+引用 +``` + +| 组件 | 主流选型 | +|---|---| +| **全栈 RAG 平台** | **RAGFlow**(你已部署)、Dify、FastGPT、AnythingLLM | +| **开发框架** | LangChain、LlamaIndex、Haystack | +| **向量数据库** | Milvus(大规模)、Qdrant(性能均衡)、**pgvector**(轻量集成)、Chroma、Weaviate | +| **Embedding 模型** | BGE-M3(中文最强)、jina-v3、OpenAI text-embedding-3、Qwen embedding | +| **重排模型** | bge-reranker-v2、jina-reranker、Cohere rerank | +| **文档解析** | RAGFlow 内置、Unstructured、MinerU、Marker | + +**RAG 工程关键问题(你下一步要啃的):** +- 分块策略(固定 / 语义 / 父子分块 / Late Chunking) +- 混合检索(向量 + BM25 + 关键词) +- 查询改写(HyDE、Multi-Query、Step-back) +- 重排 + 引用追溯 +- 长上下文 RAG vs Agentic RAG + +##### 2. Chatbot / 对话助手 +- 上下文管理、人设(System Prompt)、长期记忆 +- 代表:Coze / 扣子、Dify、自建(FastAPI + Next.js,你的路径) + +##### 3. 工作流编排 +- 可视化拖拽:Dify Workflow、Coze、n8n + AI 节点 +- 代码化:LangGraph(更偏 Agent) + +##### 4. Function Calling / Tool Use +- 模型驱动外部工具调用,是通往 Agent 的桥梁 + +--- + +### L5 · Agent 编排层 + +> **你正在这一层(早期)。** + +| 维度 | 内容 | +|---|---| +| **定位** | 把"一次问答"升级为"自主完成多步任务" | +| **核心要素** | **规划 · 记忆 · 工具使用 · 反思 · 多 Agent 协作** | + +#### Agent 设计范式 + +| 范式 | 说明 | 代表 | +|---|---|---| +| **ReAct** | 思考-行动-观察循环 | LangChain ReAct | +| **Plan-and-Execute** | 先规划再执行 | LangGraph、BabyAGI | +| **Reflection** | 自我反思修正 | Reflexion | +| **Multi-Agent** | 多 Agent 协作 | AutoGen、CrewAI、Hermes(你的目录) | +| **Computer Use** | 操控屏幕/浏览器 | Claude Computer Use、Browser Use | + +#### Agent 框架 + +| 框架 | 定位 | +|---|---| +| **LangGraph** | 图式编排,工业级(最主流) | +| **AutoGen** | 多 Agent 对话(微软) | +| **CrewAI** | 角色化协作(简单上手) | +| **OpenAI Agent SDK / Swarm** | OpenAI 官方轻量框架 | +| **LlamaIndex Agents** | RAG 集成好 | + +#### 代表性 Agent 产品 + +| 类型 | 代表 | +|---|---| +| **编程 Agent** | **Claude Code**(你在用)、Cursor、Cline、Aider、Devin | +| **通用 Agent** | Manus、Hermes(你的目录)、OpenAI Operator | +| **研究 Agent** | Deep Research(OpenAI/Perplexity)、GPT-Researcher | + +#### 关键协议(2025-2026 新基建) + +| 协议 | 作用 | +|---|---| +| **MCP(Model Context Protocol)** | Anthropic 推出,工具/资源协议化,已成事实标准 | +| **A2A(Agent-to-Agent)** | Google 推出,Agent 间互操作 | +| **ACP** | Linux Foundation 协议 | + +#### Agent 工程模式(你目录里的资料正好覆盖) + +- **SOUL.md** —— 角色 + 协议化指令文件(你已有资料) +- **Kanban** —— 任务看板(Hermes v0.13,你已有资料) +- **Memory** —— 短期 / 长期 / 情景记忆 +- **4+1 视图建模** —— 多 Agent 分析方法(OpenClaw,你已有资料) + +--- + +### L⊥ · 运维与治理层(横切) + +> 生产化的"必选项",贯穿 L3-L5。 + +| 维度 | 内容 | +|---|---| +| **可观测性** | Langfuse、Helicone、Arize Phoenix、LangSmith | +| **评测** | OpenCompass、lm-eval、HumanEval、SWE-bench(编程)、AgentBench(Agent)、RAGAS(RAG) | +| **安全** | Guardrails、NeMo Guardrails、Prompt 注入检测、内容审核 | +| **治理** | API Key 鉴权、配额限流、日志审计、成本归集 | + +**你已实践的部分:** FastAPI 后端的 API Key + 限流 + 日志审计 = L⊥ 的基础设施雏形。 + +--- + +## 三、你当前位置 & 学习路径 + +### 📍 你当前主要在:L4 + L5(早期) + +已掌握 / 在做: +- **L4:** FastAPI 后端、Next.js 前端、RAGFlow 部署 +- **L5:** Hermes / SOUL.md / Claude Code 使用、多 Agent 概念 +- **L⊥:** API Key + 限流 + 日志(基础治理) + +### 路径建议(按优先级) + +#### 🥇 第一优先:横向夯实 L4 + L5(半年内) + +| 主题 | 资源 | +|---|---| +| RAG 工程深入 | 啃 RAGFlow 源码 + LangChain RAG 教程 + RAGAS 评测 | +| Agent 设计模式 | 啃 Agents.pdf(Google 白皮书)+ 清华 Hermes 报告 | +| 多 Agent 协作 | 你目录里的 OpenClaw 4+1 视图 + AutoGen / CrewAI 实践 | +| MCP 协议 | Anthropic MCP 官方文档 + 写一个自己的 MCP Server | +| 评测体系 | OpenCompass / RAGAS / AgentBench(让效果可衡量) | + +#### 🥈 第二优先:向下捅穿 L3(理解模型如何被服务) + +| 主题 | 资源 | +|---|---| +| vLLM 部署 | 实际跑一次 Qwen / Llama 私有部署 | +| 量化 | GGUF / AWQ 实测对比,理解显存-精度权衡 | +| 路由 | LiteLLM 替换你现在的 ModelArts 单 API 调用 | + +#### 🥉 第三优先:选择性进入 L2 / L1(按需) + +| 主题 | 何时学 | +|---|---| +| LoRA / QLoRA 微调 | 当 RAG/Prompt 都解决不了的领域问题时 | +| HuggingFace Transformers | 想读懂模型 / 复现论文时 | +| PyTorch 基础 | 想做研究而非应用时 | + +#### ❌ 一般不必下到 L0 / L1 深处 + +除非你做平台/基础设施。L0 是采购问题,L1 是研究问题,对应用工程师边际收益低。 + +--- + +## 四、演进时间线(背景) + +``` +2017 Transformer 论文 +2018 BERT / GPT-1 +2020 GPT-3 → 涌现现象 +2022 ChatGPT / RLHF → AI 出圈 +2023 开源浪潮(Llama)/ 多模态 → 应用层崛起 +2024 Agent / Tool Use / RAG 工业化 → ← 你大概从这里入场 +2025 推理模型(o1/R1)/ MCP / Computer Use +2026 Agent OS / 多 Agent 协作 / 智能体管理学 ← 当下 +``` + +--- + +## 五、一句话总结 + +> **应用工程师的 AI 成长不是从 L0 往上爬,而是从 L4 向两侧延伸:** +> - 向上(L5):把"会用"变成"会编排" +> - 向下(L3):把"调 API"变成"懂部署" +> - 横切(L⊥):把"能跑"变成"敢上生产" diff --git a/AI技术/思路.md b/AI技术/思路.md new file mode 100644 index 0000000..db13550 --- /dev/null +++ b/AI技术/思路.md @@ -0,0 +1,33 @@ + + + + + + +李开复 零一万物 + +2025 年 1 月,零一万物公开调整,将大部分预训练和 AI infra 团队并入阿里,放弃做超大模型,不再追求 AGI 的大模型。 + +“市场不接受,再奇妙的技术也一文不值”, 关于战略放弃:“机会来临时,要勇敢做决策;机会消失时也是。” + +调整后,零一万物定位 To B 公司。帮企业或国家、地区做 AI 转型升级。 + +叫停不够专注的事情,验证 PMF(Product Market Fit,产品市场匹配度),见客户、做产品、扩张业务线、签单 + +最大的阻力永远是 sunk cost(沉没成本)。我们走过一些弯路,做过 To C,也做过数字人。 + + + +关于技术价值:“如果Agent不能改变你季度报告里的一个数字,那就只是面子工程。” + +> AI的价值必须体现在财报上(如吞吐量、留存率、利润),而非仅仅是优化工作流或生成PPT。 + + 关于产品逻辑:“我们不训练模型,我们训练‘企业地图’。” + +> 借鉴Palantir,利用Ontology(本体论)为企业构建数字化底座(地图),再用Multi-Agent(多智能体)在上面解决问题。模型是零黏性的工具,企业数据资产才是壁垒。 + + + + 关于组织痛点:“最天才的公司也有‘口袋否决票’。” + +> 信息不对称与中层阻力是CEO的最大盲区。AI助手的作用不仅是提效,更是打破信息茧房,让CEO看到未被执行的承诺与内部的真实声音。 \ No newline at end of file