From 450d3f52e35a12b545c0d5f5f7a212b136ffd7ab Mon Sep 17 00:00:00 2001
From: Zimy <zimyx@outlook.com>
Date: Thu, 28 May 2026 10:16:04 +0800
Subject: [PATCH] =?UTF-8?q?=09=E6=96=B0=E6=96=87=E4=BB=B6=EF=BC=9A=20=20?=
 =?UTF-8?q?=20"AI\346\212\200\346\234\257/AI\346\212\200\346\234\257\346\2?=
 =?UTF-8?q?40\210\345\210\206\345\261\202\346\241\206\346\236\266.md"=20?=
 =?UTF-8?q?=09=E6=96=B0=E6=96=87=E4=BB=B6=EF=BC=9A=20=20=20"AI\346\212\200?=
 =?UTF-8?q?\346\234\257/\346\200\235\350\267\257.md"?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 AI技术/AI技术栈分层框架.md | 321 +++++++++++++++++++++++++++++++++++++
 AI技术/思路.md             |  33 ++++
 2 files changed, 354 insertions(+)
 create mode 100644 AI技术/AI技术栈分层框架.md
 create mode 100644 AI技术/思路.md
diff --git a/AI技术/AI技术栈分层框架.md b/AI技术/AI技术栈分层框架.md
new file mode 100644
index 0000000..f746740
--- /dev/null
+++ b/AI技术/AI技术栈分层框架.md
@@ -0,0 +1,321 @@
+---
+title: AI 技术栈分层框架
+subtitle: L0 算力 → L5 Agent 编排，附运维治理横切层
+date: 2026-05-15
+---
+
+# AI 技术栈分层框架（架构视角）
+
+> 把整个 AI 技术按"分层架构"组织，每层只关心相邻接口。
+> 看一眼图，知道自己站在哪一层；看一眼层内容，知道下一步学什么。
+
+---
+
+## 一、全栈分层图
+
+```mermaid
+flowchart TB
+    L5["<b>L5 · Agent 编排层</b><br/>规划 · 记忆 · 工具 · 反思 · 多 Agent 协作<br/><i>LangGraph · AutoGen · CrewAI · Hermes · Claude Code · MCP / A2A</i>"]
+    L4["<b>L4 · 应用层</b><br/>RAG · Chatbot · 工作流 · 多模态应用<br/><i>RAGFlow · Dify · LangChain · LlamaIndex · Milvus · pgvector · BGE</i>"]
+    L3["<b>L3 · 模型服务层</b><br/>推理引擎 · 模型路由 · 量化<br/><i>vLLM · SGLang · Ollama · TGI · LiteLLM · OneAPI</i>"]
+    L2["<b>L2 · 模型层</b><br/>闭源 API · 开源大模型 · 多模态 · 推理模型 · 微调<br/><i>GPT · Claude · Gemini · Llama · Qwen · DeepSeek · SD/Flux</i>"]
+    L1["<b>L1 · 框架层</b><br/>深度学习框架 · 模型库 · 训练/微调工具<br/><i>PyTorch · JAX · 飞桨 · HuggingFace · DeepSpeed · PEFT</i>"]
+    L0["<b>L0 · 算力层</b><br/>训练芯片 · 推理芯片 · 高速互联<br/><i>H100/H200/B200 · MI300 · TPU · 昇腾 · L40S</i>"]
+
+    OPS["<b>L⊥ · 运维与治理层（横切）</b><br/>评测 · 监控 · 安全 · 成本 · 合规<br/><i>Langfuse · OpenCompass · AgentBench · Guardrails · Helicone</i>"]
+
+    L5 -->|调用| L4
+    L4 -->|调用| L3
+    L3 -->|加载| L2
+    L2 -->|训练于| L1
+    L1 -->|运行于| L0
+
+    OPS -.贯穿.-> L5
+    OPS -.贯穿.-> L4
+    OPS -.贯穿.-> L3
+
+    classDef current fill:#FFD700,stroke:#E69900,stroke-width:3px,color:#000
+    classDef base fill:#E8F4FD,stroke:#4A90E2,color:#000
+    classDef ops fill:#F0E6FF,stroke:#9966CC,color:#000
+
+    class L4,L5 current
+    class L0,L1,L2,L3 base
+    class OPS ops
+```
+
+> 🟡 金色 = 你当前主战场（L4 应用层 + L5 Agent 编排层）
+> 🔵 蓝色 = 上游基础层（向上理解，按需选型）
+> 🟣 紫色 = 横切层（生产化必经）
+
+---
+
+## 二、各层详解
+
+### L0 · 算力层
+
+| 维度 | 内容 |
+|---|---|
+| **定位** | 物理算力底座，决定能跑多大模型、多快 |
+| **关键指标** | FLOPS、显存容量、显存带宽、互联带宽（NVLink/IB） |
+| **训练芯片** | NVIDIA H100/H200/B200、AMD MI300X、Google TPU v5p |
+| **推理芯片** | NVIDIA L40S/A100/A10、华为昇腾 910B、寒武纪、燧原、海光 |
+| **端侧** | Apple M 系 NPU、高通骁龙、Jetson、AMD XDNA |
+| **核心矛盾** | 算力 vs 显存 vs 互联 vs **软件生态**（CUDA 仍是事实标准） |
+
+**何时关心这一层：** 当你考虑"私有部署 70B+ 模型"或"采购推理服务器"时必做选型。日常应用工程师不必深究。
+
+---
+
+### L1 · 框架层
+
+| 维度 | 内容 |
+|---|---|
+| **定位** | 把算力变成可编程的训练/推理基础设施 |
+| **核心能力** | 自动微分、张量并行、混合精度、分布式训练 |
+| **训练框架** | **PyTorch**（事实标准）、JAX（前沿研究）、PaddlePaddle（百度，国内适配好）、MindSpore（华为，昇腾配套） |
+| **模型库** | **HuggingFace Transformers / Diffusers / Datasets**（必学） |
+| **分布式训练** | DeepSpeed（ZeRO）、Megatron-LM、FSDP、Accelerate |
+| **微调工具** | PEFT（LoRA/QLoRA）、TRL（RLHF/DPO）、Unsloth（加速 LoRA） |
+
+**何时关心这一层：** 当你要**微调模型**或**理解模型如何训练**时必学。HuggingFace 是必经之路；你目录里的"百度飞桨"资料属于这一层。
+
+---
+
+### L2 · 模型层
+
+| 维度 | 内容 |
+|---|---|
+| **定位** | 基础模型本身——所有 AI 应用的"大脑" |
+| **关键技术** | 预训练、SFT、RLHF/DPO/GRPO、长上下文、MoE、推理时计算（test-time compute） |
+
+#### 模型分类
+
+| 分类 | 代表 | 特点 |
+|---|---|---|
+| **闭源 API（旗舰）** | GPT-4o / o3、Claude 4.7 Opus / Sonnet 4.6、Gemini 2.5 Pro | 能力最强，按 token 计费 |
+| **开源（旗舰）** | Llama 4、Qwen 3、DeepSeek V3 / R1、GLM-4.5、Mistral Large | 可私有部署，可微调 |
+| **推理模型** | o3、DeepSeek R1、Qwen QwQ、Claude Extended Thinking | 长链思考，数学/代码强 |
+| **多模态** | GPT-4o（视觉）、Gemini（视频）、Sora（视频生成）、Flux/SD 3.5（图像）、Suno（音乐） | 跨模态理解/生成 |
+| **端侧小模型** | Llama 3.2-1B/3B、Qwen 2.5-0.5B/1.5B、Phi-4-mini | 移动设备/边缘部署 |
+| **垂域模型** | 代码（DeepSeek-Coder）、数学（DeepSeekMath）、医疗、金融 | 行业特化 |
+
+#### 选型矩阵
+
+| 场景 | 推荐路径 |
+|---|---|
+| 最强能力、不在意成本 | Claude 4.7 Opus / o3 |
+| 平衡能力与成本 | Claude 4.6 Sonnet / GPT-4o / Gemini Flash |
+| 私有数据、不能上云 | Qwen 3 / DeepSeek V3（自部署） |
+| 推理密集（数学/代码） | DeepSeek R1 / o3-mini |
+| 端侧/嵌入式 | Qwen 2.5-1.5B 量化版 |
+
+**何时关心这一层：** 永远关心——这是你能力的天花板。
+
+---
+
+### L3 · 模型服务层
+
+| 维度 | 内容 |
+|---|---|
+| **定位** | 把模型权重变成可调用的 API（通常兼容 OpenAI 协议） |
+| **关键技术** | KV cache、Continuous Batching、PagedAttention、量化（INT8/INT4/FP8）、推测解码（Speculative Decoding） |
+
+#### 工具谱系
+
+| 类型 | 代表 | 适用 |
+|---|---|---|
+| **高性能推理引擎** | **vLLM**（最主流）、SGLang（速度新王）、TensorRT-LLM（NVIDIA 极致）、TGI（HF 生态） | 生产部署 |
+| **易用本地推理** | **Ollama**（最易用）、LM Studio、LocalAI、llama.cpp | 开发/试用 |
+| **多模型路由** | **LiteLLM**（统一 OpenAI 协议）、OneAPI、OpenRouter | 多模型切换 |
+| **量化格式** | GGUF（llama.cpp 系）、AWQ、GPTQ、bitsandbytes | 降显存 |
+
+**核心矛盾：** 吞吐 vs 延迟 vs 显存占用 vs 易用度
+- 个人/小流量 → Ollama
+- 生产/高并发 → vLLM
+- 极致延迟 → SGLang / TensorRT-LLM
+
+**何时关心这一层：** 当你从"调云 API"切换到"自己部署模型"时必须进；用 LiteLLM 做多供应商路由是 L4 工程师的低成本切入点。
+
+---
+
+### L4 · 应用层
+
+> **你正在这一层。**
+
+| 维度 | 内容 |
+|---|---|
+| **定位** | 把模型能力包装成具体的产品形态 |
+| **核心范式** | RAG、Chatbot、工作流、多模态应用、Function Calling |
+
+#### 应用范式
+
+##### 1. RAG（检索增强生成）—— 当前最成熟的企业应用范式
+
+```
+文档 → 解析 → 分块 → 向量化 → 索引
+                                  ↓
+用户问 → 查询改写 → 检索（向量+BM25）→ 重排 → 拼上下文 → LLM → 答案+引用
+```
+
+| 组件 | 主流选型 |
+|---|---|
+| **全栈 RAG 平台** | **RAGFlow**（你已部署）、Dify、FastGPT、AnythingLLM |
+| **开发框架** | LangChain、LlamaIndex、Haystack |
+| **向量数据库** | Milvus（大规模）、Qdrant（性能均衡）、**pgvector**（轻量集成）、Chroma、Weaviate |
+| **Embedding 模型** | BGE-M3（中文最强）、jina-v3、OpenAI text-embedding-3、Qwen embedding |
+| **重排模型** | bge-reranker-v2、jina-reranker、Cohere rerank |
+| **文档解析** | RAGFlow 内置、Unstructured、MinerU、Marker |
+
+**RAG 工程关键问题（你下一步要啃的）：**
+- 分块策略（固定 / 语义 / 父子分块 / Late Chunking）
+- 混合检索（向量 + BM25 + 关键词）
+- 查询改写（HyDE、Multi-Query、Step-back）
+- 重排 + 引用追溯
+- 长上下文 RAG vs Agentic RAG
+
+##### 2. Chatbot / 对话助手
+- 上下文管理、人设（System Prompt）、长期记忆
+- 代表：Coze / 扣子、Dify、自建（FastAPI + Next.js，你的路径）
+
+##### 3. 工作流编排
+- 可视化拖拽：Dify Workflow、Coze、n8n + AI 节点
+- 代码化：LangGraph（更偏 Agent）
+
+##### 4. Function Calling / Tool Use
+- 模型驱动外部工具调用，是通往 Agent 的桥梁
+
+---
+
+### L5 · Agent 编排层
+
+> **你正在这一层（早期）。**
+
+| 维度 | 内容 |
+|---|---|
+| **定位** | 把"一次问答"升级为"自主完成多步任务" |
+| **核心要素** | **规划 · 记忆 · 工具使用 · 反思 · 多 Agent 协作** |
+
+#### Agent 设计范式
+
+| 范式 | 说明 | 代表 |
+|---|---|---|
+| **ReAct** | 思考-行动-观察循环 | LangChain ReAct |
+| **Plan-and-Execute** | 先规划再执行 | LangGraph、BabyAGI |
+| **Reflection** | 自我反思修正 | Reflexion |
+| **Multi-Agent** | 多 Agent 协作 | AutoGen、CrewAI、Hermes（你的目录） |
+| **Computer Use** | 操控屏幕/浏览器 | Claude Computer Use、Browser Use |
+
+#### Agent 框架
+
+| 框架 | 定位 |
+|---|---|
+| **LangGraph** | 图式编排，工业级（最主流） |
+| **AutoGen** | 多 Agent 对话（微软） |
+| **CrewAI** | 角色化协作（简单上手） |
+| **OpenAI Agent SDK / Swarm** | OpenAI 官方轻量框架 |
+| **LlamaIndex Agents** | RAG 集成好 |
+
+#### 代表性 Agent 产品
+
+| 类型 | 代表 |
+|---|---|
+| **编程 Agent** | **Claude Code**（你在用）、Cursor、Cline、Aider、Devin |
+| **通用 Agent** | Manus、Hermes（你的目录）、OpenAI Operator |
+| **研究 Agent** | Deep Research（OpenAI/Perplexity）、GPT-Researcher |
+
+#### 关键协议（2025-2026 新基建）
+
+| 协议 | 作用 |
+|---|---|
+| **MCP（Model Context Protocol）** | Anthropic 推出，工具/资源协议化，已成事实标准 |
+| **A2A（Agent-to-Agent）** | Google 推出，Agent 间互操作 |
+| **ACP** | Linux Foundation 协议 |
+
+#### Agent 工程模式（你目录里的资料正好覆盖）
+
+- **SOUL.md** —— 角色 + 协议化指令文件（你已有资料）
+- **Kanban** —— 任务看板（Hermes v0.13，你已有资料）
+- **Memory** —— 短期 / 长期 / 情景记忆
+- **4+1 视图建模** —— 多 Agent 分析方法（OpenClaw，你已有资料）
+
+---
+
+### L⊥ · 运维与治理层（横切）
+
+> 生产化的"必选项"，贯穿 L3-L5。
+
+| 维度 | 内容 |
+|---|---|
+| **可观测性** | Langfuse、Helicone、Arize Phoenix、LangSmith |
+| **评测** | OpenCompass、lm-eval、HumanEval、SWE-bench（编程）、AgentBench（Agent）、RAGAS（RAG） |
+| **安全** | Guardrails、NeMo Guardrails、Prompt 注入检测、内容审核 |
+| **治理** | API Key 鉴权、配额限流、日志审计、成本归集 |
+
+**你已实践的部分：** FastAPI 后端的 API Key + 限流 + 日志审计 = L⊥ 的基础设施雏形。
+
+---
+
+## 三、你当前位置 & 学习路径
+
+### 📍 你当前主要在：L4 + L5（早期）
+
+已掌握 / 在做：
+- **L4：** FastAPI 后端、Next.js 前端、RAGFlow 部署
+- **L5：** Hermes / SOUL.md / Claude Code 使用、多 Agent 概念
+- **L⊥：** API Key + 限流 + 日志（基础治理）
+
+### 路径建议（按优先级）
+
+#### 🥇 第一优先：横向夯实 L4 + L5（半年内）
+
+| 主题 | 资源 |
+|---|---|
+| RAG 工程深入 | 啃 RAGFlow 源码 + LangChain RAG 教程 + RAGAS 评测 |
+| Agent 设计模式 | 啃 Agents.pdf（Google 白皮书）+ 清华 Hermes 报告 |
+| 多 Agent 协作 | 你目录里的 OpenClaw 4+1 视图 + AutoGen / CrewAI 实践 |
+| MCP 协议 | Anthropic MCP 官方文档 + 写一个自己的 MCP Server |
+| 评测体系 | OpenCompass / RAGAS / AgentBench（让效果可衡量） |
+
+#### 🥈 第二优先：向下捅穿 L3（理解模型如何被服务）
+
+| 主题 | 资源 |
+|---|---|
+| vLLM 部署 | 实际跑一次 Qwen / Llama 私有部署 |
+| 量化 | GGUF / AWQ 实测对比，理解显存-精度权衡 |
+| 路由 | LiteLLM 替换你现在的 ModelArts 单 API 调用 |
+
+#### 🥉 第三优先：选择性进入 L2 / L1（按需）
+
+| 主题 | 何时学 |
+|---|---|
+| LoRA / QLoRA 微调 | 当 RAG/Prompt 都解决不了的领域问题时 |
+| HuggingFace Transformers | 想读懂模型 / 复现论文时 |
+| PyTorch 基础 | 想做研究而非应用时 |
+
+#### ❌ 一般不必下到 L0 / L1 深处
+
+除非你做平台/基础设施。L0 是采购问题，L1 是研究问题，对应用工程师边际收益低。
+
+---
+
+## 四、演进时间线（背景）
+
+```
+2017  Transformer 论文
+2018  BERT / GPT-1
+2020  GPT-3                              → 涌现现象
+2022  ChatGPT / RLHF                     → AI 出圈
+2023  开源浪潮（Llama）/ 多模态           → 应用层崛起
+2024  Agent / Tool Use / RAG 工业化       → ← 你大概从这里入场
+2025  推理模型（o1/R1）/ MCP / Computer Use
+2026  Agent OS / 多 Agent 协作 / 智能体管理学  ← 当下
+```
+
+---
+
+## 五、一句话总结
+
+> **应用工程师的 AI 成长不是从 L0 往上爬，而是从 L4 向两侧延伸：**
+> - 向上（L5）：把"会用"变成"会编排"
+> - 向下（L3）：把"调 API"变成"懂部署"
+> - 横切（L⊥）：把"能跑"变成"敢上生产"
diff --git a/AI技术/思路.md b/AI技术/思路.md
new file mode 100644
index 0000000..db13550
--- /dev/null
+++ b/AI技术/思路.md
@@ -0,0 +1,33 @@
+ 
+
+
+
+
+
+李开复 零一万物 
+
+2025 年 1 月，零一万物公开调整，将大部分预训练和 AI infra 团队并入阿里，放弃做超大模型，不再追求 AGI 的大模型。
+
+“市场不接受，再奇妙的技术也一文不值”， 关于战略放弃：“机会来临时，要勇敢做决策；机会消失时也是。”
+
+调整后，零一万物定位 To B 公司。帮企业或国家、地区做 AI 转型升级。
+
+叫停不够专注的事情，验证 PMF（Product Market Fit，产品市场匹配度），见客户、做产品、扩张业务线、签单
+
+最大的阻力永远是 sunk cost（沉没成本）。我们走过一些弯路，做过 To C，也做过数字人。
+
+
+
+关于技术价值：“如果Agent不能改变你季度报告里的一个数字，那就只是面子工程。”
+
+> AI的价值必须体现在财报上（如吞吐量、留存率、利润），而非仅仅是优化工作流或生成PPT。
+
+ 关于产品逻辑：“我们不训练模型，我们训练‘企业地图’。”
+
+> 借鉴Palantir，利用Ontology（本体论）为企业构建数字化底座（地图），再用Multi-Agent（多智能体）在上面解决问题。模型是零黏性的工具，企业数据资产才是壁垒。
+
+
+
+ 关于组织痛点：“最天才的公司也有‘口袋否决票’。”
+
+> 信息不对称与中层阻力是CEO的最大盲区。AI助手的作用不仅是提效，更是打破信息茧房，让CEO看到未被执行的承诺与内部的真实声音。
\ No newline at end of file