chen/juechafun

Fork 0

心平气和 5a8c79e4e4 build(备份): 手动备份

2026-05-19 19:25:19 +08:00

8.7 KiB

Raw Blame History

#领域/未知

#复盘/0 #临时/备忘 #状态/待处理

20260509-备忘-主题名-文件内容

一句话描述

[________]

~~高质量个人极客开发者终极自托管架构方案（全局定稿版）~~

高质量・个人极客开发者终极自托管架构方案（全局定稿版）

核心定位

面向个人极客 / 开发者，满足：私有不泄密、全自托管、分层解耦、可复用资产、长期 3–5 年不重构、易维护易扩展、RAG/Agent/ 多模型 / 知识库全覆盖。原则：各司其职、不功能重叠、不重复造轮子、能复用绝不重复部署、架构标准化可平滑迭代。

一、整体架构分层（从上到下 5 层，固定不变）

1. 前端入口层（人机交互）
2. 模型网关层（统一调度、路由、鉴权）
3. 应用/智能体编排层（RAG、工作流、Agent、知识库应用）
4. 推理引擎层（LLM对话、Embedding、Rerank 分工部署）
5. 知识底座层（文档管理、向量库、纯知识库存储）

无冗余、无重复、每一层只干自己该干的事，后续只在层内迭代，不改动整体架构。

二、每一层最终选定组件 & 职责定义（全局固定）

1. 前端入口层：只留「LibreChat」

选定：LibreChat 淘汰：OpenWebUI、LobeChat、ChatGPT-Next-Web 等（功能重叠，二选一锁定不再换）

职责

统一聊天 UI、多会话、文件夹、模型切换
唯一对外人机入口，日常对话、调试所有智能体 / RAG 应用
只做展示 + 会话管理，不做 RAG、不做编排、不做模型管理

为什么不换

UI 成熟、插件生态强、适配所有 OpenAI 格式、可接入网关 / 任意模型，可替换但没必要换，长期固定做主入口。

2. 模型网关层：只留「NewAPI」

选定：NewAPI 淘汰：OneAPI、LocalAI 网关、自建转发脚本

职责（极客必备价值）

统一所有模型为 标准 OpenAI 接口
多渠道聚合：Ollama、vLLM、第三方云模型一键接入
密钥管理、访问鉴权、负载均衡、自动降级、用量统计
给 LibreChat / MaxKB / Dify 提供唯一统一调用地址

核心意义

后续新增任何模型、任何推理服务，只在 NewAPI 加一条渠道，上层所有应用不用改配置。

3. 应用 / 智能体编排层：双核心「MaxKB + Dify」

不选 Langflow、n8n 做主力（偏重度工作流，个人极客日常用不上，留作备选即可）

3.1 MaxKB（主力企业级 RAG / 智能体）

职责：

私有知识库应用、外部知识库接入、Agent 智能体、工具调用
中文生态完善、部署极简、后台管理友好
对接底层 AnythingLLM 做外部知识复用

3.2 Dify（轻量快速应用 / 工作流）

职责：

快速搭建对话应用、简单工作流、API 服务输出
外部知识库适配层基于 Dify 协议打通 AnythingLLM
轻量化原型、快速落地小应用

分工

正式知识库 / 智能体 → MaxKB
快速原型、简单工作流、对外 API → Dify 两者互补，不冲突、不冗余。

4. 推理引擎层：Ollama + vLLM 永久并存（固定分工，不二选一）

4.1 Ollama（定位：轻量化日常推理 + Embedding）

职责固定：

日常对话 LLM：Qwen/GLM/DeepSeek 等 7B–14B
专属承载 Embedding 模型：bge-large-zh
优势：模型管理极简、一键拉取、运维零负担、常驻稳定

4.2 vLLM（定位：高性能推理 + 专属 Rerank）

职责固定：

专门跑 bge-reranker-v2-m3 重排模型（Ollama 无标准 rerank 接口）
后续跑 14B + 大模型、高并发、长文本批量推理
不绑定 HuggingFace 也能用，可本地离线模型挂载

为什么必须并存

Ollama 赢易用性，vLLM 赢性能 + 特殊任务（Rerank）
不用把所有模型迁到一个服务，各司其职，长期最省心

5. 知识底座层：唯一固定「AnythingLLM」

只把 AnythingLLM 当做纯知识库 / 向量底座，禁用它的对话能力

职责：

全格式文档解析、自动分块、向量入库、文件夹管理
唯一知识资产沉淀：一次上传，LibreChat/MaxKB/Dify 全复用
提供标准 Developer API：向量检索、文档管理、工作区管理

核心价值

整个架构只有一个知识库真相源，不再重复上传、重复向量化，资产永久可复用。

三、完整全局调用链路（固定死，以后永远按这个走）

1. 日常对话链路

用户 → LibreChat → NewAPI → Ollama / vLLM / 第三方模型

2. RAG 知识库问答链路

用户 → LibreChat
     ↓
MaxKB / Dify
     ↓
适配层（你写的 Dify 外部知识库转接服务）
     ↓
AnythingLLM（向量粗排召回）
     ↓
vLLM（Rerank 精排重排序）
     ↓
NewAPI → Ollama/大模型 生成回答

3. 新增模型 / 新服务链路

新模型部署 → 仅在 NewAPI 添加渠道 → 上层所有应用自动可用

四、其他一堆工具统一取舍规则（不用再纠结）

✅ 永久保留、纳入生态

LibreChat、NewAPI、MaxKB、Dify、Ollama、vLLM、AnythingLLM

❌ 直接放弃 / 不部署 / 不深耕（功能重叠或场景不匹配）

Hermes Agent、OpenClaw、ClawSwarm、QwenPaw、SQLBot、UPage、BettaFish、DBHub、AstrBot、LangBot、Kirara AI、Vane、OpenWebUI、LobeChat、OneAPI、LocalAI、Langflow、n8n

理由：要么功能和现有栈重复，要么生态小众、要么垂直场景用不上、要么可替换性极强，没必要纳入长期架构。

五、这套方案的核心优势（匹配你高质量可持续需求）

全分层解耦 每一层独立，后续换前端、换推理、换网关，底层不动，不用重构整个系统。
知识资产唯一沉淀 所有文档只进 AnythingLLM 一次，全平台复用，无重复劳动。
模型统一治理 NewAPI 做唯一网关，不用每个应用单独配置模型地址密钥。
推理分工极致合理 Ollama 管日常 + 嵌入，vLLM 管重排 + 高性能，互不干扰。
可长期发展 3–5 年 所有组件都是开源主流、社区活跃、迭代稳定，不是小众短命项目。
极客自由度拉满 可自定义适配层、可扩展 API、可加工作流、可私有部署不依赖外网、可随时扩容模型和知识库。
运维极简 全 Docker 部署、开机自启、无复杂依赖、层内迭代不影响全局。

六、后续长期维护规则（定规矩，以后不瞎折腾）

不再随意新增小众 AI 应用，只在现有 7 个核心组件内迭代；
永远只把 AnythingLLM 当唯一知识库，不再建新向量库；
模型只在 Ollama/vLLM 部署，统一由 NewAPI 分发；
前端固定 LibreChat，不再频繁换 UI；
RAG/Agent 优先 MaxKB，轻量应用走 Dify，不碰其他小众智能体框架。

如果你需要，我可以下一步给你整理： 1. 统一 docker-compose 全集配置（所有服务一键启停） 2. 每服务固定端口、固定配置、固定访问地址清单 3. 适配层最终完整版（自带 vLLM rerank、完美对接整套架构）

#领域/未知

#复盘/0 #临时/备忘 #状态/待处理

20260509-备忘-主题名-文件内容

一句话描述

[自托管大模型架构]

核心规范

空想不如行动，积累胜于苛求。实践 > 沉淀 > 完美主义

实践不是盲目行动，而是带着“小目标、可验证“的方向试错，实践后必须沉淀（比如记录问题、总结规律），否则就是低水平重复。

实践大于沉淀，沉淀大于完美；完美是沉淀的终局方向，沉淀是实践的复盘产物；分域施策，避坑落地，始于行动，终于迭代。

三省沉淀法

达成了[________]目标
遇到了[________]问题
下次改进[________]

个人理解

[________]

实践计划

#状态/待实践

[________]
[________]
[________]

核心定义

个人极客/开发者，满足：私有不泄密、全自托管、分层解耦、可复用资产、长期3~5年不重构、易维护易扩展、RAG/Agent/多模型/知识库全覆盖原则：各司其职、不功能重叠、不重复造轮子、能复用绝不重新部署、架构标准可平滑迭代

8.7 KiB Raw Blame History Unescape Escape

一句话描述

高质量・个人极客开发者 终极自托管架构方案（全局定稿版）

核心定位

一、整体架构分层（从上到下 5 层，固定不变）

二、每一层最终选定组件 & 职责定义（全局固定）

1. 前端入口层：只留「LibreChat」

职责

为什么不换

2. 模型网关层：只留「NewAPI」

职责（极客必备价值）

核心意义

3. 应用 / 智能体编排层：双核心「MaxKB + Dify」

3.1 MaxKB（主力企业级 RAG / 智能体）

3.2 Dify（轻量快速应用 / 工作流）

分工

4. 推理引擎层：Ollama + vLLM 永久并存（固定分工，不二选一）

4.1 Ollama（定位：轻量化日常推理 + Embedding）

4.2 vLLM（定位：高性能推理 + 专属 Rerank）

为什么必须并存

5. 知识底座层：唯一固定「AnythingLLM」

核心价值

三、完整全局调用链路（固定死，以后永远按这个走）

1. 日常对话链路

2. RAG 知识库问答链路

3. 新增模型 / 新服务链路

四、其他一堆工具统一取舍规则（不用再纠结）

✅ 永久保留、纳入生态

❌ 直接放弃 / 不部署 / 不深耕（功能重叠或场景不匹配）

五、这套方案的核心优势（匹配你高质量可持续需求）

六、后续长期维护规则（定规矩，以后不瞎折腾）

一句话描述

核心规范

三省沉淀法

个人理解

实践计划

核心定义

示例

✅ 示例一：

✅ 示例二：

避坑点

8.7 KiB

Raw Blame History

高质量・个人极客开发者终极自托管架构方案（全局定稿版）