juechafun/Untitled 11.md

8.7 KiB
Raw Blame History


#领域/未知

#复盘/0 #临时/备忘 #状态/待处理

20260509-备忘-主题名-文件内容

一句话描述

[________]


高质量个人极客开发者终极自托管架构方案(全局定稿版)

高质量・个人极客开发者 终极自托管架构方案(全局定稿版)

核心定位

面向个人极客 / 开发者,满足:私有不泄密、全自托管、分层解耦、可复用资产、长期 35 年不重构、易维护易扩展、RAG/Agent/ 多模型 / 知识库全覆盖。 原则:各司其职、不功能重叠、不重复造轮子、能复用绝不重复部署、架构标准化可平滑迭代

一、整体架构分层(从上到下 5 层,固定不变)

1. 前端入口层(人机交互)
2. 模型网关层(统一调度、路由、鉴权)
3. 应用/智能体编排层RAG、工作流、Agent、知识库应用
4. 推理引擎层LLM对话、Embedding、Rerank 分工部署)
5. 知识底座层(文档管理、向量库、纯知识库存储)

无冗余、无重复、每一层只干自己该干的事,后续只在层内迭代,不改动整体架构。


二、每一层最终选定组件 & 职责定义(全局固定)

1. 前端入口层只留「LibreChat」

选定LibreChat 淘汰OpenWebUI、LobeChat、ChatGPT-Next-Web 等(功能重叠,二选一锁定不再换)

职责

  • 统一聊天 UI、多会话、文件夹、模型切换

  • 唯一对外人机入口,日常对话、调试所有智能体 / RAG 应用

  • 只做展示 + 会话管理,不做 RAG、不做编排、不做模型管理

为什么不换

UI 成熟、插件生态强、适配所有 OpenAI 格式、可接入网关 / 任意模型,可替换但没必要换,长期固定做主入口


2. 模型网关层只留「NewAPI」

选定NewAPI 淘汰OneAPI、LocalAI 网关、自建转发脚本

职责(极客必备价值)

  • 统一所有模型为 标准 OpenAI 接口

  • 多渠道聚合Ollama、vLLM、第三方云模型一键接入

  • 密钥管理、访问鉴权、负载均衡、自动降级、用量统计

  • 给 LibreChat / MaxKB / Dify 提供唯一统一调用地址

核心意义

后续新增任何模型、任何推理服务,只在 NewAPI 加一条渠道,上层所有应用不用改配置。


3. 应用 / 智能体编排层双核心「MaxKB + Dify」

不选 Langflow、n8n 做主力(偏重度工作流,个人极客日常用不上,留作备选即可)

3.1 MaxKB主力企业级 RAG / 智能体)

职责:

  • 私有知识库应用、外部知识库接入、Agent 智能体、工具调用

  • 中文生态完善、部署极简、后台管理友好

  • 对接底层 AnythingLLM 做外部知识复用

3.2 Dify轻量快速应用 / 工作流)

职责:

  • 快速搭建对话应用、简单工作流、API 服务输出

  • 外部知识库适配层基于 Dify 协议打通 AnythingLLM

  • 轻量化原型、快速落地小应用

分工

  • 正式知识库 / 智能体 → MaxKB

  • 快速原型、简单工作流、对外 API → Dify 两者互补,不冲突、不冗余。


4. 推理引擎层Ollama + vLLM 永久并存(固定分工,不二选一)

4.1 Ollama定位轻量化日常推理 + Embedding

职责固定:

  • 日常对话 LLMQwen/GLM/DeepSeek 等 7B14B

  • 专属承载 Embedding 模型bge-large-zh

  • 优势:模型管理极简、一键拉取、运维零负担、常驻稳定

4.2 vLLM定位高性能推理 + 专属 Rerank

职责固定:

  • 专门跑 bge-reranker-v2-m3 重排模型Ollama 无标准 rerank 接口)

  • 后续跑 14B + 大模型、高并发、长文本批量推理

  • 不绑定 HuggingFace 也能用,可本地离线模型挂载

为什么必须并存

  • Ollama 赢易用性vLLM 赢性能 + 特殊任务Rerank

  • 不用把所有模型迁到一个服务,各司其职,长期最省心


5. 知识底座层唯一固定「AnythingLLM」

只把 AnythingLLM 当做纯知识库 / 向量底座,禁用它的对话能力

职责:

  • 全格式文档解析、自动分块、向量入库、文件夹管理

  • 唯一知识资产沉淀:一次上传LibreChat/MaxKB/Dify 全复用

  • 提供标准 Developer API向量检索、文档管理、工作区管理

核心价值

整个架构只有一个知识库真相源,不再重复上传、重复向量化,资产永久可复用。


三、完整全局调用链路(固定死,以后永远按这个走)

1. 日常对话链路

用户 → LibreChat → NewAPI → Ollama / vLLM / 第三方模型

2. RAG 知识库问答链路

用户 → LibreChat
     ↓
MaxKB / Dify
     ↓
适配层(你写的 Dify 外部知识库转接服务)
     ↓
AnythingLLM向量粗排召回
     ↓
vLLMRerank 精排重排序)
     ↓
NewAPI → Ollama/大模型 生成回答

3. 新增模型 / 新服务链路

新模型部署 → 仅在 NewAPI 添加渠道 → 上层所有应用自动可用


四、其他一堆工具统一取舍规则(不用再纠结)

永久保留、纳入生态

  • LibreChat、NewAPI、MaxKB、Dify、Ollama、vLLM、AnythingLLM

直接放弃 / 不部署 / 不深耕(功能重叠或场景不匹配)

Hermes Agent、OpenClaw、ClawSwarm、QwenPaw、SQLBot、UPage、BettaFish、DBHub、AstrBot、LangBot、Kirara AI、Vane、OpenWebUI、LobeChat、OneAPI、LocalAI、Langflow、n8n

理由: 要么功能和现有栈重复,要么生态小众、要么垂直场景用不上、要么可替换性极强,没必要纳入长期架构。


五、这套方案的核心优势(匹配你高质量可持续需求)

  1. 全分层解耦 每一层独立,后续换前端、换推理、换网关,底层不动,不用重构整个系统。

  2. 知识资产唯一沉淀 所有文档只进 AnythingLLM 一次,全平台复用,无重复劳动。

  3. 模型统一治理 NewAPI 做唯一网关,不用每个应用单独配置模型地址密钥。

  4. 推理分工极致合理 Ollama 管日常 + 嵌入vLLM 管重排 + 高性能,互不干扰。

  5. 可长期发展 35 年 所有组件都是开源主流、社区活跃、迭代稳定,不是小众短命项目。

  6. 极客自由度拉满 可自定义适配层、可扩展 API、可加工作流、可私有部署不依赖外网、可随时扩容模型和知识库。

  7. 运维极简 全 Docker 部署、开机自启、无复杂依赖、层内迭代不影响全局。


六、后续长期维护规则(定规矩,以后不瞎折腾)

  1. 不再随意新增小众 AI 应用,只在现有 7 个核心组件内迭代;

  2. 永远只把 AnythingLLM 当唯一知识库,不再建新向量库;

  3. 模型只在 Ollama/vLLM 部署,统一由 NewAPI 分发;

  4. 前端固定 LibreChat不再频繁换 UI

  5. RAG/Agent 优先 MaxKB轻量应用走 Dify不碰其他小众智能体框架。


如果你需要,我可以下一步给你整理: 1. 统一 docker-compose 全集配置(所有服务一键启停) 2. 每服务固定端口、固定配置、固定访问地址清单 3. 适配层最终完整版(自带 vLLM rerank、完美对接整套架构


#领域/未知

#复盘/0 #临时/备忘 #状态/待处理

20260509-备忘-主题名-文件内容

一句话描述

[自托管大模型架构]


核心规范

空想不如行动,积累胜于苛求。 实践 > 沉淀 > 完美主义

实践不是盲目行动,而是带着“小目标、可验证“的方向试错,实践后必须沉淀(比如记录问题、总结规律),否则就是低水平重复。

实践大于沉淀,沉淀大于完美;完美是沉淀的终局方向,沉淀是实践的复盘产物;分域施策,避坑落地,始于行动,终于迭代。


三省沉淀法

  • 达成了[________]目标
  • 遇到了[________]问题
  • 下次改进[________]

个人理解

[________]

实践计划

#状态/待实践

  1. [________]
  2. [________]
  3. [________]

核心定义

个人极客/开发者, 满足私有不泄密、全自托管、分层解耦、可复用资产、长期3~5年不重构、易维护易扩展、RAG/Agent/多模型/知识库全覆盖 原则:各司其职、不功能重叠、不重复造轮子、能复用绝不重新部署、架构标准可平滑迭代

示例

示例一:


示例二:


避坑点

⚠️ 避坑点1 解决方案:

⚠️ 避坑点1 核心问题: 解决方案: