快速配置个人AI工作台

Posted on 2025-08-10 Edited on 2025-08-12 In Notes , Productivity Tips

半天之内搭建一个支持RAG向量数据库的私人AI工作台.

本文介绍如何使用开源工具快速搭建一个支持 RAG（检索增强生成）的 AI 工作台。整个流程可在半天内完成，适用于技术研究人员、知识管理者和本地化 AI 应用实践者。(部署后可完全本地运行, 但是我并没有足够多的显卡, 因此调用API完成)

2025/08/12 更新

text-embedding-v4似乎不属于Qwen3-Embedding系列, 效果距后者还有较大差距, 有条件可参考第3篇blog进行本地部署.

当文献数量不多(<=10篇)建议直接扔给AI, 文献数量多时再使用RAG数据库, RAG作用是降低搜索成本而不是提高搜索精度

流程与使用工具

安装Cherry Studio
获取文本生成AI以及Embedding Model (用于驱动所有文本工作, 推荐从阿里云以及ModelScope免费获取)
在Cherry Studio中配置对话AI (qwen3)
在Cherry Studio中配置RAG (text-embedding-v4)
在Cherry Studio中配置搜索引擎
(可选) 本地部署MinerU

准备工具

工具	用途	其他方案
Cherry Studio	支持 RAG、自定义助手、模型管理的一体化桌面应用
文本生成模型	提供对话服务，本文用ModelScope提供的 `Qwen3-235B-A22B-Instruct-2507` (每日免费调用2000次)	GPT/Gemini/Claude
embedding模型	向量嵌入模型，用于文档语义向量化，本文用阿里云百炼提供的 `text-embedding-v4` (含1m 免费token额度)	Gemini Embedding
MinerU(可选)	文本数据预处理

安装 Cherry Studio

简介

Cherry Studio 是一个支持 RAG 功能的桌面级 AI 平台，具备以下特性：

提供 OpenAI 兼容接口，轻松接入所有主流文本生成模型
提供图形化界面进行助理定义、提示词管理、知识库构建
内置RAG支持, 数据默认本地存储
支持模型使用Google搜索, 以及自定义过滤搜索结果(屏蔽垃圾内容)
支持 MCP (Model Context Protocol) 实现多功能接入
Obsidian/Notion 接入

安装方法

访问官网 https://www.cherry-ai.com/download
下载对应操作系统的安装包（Windows / macOS / Linux）
完成安装后启动程序

首次启动会初始化本地数据库，界面包含以下主要模块：

Home: 所有对话均将在此展开, 支持同时创建多对话
+/Knowledge Base: RAG数据库, 稍后可以进行管理
+/Agents: 可自定义各类AI角色
Settings: 我们将修改Model Provider & Other Settings - Web Search

获取 ModelScope 与阿里云 API 密钥

获取 ModelScope API Key

登录 ModelScope, ModelScope是阿里云旗下的开源模型社区. (建议直接使用支付宝登录)
进入「账号设置」→左侧「访问令牌」, 新建访问令牌
创建新 Token，并复制为 ms-xxxxxxxxxxxx 该 Token 将用于调用 Qwen3 模型服务. 如您有OpenAI/Google One/Anthropic Api 同样可以使用.

配置对话模型（Qwen3）

添加ModelScope模型

打开 Cherry Studio 设置界面
进入 Model Providers → ModelScope 或 Add → Provider Type: OpenAI/Gemini/Anthropic
按图片填写配置 (for ModelScope), 这里推荐添加Qwen/Qwen3-235B-A22B-Instruct-2507和Qwen/Qwen3-Coder-480B-A35B-Instruct
点击 Check，确认返回成功响应

若测试失败，请检查网络连接、API 地址是否正确，以及权限是否开通。

Model Name可在模型详情页复制

配置 RAG（使用 text-embedding-v4）

补课: Embedding 模型与文本生成模型的区别

特性	Embedding 模型	文本生成模型
功能	将文本转换为高维向量	根据输入生成自然语言输出
输入输出	文本 → 数值向量（如 1024 维）	提问 → 回答
主要用途	相似性计算、向量检索	问答、摘要、创作
成本	相对较低	较高，尤其大模型

在 RAG 架构中，流程为：

用户提问 → 使用 Embedding 模型将问题转为向量
在知识库中查找最相近的文档块（向量检索）
将检索结果拼接为上下文，传入对话模型生成最终回答

因此，必须同时配置两类模型。

配置阿里云 text-embedding-v4

登录阿里云百炼平台, 可直接使用支付宝扫码登陆
在左侧底部 密钥管理 创建 API Key.
在左侧模型广场 找到 text-embedding-v4 模型，获取Model Name，~~该模型属于Qwen3-embedding系列~~.

在 Cherry Studio 中：

进入 Settings → Model Provider → 选择Alibaba Cloud
填写api key并添加text-embedding-v4模型
跳过测试并直接启用 (embedding模型无法测试)

创建知识库

进入 Knowledge Bases → Add
参考配置如下：

选项	推荐值
Name	`Your Knowledge Base`
Embedding Model	`text-embedding-v4`
Embedding Dimensions	/leave blank
Reranker	/leave blank
Pre Process	Miner U
Requested Document Chunks	待测试

Note: Chunks实际上就是把文章切成多少份, 每份单独索引, 理论上来说越多越准.

上传文档（支持 PDF、TXT、Markdown 等格式）
系统自动完成分块、向量化与索引建立

注意：上传后需等待处理完成，状态显示为 “Ready” 后方可使用。

配置搜索引擎

在Settings - Other settings -Web Search

选择provider并调高返回结果数量
设置compression提高响应速度 (一般cutoff足够, 也可以选RAG)
下拉找到Blacklist Subscription, 推荐添加

https://git.io/ublacklist
https://raw.githubusercontent.com/Hentioe/uBlacklist-subscription/main/uBlacklist.txt

(可选) 本地部署 MinerU

MinerU 是基于深度学习的 PDF 解析工具，可更准确地提取结构化文本。每日可免费调用500次解析，也可以选择本地部署。

见官方Docs opendatalab/MinerU

使用&效果演示

本工作台的核心组件如下：

前端交互：Cherry Studio 提供用户界面
对话引擎：Qwen3 作为生成模型（通过 ModelScope API）
检索引擎：text-embedding-v4 实现文本向量化
知识存储：本地向量数据库（由 Cherry Studio 内置管理）
文档预处理：可选 MinerU 提高解析准确率

加载 RAG 后工作流程如下：

用户提问
    ↓
问题经 text-embedding-v4 向量化
    ↓
在知识库中进行向量相似度检索
    ↓
返回 top-k 相关文本块 +Reranker模型(我们省略此步)
    ↓
拼接上下文，发送至 Qwen3 模型
    ↓
生成基于上下文的回答

后续工作

性能调优：在Knowledge Base - Advanced Settings中可根据文档类型调整 Chunk Size，技术文档可设为 256–512，书籍章节可设为 1024。
模型替换：
- 可将阿里云 embedding 换为本地开源模型 (e.g. qwen3-embedding-4b)
- 可将 Qwen3 替换为本地部署的 vLLM 或 Ollama 实例
配置MCP工具：使模型可以拉取整个网页信息
添加Reranker模型：当RAG数据库过大时，单独使用embedding模型会加速token消耗，搭配reranker模型可提升准确度并减少token消耗 (e.g. qwen3-reranker-4b)

本文使用Qwen/Qwen3-235B-A22B-Instruct-2507在Cherry Studio生成并人工润色, 添加截图.