快速配置个人AI工作台
本文介绍如何使用开源工具快速搭建一个支持 RAG(检索增强生成)的 AI 工作台。整个流程可在半天内完成,适用于技术研究人员、知识管理者和本地化 AI 应用实践者。(部署后可完全本地运行, 但是我并没有足够多的显卡, 因此调用API完成)
2025/08/12 更新
text-embedding-v4似乎不属于Qwen3-Embedding系列, 效果距后者还有较大差距, 有条件可参考第3篇blog进行本地部署.
当文献数量不多(<=10篇)建议直接扔给AI, 文献数量多时再使用RAG数据库, RAG作用是降低搜索成本而不是提高搜索精度
流程与使用工具
- 安装Cherry Studio
- 获取文本生成AI以及Embedding Model (用于驱动所有文本工作, 推荐从阿里云以及ModelScope免费获取)
- 在Cherry Studio中配置 对话AI (qwen3)
- 在Cherry Studio中配置RAG (text-embedding-v4)
- 在Cherry Studio中配置搜索引擎
- (可选) 本地部署MinerU
准备工具
| 工具 | 用途 | 其他方案 |
|---|---|---|
| Cherry Studio | 支持 RAG、自定义助手、模型管理的一体化桌面应用 | |
| 文本生成模型 | 提供对话服务,本文用ModelScope提供的 Qwen3-235B-A22B-Instruct-2507 (每日免费调用2000次) |
GPT/Gemini/Claude |
| embedding模型 | 向量嵌入模型,用于文档语义向量化,本文用阿里云百炼提供的 text-embedding-v4 (含1m 免费token额度) |
Gemini Embedding |
| MinerU(可选) | 文本数据预处理 |
安装 Cherry Studio
简介
Cherry Studio 是一个支持 RAG 功能的桌面级 AI 平台,具备以下特性:
- 提供 OpenAI 兼容接口,轻松接入所有主流文本生成模型
- 提供图形化界面进行助理定义、提示词管理、知识库构建
- 内置RAG支持, 数据默认本地存储
- 支持模型使用Google搜索, 以及自定义过滤搜索结果(屏蔽垃圾内容)
- 支持 MCP (Model Context Protocol) 实现多功能接入
- Obsidian/Notion 接入
安装方法
- 访问官网 https://www.cherry-ai.com/download
- 下载对应操作系统的安装包(Windows / macOS / Linux)
- 完成安装后启动程序
首次启动会初始化本地数据库,界面包含以下主要模块:
- Home: 所有对话均将在此展开, 支持同时创建多对话
- +/Knowledge Base: RAG数据库, 稍后可以进行管理
- +/Agents: 可自定义各类AI角色
- Settings: 我们将修改Model Provider & Other Settings - Web Search
获取 ModelScope 与 阿里云 API 密钥
获取 ModelScope API Key
- 登录 ModelScope, ModelScope是阿里云旗下的开源模型社区. (建议直接使用支付宝登录)
- 进入「账号设置」→左侧「访问令牌」, 新建访问令牌
- 创建新 Token,并复制为
ms-xxxxxxxxxxxx
该 Token 将用于调用 Qwen3 模型服务. 如您有OpenAI/Google One/Anthropic Api 同样可以使用.
配置对话模型(Qwen3)
添加ModelScope模型
- 打开 Cherry Studio 设置界面
- 进入 Model Providers → ModelScope 或 Add → Provider Type: OpenAI/Gemini/Anthropic
- 按图片填写配置 (for ModelScope), 这里推荐添加
Qwen/Qwen3-235B-A22B-Instruct-2507和Qwen/Qwen3-Coder-480B-A35B-Instruct - 点击 Check,确认返回成功响应

若测试失败,请检查网络连接、API 地址是否正确,以及权限是否开通。
Model Name可在模型详情页复制
配置 RAG(使用 text-embedding-v4)
补课: Embedding 模型与文本生成模型的区别
| 特性 | Embedding 模型 | 文本生成模型 |
|---|---|---|
| 功能 | 将文本转换为高维向量 | 根据输入生成自然语言输出 |
| 输入输出 | 文本 → 数值向量(如 1024 维) | 提问 → 回答 |
| 主要用途 | 相似性计算、向量检索 | 问答、摘要、创作 |
| 成本 | 相对较低 | 较高,尤其大模型 |
在 RAG 架构中,流程为:
- 用户提问 → 使用 Embedding 模型将问题转为向量
- 在知识库中查找最相近的文档块(向量检索)
- 将检索结果拼接为上下文,传入对话模型生成最终回答
因此,必须同时配置两类模型。
配置阿里云 text-embedding-v4
- 登录 阿里云百炼平台, 可直接使用支付宝扫码登陆
- 在左侧底部 密钥管理 创建 API Key.
- 在左侧模型广场 找到
text-embedding-v4模型,获取Model Name,该模型属于Qwen3-embedding系列.

在 Cherry Studio 中:
- 进入 Settings → Model Provider → 选择
Alibaba Cloud - 填写api key并添加
text-embedding-v4模型 - 跳过测试并直接启用 (embedding模型无法测试)

创建知识库
- 进入 Knowledge Bases → Add
- 参考配置如下:
| 选项 | 推荐值 |
|---|---|
| Name | Your Knowledge Base |
| Embedding Model | text-embedding-v4 |
| Embedding Dimensions | /leave blank |
| Reranker | /leave blank |
| Pre Process | Miner U |
| Requested Document Chunks | 待测试 |
Note: Chunks实际上就是把文章切成多少份, 每份单独索引, 理论上来说越多越准.
- 上传文档(支持 PDF、TXT、Markdown 等格式)
- 系统自动完成分块、向量化与索引建立

注意:上传后需等待处理完成,状态显示为 “Ready” 后方可使用。
配置搜索引擎
在Settings - Other settings -Web Search
- 选择provider并调高返回结果数量
- 设置compression提高响应速度 (一般cutoff足够, 也可以选RAG)
- 下拉找到
Blacklist Subscription, 推荐添加
https://git.io/ublacklisthttps://raw.githubusercontent.com/Hentioe/uBlacklist-subscription/main/uBlacklist.txt

(可选) 本地部署 MinerU
MinerU 是基于深度学习的 PDF 解析工具,可更准确地提取结构化文本。每日可免费调用500次解析,也可以选择本地部署。
见官方Docs opendatalab/MinerU
使用&效果演示

本工作台的核心组件如下:
- 前端交互:Cherry Studio 提供用户界面
- 对话引擎:Qwen3 作为生成模型(通过 ModelScope API)
- 检索引擎:text-embedding-v4 实现文本向量化
- 知识存储:本地向量数据库(由 Cherry Studio 内置管理)
- 文档预处理:可选 MinerU 提高解析准确率
加载 RAG 后工作流程如下:
1 | 用户提问 |
后续工作
- 性能调优:在Knowledge Base - Advanced Settings中可根据文档类型调整 Chunk Size,技术文档可设为 256–512,书籍章节可设为 1024。
- 模型替换:
- 可将阿里云 embedding 换为本地开源模型 (e.g. qwen3-embedding-4b)
- 可将 Qwen3 替换为本地部署的 vLLM 或 Ollama 实例
- 配置MCP工具:使模型可以拉取整个网页信息
- 添加Reranker模型:当RAG数据库过大时,单独使用embedding模型会加速token消耗,搭配reranker模型可提升准确度并减少token消耗 (e.g. qwen3-reranker-4b)
本文使用Qwen/Qwen3-235B-A22B-Instruct-2507在Cherry Studio生成并人工润色, 添加截图.