快速配置个人AI工作台

本文介绍如何使用开源工具快速搭建一个支持 RAG(检索增强生成)的 AI 工作台。整个流程可在半天内完成,适用于技术研究人员、知识管理者和本地化 AI 应用实践者。(部署后可完全本地运行, 但是我并没有足够多的显卡, 因此调用API完成)

2025/08/12 更新

text-embedding-v4似乎不属于Qwen3-Embedding系列, 效果距后者还有较大差距, 有条件可参考第3篇blog进行本地部署.

当文献数量不多(<=10篇)建议直接扔给AI, 文献数量多时再使用RAG数据库, RAG作用是降低搜索成本而不是提高搜索精度

流程与使用工具

  1. 安装Cherry Studio
  2. 获取文本生成AI以及Embedding Model (用于驱动所有文本工作, 推荐从阿里云以及ModelScope免费获取)
  3. 在Cherry Studio中配置 对话AI (qwen3)
  4. 在Cherry Studio中配置RAG (text-embedding-v4)
  5. 在Cherry Studio中配置搜索引擎
  6. (可选) 本地部署MinerU

准备工具

工具 用途 其他方案
Cherry Studio 支持 RAG、自定义助手、模型管理的一体化桌面应用
文本生成模型 提供对话服务,本文用ModelScope提供的 Qwen3-235B-A22B-Instruct-2507 (每日免费调用2000次) GPT/Gemini/Claude
embedding模型 向量嵌入模型,用于文档语义向量化,本文用阿里云百炼提供的 text-embedding-v4 (含1m 免费token额度) Gemini Embedding
MinerU(可选) 文本数据预处理

安装 Cherry Studio

简介

Cherry Studio 是一个支持 RAG 功能的桌面级 AI 平台,具备以下特性:

  • 提供 OpenAI 兼容接口,轻松接入所有主流文本生成模型
  • 提供图形化界面进行助理定义、提示词管理、知识库构建
  • 内置RAG支持, 数据默认本地存储
  • 支持模型使用Google搜索, 以及自定义过滤搜索结果(屏蔽垃圾内容)
  • 支持 MCP (Model Context Protocol) 实现多功能接入
  • Obsidian/Notion 接入

安装方法

  1. 访问官网 https://www.cherry-ai.com/download
  2. 下载对应操作系统的安装包(Windows / macOS / Linux)
  3. 完成安装后启动程序

首次启动会初始化本地数据库,界面包含以下主要模块:

  • Home: 所有对话均将在此展开, 支持同时创建多对话
  • +/Knowledge Base: RAG数据库, 稍后可以进行管理
  • +/Agents: 可自定义各类AI角色
  • Settings: 我们将修改Model Provider & Other Settings - Web Search

获取 ModelScope 与 阿里云 API 密钥

获取 ModelScope API Key

  1. 登录 ModelScope, ModelScope是阿里云旗下的开源模型社区. (建议直接使用支付宝登录)
  2. 进入「账号设置」→左侧「访问令牌」, 新建访问令牌
  3. 创建新 Token,并复制为 ms-xxxxxxxxxxxx 该 Token 将用于调用 Qwen3 模型服务. 如您有OpenAI/Google One/Anthropic Api 同样可以使用.

配置对话模型(Qwen3)

添加ModelScope模型

  1. 打开 Cherry Studio 设置界面
  2. 进入 Model Providers → ModelScope 或 Add → Provider Type: OpenAI/Gemini/Anthropic
  3. 按图片填写配置 (for ModelScope), 这里推荐添加Qwen/Qwen3-235B-A22B-Instruct-2507Qwen/Qwen3-Coder-480B-A35B-Instruct
  4. 点击 Check,确认返回成功响应

若测试失败,请检查网络连接、API 地址是否正确,以及权限是否开通。

Model Name可在模型详情页复制


配置 RAG(使用 text-embedding-v4)

补课: Embedding 模型与文本生成模型的区别

特性 Embedding 模型 文本生成模型
功能 将文本转换为高维向量 根据输入生成自然语言输出
输入输出 文本 → 数值向量(如 1024 维) 提问 → 回答
主要用途 相似性计算、向量检索 问答、摘要、创作
成本 相对较低 较高,尤其大模型

在 RAG 架构中,流程为:

  1. 用户提问 → 使用 Embedding 模型将问题转为向量
  2. 在知识库中查找最相近的文档块(向量检索)
  3. 将检索结果拼接为上下文,传入对话模型生成最终回答

因此,必须同时配置两类模型。

配置阿里云 text-embedding-v4

  1. 登录 阿里云百炼平台, 可直接使用支付宝扫码登陆
  2. 在左侧底部 密钥管理 创建 API Key.
  3. 在左侧模型广场 找到 text-embedding-v4 模型,获取Model Name,该模型属于Qwen3-embedding系列.

在 Cherry Studio 中:

  1. 进入 SettingsModel Provider → 选择Alibaba Cloud
  2. 填写api key并添加text-embedding-v4模型
  3. 跳过测试并直接启用 (embedding模型无法测试)

创建知识库

  1. 进入 Knowledge Bases → Add
  2. 参考配置如下:
选项 推荐值
Name Your Knowledge Base
Embedding Model text-embedding-v4
Embedding Dimensions /leave blank
Reranker /leave blank
Pre Process Miner U
Requested Document Chunks 待测试

Note: Chunks实际上就是把文章切成多少份, 每份单独索引, 理论上来说越多越准.

  1. 上传文档(支持 PDF、TXT、Markdown 等格式)
  2. 系统自动完成分块、向量化与索引建立

注意:上传后需等待处理完成,状态显示为 “Ready” 后方可使用。


配置搜索引擎

在Settings - Other settings -Web Search

  1. 选择provider并调高返回结果数量
  2. 设置compression提高响应速度 (一般cutoff足够, 也可以选RAG)
  3. 下拉找到Blacklist Subscription, 推荐添加
  • https://git.io/ublacklist
  • https://raw.githubusercontent.com/Hentioe/uBlacklist-subscription/main/uBlacklist.txt


(可选) 本地部署 MinerU

MinerU 是基于深度学习的 PDF 解析工具,可更准确地提取结构化文本。每日可免费调用500次解析,也可以选择本地部署。

见官方Docs opendatalab/MinerU


使用&效果演示

本工作台的核心组件如下:

  1. 前端交互:Cherry Studio 提供用户界面
  2. 对话引擎:Qwen3 作为生成模型(通过 ModelScope API)
  3. 检索引擎:text-embedding-v4 实现文本向量化
  4. 知识存储:本地向量数据库(由 Cherry Studio 内置管理)
  5. 文档预处理:可选 MinerU 提高解析准确率

加载 RAG 后工作流程如下:

1
2
3
4
5
6
7
8
9
10
11
用户提问

问题经 text-embedding-v4 向量化

在知识库中进行向量相似度检索

返回 top-k 相关文本块 +Reranker模型(我们省略此步)

拼接上下文,发送至 Qwen3 模型

生成基于上下文的回答

后续工作

  1. 性能调优:在Knowledge Base - Advanced Settings中可根据文档类型调整 Chunk Size,技术文档可设为 256–512,书籍章节可设为 1024。
  2. 模型替换
    • 可将阿里云 embedding 换为本地开源模型 (e.g. qwen3-embedding-4b)
    • 可将 Qwen3 替换为本地部署的 vLLM 或 Ollama 实例
  3. 配置MCP工具:使模型可以拉取整个网页信息
  4. 添加Reranker模型:当RAG数据库过大时,单独使用embedding模型会加速token消耗,搭配reranker模型可提升准确度并减少token消耗 (e.g. qwen3-reranker-4b)

本文使用Qwen/Qwen3-235B-A22B-Instruct-2507在Cherry Studio生成并人工润色, 添加截图.