慢速配置个人AI工作台-pt3

模型选择

由于Embedding和Reranker的作用类似于搜索引擎 (根据问题匹配文本, 将匹配到的文本丢给大模型), 并不会直接影响最终生成答案的“质量”. 这里选择小参数Qwen3模型绝大多数场景完全够用, 并且推理速度更快, 因此我们选择Qwen/Qwen3-Embedding-0.6BQwen/Qwen3-Reranker-0.6B两款模型进行本地部署.

根据HF的描述, 尽管模型参数量仅有0.6B, 在7月份榜单中仍达到SOTA水平


vllm配置

过于坎坷, 此处省略, 大致思路是

  1. 通过conda安装cuda运行环境(推荐版本12.8)
  2. 通过conda安装pytorch-gpu
  3. 通过pip安装vllm
  4. 下载模型并启动

使用如下命令启动vllm实例, 在localhost:4000&4002上分别创建一个Embedding和Reranker服务器.

1
vllm serve ~/vllm_models/models/Qwen/Qwen3-Reranker-0___6B --port 4002 --host 0.0.0.0 --gpu-memory-utilization 0.85 --task score
1
vllm serve ~/vllm_models/models/Qwen/Qwen3-Embedding-0___6B --port 4000 --host 0.0.0.0 --gpu-memory-utilization 0.85 --task embed

关键参数是--task, 其他参数可自行调整, 参考环境RTX3070Laptop 8G

显存不足时, 在wsl环境中先启动Reranker再启动Embedding. 可将Reranker分配进RAM, 保留Embedding在Dedicated GPU Memory中. (由于Embedding model需要处理更多tokens)

0.6B Embedding model 运行速度.

0.6B Reranker model 运行速度.


在Cherry Studio中启用本地LLM

将模型添加到Cherry Studio

Embedding和Reranker需要分开设置

与添加OpenAI Compatible Model的流程一致, 参考#配置对话模型qwen3|快速配置个人AI工作台 | Xiaoyun’s Space

  1. API Host填入http://127.0.0.1:端口
  2. Model ID填入 模型文件在WSL下的路径
  3. 检查是否自动识别模型类型, 如果没有需要点击模型名称右侧小齿轮⚙ -> More Settings -> Embedding/Reranker

在本地Knowledge Base中启用模型

配置方法见#创建知识库|快速配置个人AI工作台 | Xiaoyun’s Space.

Embedding Dimension必须留空.

在Web Search中启用模型

Settings -> Other Settings -> Web Search -> Compression -> RAG, 模型还是选择这两个.

Embedding Dimension留空.


更新后RAG效果

学术论文上召回效果相较纯text-embedding-v4有巨幅提升. 可以看见, 即使是名词给错了, 模型也能匹配出相近的概念.

网页搜索上准确性也有巨幅提升.