慢速配置个人AI工作台-pt3
模型选择
由于Embedding和Reranker的作用类似于搜索引擎 (根据问题匹配文本, 将匹配到的文本丢给大模型), 并不会直接影响最终生成答案的“质量”. 这里选择小参数Qwen3模型绝大多数场景完全够用, 并且推理速度更快, 因此我们选择Qwen/Qwen3-Embedding-0.6B和Qwen/Qwen3-Reranker-0.6B两款模型进行本地部署.
根据HF的描述, 尽管模型参数量仅有0.6B, 在7月份榜单中仍达到SOTA水平
vllm配置
过于坎坷, 此处省略, 大致思路是
- 通过
conda安装cuda运行环境(推荐版本12.8) - 通过
conda安装pytorch-gpu - 通过
pip安装vllm - 下载模型并启动
使用如下命令启动vllm实例, 在localhost:4000&4002上分别创建一个Embedding和Reranker服务器.
1 | vllm serve ~/vllm_models/models/Qwen/Qwen3-Reranker-0___6B --port 4002 --host 0.0.0.0 --gpu-memory-utilization 0.85 --task score |
1 | vllm serve ~/vllm_models/models/Qwen/Qwen3-Embedding-0___6B --port 4000 --host 0.0.0.0 --gpu-memory-utilization 0.85 --task embed |
关键参数是
--task, 其他参数可自行调整, 参考环境RTX3070Laptop 8G
显存不足时, 在
wsl环境中先启动Reranker再启动Embedding. 可将Reranker分配进RAM, 保留Embedding在Dedicated GPU Memory中. (由于Embedding model需要处理更多tokens)
0.6B Embedding model 运行速度.
0.6B Reranker model 运行速度.
在Cherry Studio中启用本地LLM
将模型添加到Cherry Studio
Embedding和Reranker需要分开设置
与添加OpenAI Compatible Model的流程一致, 参考#配置对话模型qwen3|快速配置个人AI工作台 | Xiaoyun’s Space
API Host填入http://127.0.0.1:端口Model ID填入 模型文件在WSL下的路径- 检查是否自动识别模型类型, 如果没有需要点击模型名称右侧
小齿轮⚙ -> More Settings -> Embedding/Reranker

在本地Knowledge Base中启用模型
配置方法见#创建知识库|快速配置个人AI工作台 | Xiaoyun’s Space.
Embedding Dimension必须留空.

在Web Search中启用模型
Settings -> Other Settings -> Web Search -> Compression -> RAG, 模型还是选择这两个.
Embedding Dimension留空.

更新后RAG效果
在学术论文上召回效果相较纯text-embedding-v4有巨幅提升. 可以看见, 即使是名词给错了, 模型也能匹配出相近的概念.
在网页搜索上准确性也有巨幅提升.