本地翻译模型部署(个人随笔)

LixdHappy2025-07-122025-11-18

一、硬件准备与系统配置

1. 硬件要求检测

硬件兼容性检测工具
显存检测方法：
1. Win+R → 输入 dxdiag
2. 右键桌面 → 显示设置 → 高级显示器设置 → 显示器属性
3. 任务管理器 → 性能 → GPU
最低配置建议：
- 共享显存 ≥ 8GB
- 运行内存 ≥ 16GB
- Intel ARC/Iris Xe 系列显卡(更符合本人使用轻薄本的情景)

2. 驱动更新

下载地址：
Intel显卡驱动下载

安装注意事项：

1 2	- 不要勾选"全新安装"（会清除笔记本OEM设置） + 选择"自定义安装"保留现有配置

3. 模型选择建议

模型名称	显存要求	适用场景	性能表现
deepseek-r1:8b	8GB	日常问答/文本处理	⭐⭐⭐⭐
deepseek-coder-v2:16b	16GB	编程/`翻译`	⭐⭐⭐⭐⭐
nomic-embed-text	6GB	浏览器增强	⭐⭐⭐

💡 选择建议：日常问答推荐 deepseek-r1:8b，翻译需求选择 deepseek-coder-v2:16b

实际体验下来笔记本能飞8b模型也是勉强

二、Ollama 安装与配置

安装Ollama Intel优化版,以下内容属于官网版Ollama的安装指南内容,下载优化版可以省略以下步骤.

1. 自定义安装路径

操作步骤：

创建目标目录（如 D:\apps\Ollama\）

终端执行安装命令：

powershell

# 标准CMD
OllamaSetup.exe /DIR=D:\apps\Ollama

# PowerShell
./OllamaSetup.exe /DIR=D:\apps\Ollama

2. 验证安装

powershell

1 2	cd C:\Users\<用户名> ollama -v # 应显示版本号

3. 模型下载与管理

powershell

# 下载模型
ollama run deepseek-r1:8b

# 查看已安装模型
ollama list

# 删除模型
ollama rm <模型名>

三、浏览器集成方案

1. Page Assist 插件配置

安装 Edge Page Assist 扩展,Chrome Page Assist 拓展
打开扩展 → RAG设置 → 文本嵌入模型 → nomic-embed-text
下载依赖模型：
powershell
1
ollama pull nomic-embed-text

2. 沉浸式翻译设置

API 配置：

1 2	API地址：http://localhost:11434/v1/chat/completions 推荐模型：deepseek-coder-v2:16b(主要是省略思考过程)

实际体验下来,qwen3和qwen2.5也挺适合翻译
跨域设置：

系统	操作
Windows	控制面板 → 系统属性 → 环境变量 → 新建： `OLLAMA_HOST=0.0.0.0` `OLLAMA_ORIGINS=*`
macOS	终端执行： `launchctl setenv OLLAMA_ORIGINS "*"`
Linux	终端执行： `OLLAMA_ORIGINS="*" ollama serve`

四、常见问题解决

1. 性能优化技巧

性能调优

你可以尝试如下设置来进行性能调优：内容引自ModelScope

环境变量 `SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS`

环境变量 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 用于控制是否使用 immediate command lists 将任务提交到 GPU。你可以尝试将 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 设为 1 或 0 以找到最佳性能配置。

你可以通过如下步骤，在启动 Ollama serve 之前启用 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS（如果 Ollama serve 已经在运行，请确保先将其停止）：

对于 Windows 用户：
- 打开命令提示符，并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
- 在命令提示符中设置 set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
- 通过运行 start-ollama.bat 启动 Ollama serve
对于 Linux 用户：
- 在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
- 在终端中设置 export SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
- 通过运行 ./start-ollama.sh 启动 Ollama serve

节省 VRAM

你可以通过在启动 Ollama serve 之前设置环境变量 OLLAMA_NUM_PARALLEL 为 1 来节约显存，步骤如下（如果 Ollama serve 已经在运行，请确保先将其停止）：

对于 Windows 用户：
- 打开命令提示符，并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
- 在命令提示符中设置 set OLLAMA_NUM_PARALLEL=1
- 通过运行 start-ollama.bat 启动 Ollama serve
对于 Linux 用户：
- 在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
- 在终端中设置 export OLLAMA_NUM_PARALLEL=1
- 通过运行 ./start-ollama.sh 启动 Ollama serve

对于 MoE 模型（比如 qwen3:30b），你可以通过在启动 Ollama serve 之前设置环境变量 OLLAMA_SET_OT 把 experts 移到 CPU 运行上来节约显存（如果 Ollama serve 已经在运行，请确保先将其停止）：

对于 Windows 用户：
- 打开命令提示符，并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
- 在命令提示符中设置 set OLLAMA_SET_OT="exps=CPU" 把所有的 experts 放在 CPU 上；也可以通过设置正则表达式，如 set OLLAMA_SET_OT="(2[4-9]|[3-9][0-9])\.ffn_.*_exps\.=CPU" 把 24 到 99 层的 experts 放到 CPU 上
- 通过运行 start-ollama.bat 启动 Ollama serve
对于 Linux 用户：
- 在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
- 在终端中设置 export OLLAMA_SET_OT="exps=CPU" 把所有的 experts 放在 CPU 上；也可以通过设置正则表达式，如 export OLLAMA_SET_OT="(2[4-9]|[3-9][0-9])\.ffn_.*_exps\.=CPU" 把 24 到 99 层的 experts 放到 CPU 上
- 通过运行 ./start-ollama.sh 启动 Ollama serve

2. 模型使用建议

  A[任务类型] --> B{模型选择}
B -->|日常问答| C[deepseek-r1:8b]
B -->|编程翻译| D[deepseek-coder-v2:16b]
B -->|网页增强| E[nomic-embed-text]

一、硬件准备与系统配置

1. 硬件要求检测

2. 驱动更新

3. 模型选择建议

二、Ollama 安装与配置

1. 自定义安装路径

2. 验证安装

3. 模型下载与管理

三、浏览器集成方案

1. Page Assist 插件配置

2. 沉浸式翻译设置

四、常见问题解决

1. 性能优化技巧

性能调优

环境变量 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS

节省 VRAM

2. 模型使用建议

3. 资源获取

LixdHappy

环境变量 `SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS`