本地翻译模型部署(个人随笔)

本地翻译模型部署(个人随笔)
LixdHappy一、硬件准备与系统配置
1. 硬件要求检测
显存检测方法:
Win+R→ 输入dxdiag- 右键桌面 → 显示设置 → 高级显示器设置 → 显示器属性
- 任务管理器 → 性能 → GPU
最低配置建议:
- 共享显存 ≥ 8GB
- 运行内存 ≥ 16GB
- Intel ARC/Iris Xe 系列显卡(更符合本人使用轻薄本的情景)
2. 驱动更新
下载地址:
Intel显卡驱动下载安装注意事项:
1
2- 不要勾选"全新安装"(会清除笔记本OEM设置)
+ 选择"自定义安装"保留现有配置
3. 模型选择建议
| 模型名称 | 显存要求 | 适用场景 | 性能表现 |
|---|---|---|---|
| deepseek-r1:8b | 8GB | 日常问答/文本处理 | ⭐⭐⭐⭐ |
| deepseek-coder-v2:16b | 16GB | 编程/翻译 | ⭐⭐⭐⭐⭐ |
| nomic-embed-text | 6GB | 浏览器增强 | ⭐⭐⭐ |
💡 选择建议:日常问答推荐
deepseek-r1:8b,翻译需求选择deepseek-coder-v2:16b
实际体验下来笔记本能飞8b模型也是勉强
二、Ollama 安装与配置
安装Ollama Intel优化版,以下内容属于官网版Ollama的安装指南内容,下载优化版可以省略以下步骤.
1. 自定义安装路径
操作步骤:
创建目标目录(如
D:\apps\Ollama\)终端执行安装命令:
powershell1
2
3
4
5# 标准CMD
OllamaSetup.exe /DIR=D:\apps\Ollama
# PowerShell
./OllamaSetup.exe /DIR=D:\apps\Ollama
2. 验证安装
powershell
1 | cd C:\Users\<用户名> |
3. 模型下载与管理
powershell
1 | # 下载模型 |
三、浏览器集成方案
1. Page Assist 插件配置
打开扩展 → RAG设置 → 文本嵌入模型 →
nomic-embed-text下载依赖模型:
powershell1
ollama pull nomic-embed-text
2. 沉浸式翻译设置
API 配置:
1 | API地址:http://localhost:11434/v1/chat/completions |
实际体验下来,qwen3和qwen2.5也挺适合翻译
跨域设置:
| 系统 | 操作 |
|---|---|
| Windows | 控制面板 → 系统属性 → 环境变量 → 新建: OLLAMA_HOST=0.0.0.0 OLLAMA_ORIGINS=* |
| macOS | 终端执行: launchctl setenv OLLAMA_ORIGINS "*" |
| Linux | 终端执行: OLLAMA_ORIGINS="*" ollama serve |
四、常见问题解决
1. 性能优化技巧
性能调优
你可以尝试如下设置来进行性能调优:内容引自ModelScope
环境变量 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
环境变量 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 用于控制是否使用 immediate command lists 将任务提交到 GPU。你可以尝试将 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 设为 1 或 0 以找到最佳性能配置。
你可以通过如下步骤,在启动 Ollama serve 之前启用 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS(如果 Ollama serve 已经在运行,请确保先将其停止):
对于 Windows 用户:
- 打开命令提示符,并通过
cd /d PATH\TO\EXTRACTED\FOLDER命令进入解压后的文件夹 - 在命令提示符中设置
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 - 通过运行
start-ollama.bat启动 Ollama serve
- 打开命令提示符,并通过
对于 Linux 用户:
- 在终端中输入指令
cd PATH/TO/EXTRACTED/FOLDER进入解压后的文件夹 - 在终端中设置
export SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 - 通过运行
./start-ollama.sh启动 Ollama serve
- 在终端中输入指令
节省 VRAM
你可以通过在启动 Ollama serve 之前设置环境变量 OLLAMA_NUM_PARALLEL 为 1 来节约显存,步骤如下(如果 Ollama serve 已经在运行,请确保先将其停止):
- 对于 Windows 用户:
- 打开命令提示符,并通过
cd /d PATH\TO\EXTRACTED\FOLDER命令进入解压后的文件夹 - 在命令提示符中设置
set OLLAMA_NUM_PARALLEL=1 - 通过运行
start-ollama.bat启动 Ollama serve
- 打开命令提示符,并通过
- 对于 Linux 用户:
- 在终端中输入指令
cd PATH/TO/EXTRACTED/FOLDER进入解压后的文件夹 - 在终端中设置
export OLLAMA_NUM_PARALLEL=1 - 通过运行
./start-ollama.sh启动 Ollama serve
- 在终端中输入指令
对于 MoE 模型(比如 qwen3:30b),你可以通过在启动 Ollama serve 之前设置环境变量 OLLAMA_SET_OT 把 experts 移到 CPU 运行上来节约显存(如果 Ollama serve 已经在运行,请确保先将其停止):
- 对于 Windows 用户:
- 打开命令提示符,并通过
cd /d PATH\TO\EXTRACTED\FOLDER命令进入解压后的文件夹 - 在命令提示符中设置
set OLLAMA_SET_OT="exps=CPU"把所有的 experts 放在 CPU 上;也可以通过设置正则表达式,如set OLLAMA_SET_OT="(2[4-9]|[3-9][0-9])\.ffn_.*_exps\.=CPU"把24到99层的 experts 放到 CPU 上 - 通过运行
start-ollama.bat启动 Ollama serve
- 打开命令提示符,并通过
- 对于 Linux 用户:
- 在终端中输入指令
cd PATH/TO/EXTRACTED/FOLDER进入解压后的文件夹 - 在终端中设置
export OLLAMA_SET_OT="exps=CPU"把所有的 experts 放在 CPU 上;也可以通过设置正则表达式,如export OLLAMA_SET_OT="(2[4-9]|[3-9][0-9])\.ffn_.*_exps\.=CPU"把24到99层的 experts 放到 CPU 上 - 通过运行
./start-ollama.sh启动 Ollama serve
- 在终端中输入指令
2. 模型使用建议
A[任务类型] --> B{模型选择}
B -->|日常问答| C[deepseek-r1:8b]
B -->|编程翻译| D[deepseek-coder-v2:16b]
B -->|网页增强| E[nomic-embed-text]










