
本地翻译模型部署(个人随笔)
LixdHappy一、硬件准备与系统配置
1. 硬件要求检测
显存检测方法:
Win+R
→ 输入dxdiag
- 右键桌面 → 显示设置 → 高级显示器设置 → 显示器属性
- 任务管理器 → 性能 → GPU
最低配置建议:
- 共享显存 ≥ 8GB
- 运行内存 ≥ 16GB
- Intel ARC/Iris Xe 系列显卡(更符合本人使用轻薄本的情景)
2. 驱动更新
下载地址:
Intel显卡驱动下载安装注意事项:
1
2- 不要勾选"全新安装"(会清除笔记本OEM设置)
+ 选择"自定义安装"保留现有配置
3. 模型选择建议
模型名称 | 显存要求 | 适用场景 | 性能表现 |
---|---|---|---|
deepseek-r1:8b | 8GB | 日常问答/文本处理 | ⭐⭐⭐⭐ |
deepseek-coder-v2:16b | 16GB | 编程/翻译 | ⭐⭐⭐⭐⭐ |
nomic-embed-text | 6GB | 浏览器增强 | ⭐⭐⭐ |
💡 选择建议:日常问答推荐
deepseek-r1:8b
,翻译需求选择deepseek-coder-v2:16b
实际体验下来笔记本能飞8b模型也是勉强
二、Ollama 安装与配置
安装Ollama Intel优化版,以下内容属于官网版Ollama
的安装指南内容,下载优化版可以省略以下步骤.
1. 自定义安装路径
操作步骤:
创建目标目录(如
D:\apps\Ollama\
)终端执行安装命令:
powershell
1
2
3
4
5# 标准CMD
OllamaSetup.exe /DIR=D:\apps\Ollama
# PowerShell
./OllamaSetup.exe /DIR=D:\apps\Ollama
2. 验证安装
powershell
1 | cd C:\Users\<用户名> |
3. 模型下载与管理
powershell
1 | # 下载模型 |
三、浏览器集成方案
1. Page Assist 插件配置
打开扩展 → RAG设置 → 文本嵌入模型 →
nomic-embed-text
下载依赖模型:
powershell
1
ollama pull nomic-embed-text
2. 沉浸式翻译设置
API 配置:
1 | API地址:http://localhost:11434/v1/chat/completions |
实际体验下来,qwen3和qwen2.5
也挺适合翻译
跨域设置:
系统 | 操作 |
---|---|
Windows | 控制面板 → 系统属性 → 环境变量 → 新建: OLLAMA_HOST=0.0.0.0 OLLAMA_ORIGINS=* |
macOS | 终端执行: launchctl setenv OLLAMA_ORIGINS "*" |
Linux | 终端执行: OLLAMA_ORIGINS="*" ollama serve |
四、常见问题解决
1. 性能优化技巧
性能调优
你可以尝试如下设置来进行性能调优:内容引自ModelScope
环境变量 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
环境变量 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
用于控制是否使用 immediate command lists 将任务提交到 GPU。你可以尝试将 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
设为 1
或 0
以找到最佳性能配置。
你可以通过如下步骤,在启动 Ollama serve 之前启用 SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
(如果 Ollama serve 已经在运行,请确保先将其停止):
对于 Windows 用户:
- 打开命令提示符,并通过
cd /d PATH\TO\EXTRACTED\FOLDER
命令进入解压后的文件夹 - 在命令提示符中设置
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
- 通过运行
start-ollama.bat
启动 Ollama serve
- 打开命令提示符,并通过
对于 Linux 用户:
- 在终端中输入指令
cd PATH/TO/EXTRACTED/FOLDER
进入解压后的文件夹 - 在终端中设置
export SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
- 通过运行
./start-ollama.sh
启动 Ollama serve
- 在终端中输入指令
节省 VRAM
你可以通过在启动 Ollama serve 之前设置环境变量 OLLAMA_NUM_PARALLEL
为 1
来节约显存,步骤如下(如果 Ollama serve 已经在运行,请确保先将其停止):
- 对于 Windows 用户:
- 打开命令提示符,并通过
cd /d PATH\TO\EXTRACTED\FOLDER
命令进入解压后的文件夹 - 在命令提示符中设置
set OLLAMA_NUM_PARALLEL=1
- 通过运行
start-ollama.bat
启动 Ollama serve
- 打开命令提示符,并通过
- 对于 Linux 用户:
- 在终端中输入指令
cd PATH/TO/EXTRACTED/FOLDER
进入解压后的文件夹 - 在终端中设置
export OLLAMA_NUM_PARALLEL=1
- 通过运行
./start-ollama.sh
启动 Ollama serve
- 在终端中输入指令
对于 MoE 模型(比如 qwen3:30b
),你可以通过在启动 Ollama serve 之前设置环境变量 OLLAMA_SET_OT
把 experts 移到 CPU 运行上来节约显存(如果 Ollama serve 已经在运行,请确保先将其停止):
- 对于 Windows 用户:
- 打开命令提示符,并通过
cd /d PATH\TO\EXTRACTED\FOLDER
命令进入解压后的文件夹 - 在命令提示符中设置
set OLLAMA_SET_OT="exps=CPU"
把所有的 experts 放在 CPU 上;也可以通过设置正则表达式,如set OLLAMA_SET_OT="(2[4-9]|[3-9][0-9])\.ffn_.*_exps\.=CPU"
把24
到99
层的 experts 放到 CPU 上 - 通过运行
start-ollama.bat
启动 Ollama serve
- 打开命令提示符,并通过
- 对于 Linux 用户:
- 在终端中输入指令
cd PATH/TO/EXTRACTED/FOLDER
进入解压后的文件夹 - 在终端中设置
export OLLAMA_SET_OT="exps=CPU"
把所有的 experts 放在 CPU 上;也可以通过设置正则表达式,如export OLLAMA_SET_OT="(2[4-9]|[3-9][0-9])\.ffn_.*_exps\.=CPU"
把24
到99
层的 experts 放到 CPU 上 - 通过运行
./start-ollama.sh
启动 Ollama serve
- 在终端中输入指令
2. 模型使用建议
graph LR A[任务类型] --> B{模型选择} B -->|日常问答| C[deepseek-r1:8b] B -->|编程翻译| D[deepseek-coder-v2:16b] B -->|网页增强| E[nomic-embed-text]