forked from DevOps/deploy.stack
Gemma4 26B 模型配置
模型信息
- 基础模型:
gemma4:26b-a4b-it-q4_K_M - 量化级别: Q4_K_M
硬件配置
适用于: 2080Ti 22GB + NPU
Windows 环境变量设置
在运行 Ollama 之前,需要设置以下环境变量:
$env:OLLAMA_NPU_ACCELERATE = "true"
$env:OLLAMA_GPU_OFFLOAD_KV = "true"
模型参数说明
硬件参数
| 参数 | 值 | 说明 |
|---|---|---|
num_gpu |
99 | GPU 层数 |
num_ctx |
8192 | 上下文长度 |
num_batch |
512 | 批处理大小 |
num_thread |
12 | 线程数 |
采样参数
| 参数 | 值 | 说明 |
|---|---|---|
temperature |
0.32 | 温度系数 |
top_p |
0.85 | 核采样概率 |
top_k |
55 | Top-K 采样 |
repeat_penalty |
1.08 | 重复惩罚 |
stop |
<end_of_turn> |
停止标记 |
创建模型
ollama create gemma4-custom -f ./modelfile
无 >>> 静默运行命令
ollama run gemma4-custom "你的问题" --nowordwrap
系统提示词说明
本模型配置了 Cherry Studio + SearXNG 工具调用能力,主要特性:
- 工具调用格式: 使用
<|tool_call|>标签进行搜索调用 - 单轮限制: 每轮对话最多调用 1 次搜索
- 结果收敛: 收到搜索结果后直接回答,不再生成工具调用
- 防循环机制: 禁止触发二次搜索的话术
Cherry 工具全局设置
搜索源:选择你自建的 SearXNG
最大工具调用次数:1 最大单轮搜索次数:1