forked from DevOps/deploy.stack
feat(gemma4): 添加gemma4模型配置文件和说明文档
添加modelfile定义模型参数和系统提示词规则 添加readme.md包含模型信息和部署说明
This commit is contained in:
43
ollama/gemma4/modelfile
Normal file
43
ollama/gemma4/modelfile
Normal file
@@ -0,0 +1,43 @@
|
|||||||
|
FROM gemma4:26b-a4b-it-q4_K_M
|
||||||
|
|
||||||
|
# ========== 硬件最优参数:2080Ti 22GB + NPU 满载稳跑 ==========
|
||||||
|
PARAMETER num_gpu 99
|
||||||
|
PARAMETER num_ctx 8192
|
||||||
|
PARAMETER num_batch 512
|
||||||
|
PARAMETER num_thread 12
|
||||||
|
|
||||||
|
# ========== 采样参数:格式稳定、不暴走、不重复生成 ==========
|
||||||
|
PARAMETER temperature 0.32
|
||||||
|
PARAMETER top_p 0.85
|
||||||
|
PARAMETER top_k 55
|
||||||
|
PARAMETER repeat_penalty 1.08
|
||||||
|
PARAMETER stop "<end_of_turn>"
|
||||||
|
|
||||||
|
# ========== Cherry Studio + SearXNG 防循环铁律系统词 ==========
|
||||||
|
SYSTEM """
|
||||||
|
你是智能助手,内置SearXNG全网搜索工具调用能力。
|
||||||
|
严格遵守以下**不可违背终身规则**:
|
||||||
|
|
||||||
|
1. 工具调用唯一标准格式
|
||||||
|
仅输出纯净标签格式,前后**绝对无任何文字、换行、开场白、解释**:
|
||||||
|
<|tool_call|>[{"name":"search","parameters":{"query":"搜索关键词"}}]</|tool_call|>
|
||||||
|
|
||||||
|
2. 调用次数死锁
|
||||||
|
**单轮对话最多仅调用 1 次搜索**。
|
||||||
|
本轮一旦完成搜索调用,全程永久禁止再次生成任何tool_call指令。
|
||||||
|
|
||||||
|
3. 搜索结果收敛规则
|
||||||
|
当你接收到Cherry返回的<|tool_response|>搜索内容后:
|
||||||
|
立刻终止所有工具行为,不再生成任何调用块,直接整合信息自然语言回答用户。
|
||||||
|
|
||||||
|
4. 禁语黑名单(完全禁止输出)
|
||||||
|
禁止所有会触发Cherry二次搜索的话术:
|
||||||
|
正在搜索、需要查询、联网检索、稍等、我查一下、为你搜索、继续检索、资料不足需搜索。
|
||||||
|
|
||||||
|
5. 无必要不搜索
|
||||||
|
自身知识库可解答的问题,直接回答,不无故触发联网工具。
|
||||||
|
|
||||||
|
6. 输出约束
|
||||||
|
禁止重复生成、禁止递归续写、禁止空调用、禁止破损JSON格式。
|
||||||
|
内部推理内容不对外暴露,不输出冗余标签干扰客户端工具判定。
|
||||||
|
"""
|
||||||
68
ollama/gemma4/readme.md
Normal file
68
ollama/gemma4/readme.md
Normal file
@@ -0,0 +1,68 @@
|
|||||||
|
# Gemma4 26B 模型配置
|
||||||
|
|
||||||
|
## 模型信息
|
||||||
|
|
||||||
|
- 基础模型: `gemma4:26b-a4b-it-q4_K_M`
|
||||||
|
- 量化级别: Q4_K_M
|
||||||
|
|
||||||
|
## 硬件配置
|
||||||
|
|
||||||
|
适用于: **2080Ti 22GB + NPU**
|
||||||
|
|
||||||
|
## Windows 环境变量设置
|
||||||
|
|
||||||
|
在运行 Ollama 之前,需要设置以下环境变量:
|
||||||
|
|
||||||
|
```powershell
|
||||||
|
$env:OLLAMA_NPU_ACCELERATE = "true"
|
||||||
|
$env:OLLAMA_GPU_OFFLOAD_KV = "true"
|
||||||
|
```
|
||||||
|
|
||||||
|
## 模型参数说明
|
||||||
|
|
||||||
|
### 硬件参数
|
||||||
|
|
||||||
|
| 参数 | 值 | 说明 |
|
||||||
|
|------|-----|------|
|
||||||
|
| `num_gpu` | 99 | GPU 层数 |
|
||||||
|
| `num_ctx` | 8192 | 上下文长度 |
|
||||||
|
| `num_batch` | 512 | 批处理大小 |
|
||||||
|
| `num_thread` | 12 | 线程数 |
|
||||||
|
|
||||||
|
### 采样参数
|
||||||
|
|
||||||
|
| 参数 | 值 | 说明 |
|
||||||
|
|------|-----|------|
|
||||||
|
| `temperature` | 0.32 | 温度系数 |
|
||||||
|
| `top_p` | 0.85 | 核采样概率 |
|
||||||
|
| `top_k` | 55 | Top-K 采样 |
|
||||||
|
| `repeat_penalty` | 1.08 | 重复惩罚 |
|
||||||
|
| `stop` | `<end_of_turn>` | 停止标记 |
|
||||||
|
|
||||||
|
## 创建模型
|
||||||
|
|
||||||
|
```powershell
|
||||||
|
ollama create gemma4-custom -f ./modelfile
|
||||||
|
```
|
||||||
|
|
||||||
|
### 无 >>> 静默运行命令
|
||||||
|
|
||||||
|
```powershell
|
||||||
|
ollama run gemma4-custom "你的问题" --nowordwrap
|
||||||
|
```
|
||||||
|
|
||||||
|
## 系统提示词说明
|
||||||
|
|
||||||
|
本模型配置了 Cherry Studio + SearXNG 工具调用能力,主要特性:
|
||||||
|
|
||||||
|
1. **工具调用格式**: 使用 `<|tool_call|>` 标签进行搜索调用
|
||||||
|
2. **单轮限制**: 每轮对话最多调用 1 次搜索
|
||||||
|
3. **结果收敛**: 收到搜索结果后直接回答,不再生成工具调用
|
||||||
|
4. **防循环机制**: 禁止触发二次搜索的话术
|
||||||
|
|
||||||
|
## Cherry 工具全局设置
|
||||||
|
|
||||||
|
### 搜索源:选择你自建的 SearXNG
|
||||||
|
最大工具调用次数:1
|
||||||
|
最大单轮搜索次数:1
|
||||||
|
|
||||||
Reference in New Issue
Block a user