Files
GenericAgent/memory/vision_sop.md

24 lines
1.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Vision API SOP
## ⚠️ 前置规则(必须遵守)
1. **先枚举窗口**:调用 vision 前必须先用 `pygetwindow` 枚举窗口标题,确认目标窗口存在且已激活到前台。窗口不存在就不要截图。
2. **🚫 禁止全屏截图**必须先利用ljqCtrl截取窗口区域。能截局部如标题栏就不截整窗口能截窗口就绝不全屏。全屏截图在任何场景下都不允许。
3. **能不用 vision 就不用**:如果窗口标题/本地 OCR`ocr_utils.py`)能获取所需信息,就不要调用 vision API省 token 且更可靠。Vision 是最后手段。
## 快速用法
```python
from vision_api import ask_vision
result = ask_vision(image, prompt="描述图片内容", backend="claude", timeout=60, max_pixels=1_440_000)
# image: 文件路径(str/Path) 或 PIL Image
# backend: 'claude'(默认) | 'openai' | 'modelscope'
# 返回 str成功为模型回复失败为 'Error: ...'
```
## 如果没有 `vision_api.py`初次构建vision能力
1. 复制 `memory/vision_api.template.py``memory/vision_api.py`
2. 只改头部"用户配置区":去 `mykey.py` 里扫描变量名(⚠️ 只看名字,禁止输出 apikey 值),尝试找能用配置名填入 `CLAUDE_CONFIG_KEY` / `OPENAI_CONFIG_KEY``DEFAULT_BACKEND` 选后端,并测试
3. 保底:没有可用 config 时去 `https://modelscope.cn/my/myaccesstoken` 申请 token 填入 `MODELSCOPE_API_KEY`