Files
GenericAgent/GETTING_STARTED.md

258 lines
8.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 🚀 新手上手指南
> 完全没接触过编程也没关系跟着做就行。Mac / Windows 都适用。
>
> 如果你已经有 Python 环境,直接跳到[第 2 步](#2-配置-api-key)。
---
## 1. 安装 Python
### Mac
打开「终端」(启动台搜索 "终端" 或 "Terminal"),粘贴这行命令然后回车:
```bash
brew install python
```
如果提示 `brew: command not found`,说明还没装 Homebrew先粘贴这行
```bash
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
```
装完后再执行 `brew install python`
### Windows
1. 打开 [python.org/downloads](https://www.python.org/downloads/),点黄色大按钮下载
2. 运行安装包,**底部的 "Add Python to PATH" 一定要勾上**
3. 点 "Install Now"
### 验证
终端 / 命令提示符里输入:
```bash
python3 --version
```
看到 `Python 3.x.x` 就 OK。Windows 上也可以试 `python --version`
> ⚠️ **版本提示**:推荐 **Python 3.11 或 3.12**。不要使用 3.14(与 pywebview 等依赖不兼容)。
---
## 2. 配置 API Key
### 下载项目
1. 打开 [GitHub 仓库页面](https://github.com/lsdefine/GenericAgent)
2. 点绿色 **Code** 按钮 → **Download ZIP**
3. 解压到你喜欢的位置
### 创建配置文件
进入项目文件夹,把 `mykey_template.py` 复制一份,重命名为 `mykey.py`
用任意文本编辑器打开 `mykey.py`,填入你的 API 信息。**选一种填就行**,不用的配置删掉或留着不管都行。
### 配置示例
**最常见的用法:**
```python
# 变量名含 'oai' → 走 OpenAI 兼容格式 (/chat/completions)
oai_config = {
'apikey': 'sk-你的密钥',
'apibase': 'http://你的API地址:端口',
'model': '模型名称',
}
```
```python
# 变量名含 'claude'(不含 'native')→ 走 Claude 兼容格式 (/messages)
claude_config = {
'apikey': 'sk-你的密钥',
'apibase': 'http://你的API地址:端口',
'model': 'claude-sonnet-4-20250514',
}
```
**使用标准工具调用格式(适合较弱模型):**
```python
# 变量名同时含 'native' 和 'claude' → Claude 标准工具调用格式
native_claude_config = {
'apikey': 'sk-ant-你的密钥',
'apibase': 'https://api.anthropic.com',
'model': 'claude-sonnet-4-20250514',
}
```
> 💡 还支持 `native_oai_config`OpenAI 标准工具调用)、`xai_config`Grok、`sider_cookie`Sider详见 `mykey_template.py` 中的注释。
### 关键规则
**变量命名决定接口格式**(不是模型名决定的):
| 变量名包含 | 触发的 Session | 适用场景 |
|-----------|---------------|---------|
| `oai` | OpenAI 兼容 | 大多数 API 服务、OpenAI 官方 |
| `claude`(不含 `native` | Claude 兼容 | Claude API 服务 |
| `native` + `claude` | Claude 标准工具调用 | 较弱模型推荐,工具调用更规范 |
| `native` + `oai` | OpenAI 标准工具调用 | 较弱模型推荐,工具调用更规范 |
> 例:用 Claude 模型,但 API 服务提供的是 OpenAI 兼容接口 → 变量名用 `oai_xxx`。
**`apibase` 填写规则**(会自动拼接端点路径):
| 你填的内容 | 系统行为 |
|-----------|---------|
| `http://host:2001` | 自动补 `/v1/chat/completions` |
| `http://host:2001/v1` | 自动补 `/chat/completions` |
| `http://host:2001/v1/chat/completions` | 直接使用,不拼接 |
---
## 3. 初次启动
终端里进入项目文件夹,运行:
```bash
cd 你的解压路径
python3 agentmain.py
```
这就是**命令行模式**,已经可以用了。你会看到一个输入提示符,直接打字发送任务即可。
试试你的第一个任务:
```
帮我在桌面创建一个 hello.txt内容是 Hello World
```
> 💡 Windows 上如果 `python3` 不识别,换成 `python agentmain.py`。
---
## 4. 让 Agent 自己装依赖
Agent 启动后,只需要一句话,它就会自己搞定所有依赖:
```
请查看你的代码,安装所有用得上的 python 依赖
```
Agent 会自己读代码、找出需要的包、全部装好。
> ⚠️ 如果遇到网络问题导致 Agent 无法调用 API可能需要先手动装一个包
> ```bash
> pip install requests
> ```
### 升级到图形界面
依赖装完后,就可以用 GUI 模式了:
```bash
python3 launch.pyw
```
启动后会出现一个桌面悬浮窗,直接在里面输入任务指令。
### 可选:让 Agent 帮你做的事
```
请帮我建立 git 连接,方便以后更新代码
```
Agent 会自动配好。如果你电脑上没有 Git它也会帮你下载 portable 版。
```
请帮我在桌面创建一个 launch.pyw 的快捷方式
```
这样以后双击桌面图标就能启动,不用再开终端了。
---
## 5. 能力解锁
环境跑起来之后,你可以逐步解锁更多能力。每一项都只需要**对 Agent 说一句话**
### 基础能力
| 能力 | 对 Agent 说 | 说明 |
|------|-----------|------|
| **PowerShell 脚本执行** | `帮我解锁当前用户的 PowerShell ps1 执行权限` | Windows 默认禁止运行 .ps1 脚本 |
| **全局文件搜索** | `安装并配置 Everything 命令行工具进 PATH` | 毫秒级全盘文件搜索 |
### 浏览器自动化
| 能力 | 对 Agent 说 | 说明 |
|------|-----------|------|
| **Web 工具解锁** | `执行 web setup sop解锁 web 工具` | 注入浏览器插件,使 Agent 能直接操控网页 |
解锁后Agent 可以在**保留你登录态**的真实浏览器中操作:
```
打开淘宝,搜索 iPhone 16按价格排序
去 B 站,查看我最近看过的历史视频
```
### 进阶能力
| 能力 | 对 Agent 说 | 说明 |
|------|-----------|------|
| **OCR** | `用rapidocr配置你的ocr能力并存入记忆` | 让 Agent 能"看到"屏幕文字 |
| **屏幕视觉** | `仿造你的llmcore写个调用vision的能力并存入记忆` | 让 Agent 能"看到"屏幕内容 |
| **移动端控制** | `配置 ADB 环境,准备连接安卓设备` | 通过 USB/WiFi 控制 Android 手机 |
### 聊天平台接入(可选)
接入后可以随时随地通过手机给电脑上的 Agent 发指令。
对 Agent 说:`看你的代码,帮我配置 XX 平台的机器人接入`
支持的平台:**微信个人Bot** / QQ / 飞书 / 企业微信 / 钉钉 / Telegram
> Agent 会自动读取代码、引导你完成配置。
### 高级模式
以下模式全部**自文档化**——不用查手册,直接问 Agent 即可:
| 模式 | 对 Agent 说 |
|------|------------|
| **Reflect反射** | `查看你的代码,告诉我你的 reflect 模式怎么启用` |
| **计划任务** | `查看你的代码,告诉我你的计划任务模式怎么启用` |
| **Plan规划** | `查看你的代码,告诉我你的 plan 模式怎么启用` |
| **SubAgent子代理** | `查看你的代码,告诉我你的 subagent 模式怎么启用` |
| **自主探索** | `查看你的代码,告诉我你的自主探索模式怎么启用` |
> 💡 这就是 GenericAgent 的核心设计理念:**代码即文档**。Agent 能读懂自己的源码,所以任何功能你都可以直接问它。
---
## 💡 使用越久越强
GenericAgent 不预设技能,而是**靠使用进化**。每完成一个新任务,它会自动将执行路径固化为 Skill下次遇到类似任务直接调用。
你不需要管理这些 SkillAgent 会自动处理。使用时间越长,积累的技能越多,最终形成一棵完全属于你的专属技能树。
> 💡 如果你觉得某些重要信息 Agent 没有记住,可以直接告诉它:`把这个记到你的记忆里`,它会主动记忆。
**其他 Claw 的 Skill 也可以直接复用:**
- 让 Agent 搜索:`帮我找个做 XXX 的 skill` → 完成后 → `加入你的记忆中`
- 直接指定来源:`访问 XXX 文件夹/URL按照这个 skill 做 XXX`
**保持更新:**
对 Agent 说:`git 更新你的代码,然后看看 commit 有什么新功能`
> Agent 会自动 pull 最新代码并解读 commit log告诉你新增了什么能力。
> 更多细节请参阅 [README.md](README.md) 或 [详细版图文教程](https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb)。