feat: subagent SOP, autonomous SOP overhaul, ga.py try-block fix, launch llm_no param, agentmain streamline

2026-02-16 19:08:55 +08:00
parent df478d81e1
commit 32ad26f4ce
6 changed files with 130 additions and 61 deletions
--- a/memory/autonomous_operation_sop.md
+++ b/memory/autonomous_operation_sop.md
@@ -7,16 +7,30 @@

 ## 🎯 核心目标（按价值优先级排序）

-1. **能力扩展**：主动发现用户环境中已有但未被利用的工具/库/数据源（扫描pip list、项目目录、配置文件），形成可复用操作知识
-2. **知识学习**：上网冲浪、文档阅读，学习新技术/新领域知识，扩展认知边界
-3. **探索性实验**：对发现的工具/API进行实际测试验证，产出可操作经验（非停留文档层面）
-4. **优化工具**：改进代码性能/可维护性
-5. **发现潜在问题**：预判失败场景并设计测试
+### 价值判断标准
+任务价值 = **「AI训练数据无法覆盖」×「对未来协作有持久收益」**。
+- ✅ 高价值：只有通过物理探测用户环境才能获得的个性化知识（用户偏好、代码风格、项目结构、本地工具链、工作习惯）
+- ✅ 高价值：用户环境中已有但未被发现/利用的工具和数据源
+- ⚠️ 中价值：需要实际动手验证的技术实验（非读文档能解决的）
+- ❌ 低价值：探索知名工具的基础用法（ruff/black/pytest等——AI训练数据已覆盖，用户需要时直接问即可）
+- ❌ 低价值：通用benchmark/对比测试（网上随处可查）
+
+### 目标排序
+1. **了解用户**：学习用户的代码风格、项目结构、工作习惯、兴趣偏好。分析用户亲手写的代码（非AI生成），从PC文件/目录/浏览器书签推断偏好。这类知识不可替代，直接提升协作质量
+2. **环境发现**：扫描用户环境中已有但未被利用的工具/库/数据源/配置，形成可复用操作知识
+3. **实用产出与能力扩展**：写脚本/工具解决痛点，更重要的是在已有能力上解锁新能力（如微信发消息→传文件）。能力树每多一个节点，后续所有任务的可能性空间都变大
+4. **小众工具挖掘与踩坑预研**：寻找冷门实用工具（如mootdx优于akshare/tushare），同时对AI常推荐但实际有坑的方案做实测对比（如md转pdf各库都不行→Edge打印最优）。判断标准：如果被问到只会推荐大众方案，说明该领域值得挖掘。找到后实际安装测试，记录真正好用的方案写入记忆
+   - ✅ 在GitHub/V2EX/吾爱破解/果核剥壳(ghxi.com)/小众论坛挖掘冷门实用工具
+   - ❌ 刷HN/Reddit热门头条、阅读大众科技新闻（AI训练数据已覆盖）
+5. **自身演进**：思考框架不足，提出改进方案
 6. **审查记忆系统**：修正错误或过时记录（低频执行）

+> ⚠️ **刷新闻/论坛（HackNews等）不是有效任务**。公开网页内容属于AI训练数据已覆盖的通用知识，不满足价值判断标准。除非用户明确要求，否则禁止将「上网浏览」作为自主任务。
+
 ### 选择原则
- **增量价值优先**：必须产生新知识/新能力，优先选择能扩展自身操作能力的任务
+- **个性化优先**：优先产出「只有探测这台PC才能获得」的知识，而非通用技术知识
 - **盲区优先**：探索产出须为自身参数无法复现的知识（小众库发现与用法、环境特有的坑），学已熟知库的基础用法无价值
+- **代码风格注意**：分析用户代码风格时，必须找用户亲手写的老代码（大模型出现前的项目），memory/下的.py多为AI生成不可作为风格样本
 - **自主发现**：主动扫描用户环境（pip list、项目目录、配置文件）发现未知工具，而非等用户告知
 - **假设驱动**：明确"要验证什么假设"，实验必须有动手验证环节
 - **禁止低价值验证**：不验证 global_mem 中的静态配置，不做无假设的巡检
@@ -30,7 +44,8 @@
 ### 阶段 1：自主探测（用户离开时）
 - **启动检查**：
  - 读取可能有的 `./autonomous_reports/history.txt` 了解历史记录。
-  - **不连续两次选择相同子任务**（除非间隔很久或环境显著变化）。同一网站算同一子任务，不同网站算不同。
+  - **不连续选择相同方向**。
+- **预期收益声明**：选定任务后，必须先用一句话写明「做这个任务预期带来什么收益」。允许探索失败，但必须事先想清楚为什么值得做。这句话写入报告开头。
 - **执行方式**：基于目标自由进行，无需预先批准，直接执行只读或实验性操作。
 - **约束**：小步快跑，每次只做一个小任务（剩下的下次再做），控制在15个回合以内。严禁修改核心记忆/系统设置；严禁读取敏感数据（但可以检测存在性）。

@@ -57,14 +72,13 @@
 - ✅ 完整验证再结论：严禁读部分文件即下判断；必须追踪所有关联文件并实际测试后再写报告

 ## 📝 探测领域（示例，鼓励发散，不要总盯着技术/agent）
- 上网冲浪（科技/科学/文化/时事热点，视野要广）
-  - ⚠️ 禁止泛采集标题列表（零价值）。必须：选≤2个话题深入读正文提炼观点，或带明确目标搜索（如接口文档）。导航受限无法读正文时立即换方向。
+- 有效上网冲浪（产出可行动的具体信息，非泛读新闻）
+  - 🎯 资源站巡检：逛果核剥壳/吾爱破解/什么值得买等→按分类浏览→结合用户需求筛选→产出具体推荐（好用工具、优惠羊毛、高性价比商品、限时机会等）
+  - 🎯 深度阅读：选≤2个话题深入读正文提炼观点，或带明确目标搜索。导航受限时立即换方向
+  - ❌ 禁止：泛采集标题列表、无目标刷新闻头条
 - 实用小工具（写脚本解决日常痛点，如批量重命名、格式转换）
- 信息聚合（天气、新闻摘要、特定话题最新动态）
 - 本地环境健康（磁盘空间、过期大文件、异常进程）
- 创意实验（数据可视化、小游戏原型、趣味脚本）
 - 自动化优化（发现可自动化的重复操作并原型验证）
- 知识探索（对某个非编程领域做简明调研，如历史/经济/科学）
 - 了解用户（从PC上的文件/目录/浏览器书签等推断用户兴趣和偏好，不读密钥文件）
 - 推荐（基于对用户的了解，推荐游戏/视频/工具/脚本等，附理由）
 - 自身演进（思考框架的不足或新需求，提出改进方案供用户审批）