Transcript 清理(Provider 修复)

本文档描述在运行前(构建模型 Context)应用到 transcript 的 Provider 专属修复。这些是内存中的调整,用于满足严格的 Provider 要求。它们不会重写磁盘上存储的 JSONL transcript 文件。

涵盖范围包括:

  • 工具调用 id 清理
  • 工具结果配对修复
  • 轮次验证 / 排序
  • 思考签名清理
  • 图片负载清理

如果你需要了解 transcript 存储的详细信息,请查看:


运行位置

所有 transcript 清理逻辑都集中在嵌入式 runner 中:

  • 策略选择:src/agents/transcript-policy.ts
  • 清理/修复应用:src/agents/pi-embedded-runner/google.ts 中的 sanitizeSessionHistory

策略使用 providermodelApimodelId 来决定应用哪些规则。


全局规则:图片清理

图片负载始终会被清理,以防止因大小限制导致 Provider 端拒绝(对过大的 base64 图片进行缩小/重新压缩)。

实现位置:

  • src/agents/pi-embedded-helpers/images.ts 中的 sanitizeSessionMessagesImages
  • src/agents/tool-images.ts 中的 sanitizeContentBlocksImages

Provider 矩阵(当前行为)

OpenAI / OpenAI Codex

  • 仅图片清理。
  • 切换到 OpenAI Responses/Codex 模型时,删除孤立的推理签名(没有后续内容块的独立推理项)。
  • 不进行工具调用 id 清理。
  • 不进行工具结果配对修复。
  • 不进行轮次验证或重新排序。
  • 不生成合成工具结果。
  • 不剥离思考签名。

Google (Generative AI / Gemini CLI / Antigravity)

  • 工具调用 id 清理:严格字母数字。
  • 工具结果配对修复和合成工具结果。
  • 轮次验证(Gemini 风格的轮次交替)。
  • Google 轮次排序修复(如果历史记录以 assistant 开头,则在前面添加一个小的 user bootstrap)。
  • Antigravity Claude:规范化思考签名;删除未签名的思考块。

Anthropic / Minimax (Anthropic 兼容)

  • 工具结果配对修复和合成工具结果。
  • 轮次验证(合并连续的 user 轮次以满足严格的交替要求)。

Mistral(包括基于 model-id 的检测)

  • 工具调用 id 清理:strict9(字母数字长度 9)。

OpenRouter Gemini

  • 思考签名清理:剥离非 base64 的 thought_signature 值(保留 base64)。

其他所有 Provider

  • 仅图片清理。

历史行为(2026.1.22 之前)

在 2026.1.22 版本之前,OpenClaw 应用了多层 transcript 清理:

  • 一个 transcript-sanitize 扩展在每次构建 Context 时运行,可以:
    • 修复工具使用/结果配对。
    • 清理工具调用 id(包括保留 _/- 的非严格模式)。
  • Runner 也执行 Provider 专属清理,导致工作重复。
  • 在 Provider 策略之外还发生了额外的变更,包括:
    • 在持久化之前从 assistant 文本中剥离 <final> 标签。
    • 删除空的 assistant 错误轮次。
    • 在工具调用后修剪 assistant 内容。

这种复杂性导致了跨 Provider 的回归问题(特别是 openai-responsescall_id|fc_id 配对)。2026.1.22 的清理工作移除了扩展,将逻辑集中到 runner 中,并使 OpenAI 除了图片清理之外不做任何处理