Token-Nutzung & Kosten

OpenClaw trackt Tokens, nicht Zeichen. Tokens sind modellspezifisch, aber die meisten OpenAI-Modelle verwenden durchschnittlich ~4 Zeichen pro Token für englischen Text.

Wie der System-Prompt aufgebaut wird

OpenClaw erstellt bei jedem Lauf seinen eigenen System-Prompt. Dieser enthält:

  • Tool-Liste + Kurzbeschreibungen
  • Skill-Liste (nur Metadaten; Anweisungen werden bei Bedarf mit read geladen)
  • Self-Update-Anweisungen
  • Workspace + Bootstrap-Dateien (AGENTS.md, SOUL.md, TOOLS.md, IDENTITY.md, USER.md, HEARTBEAT.md, BOOTSTRAP.md bei neuen Sessions). Große Dateien werden durch agents.defaults.bootstrapMaxChars gekürzt (Standard: 20000).
  • Zeit (UTC + Benutzer-Zeitzone)
  • Reply-Tags + Heartbeat-Verhalten
  • Runtime-Metadaten (Host/OS/Modell/Thinking)

Die vollständige Aufschlüsselung findest du unter System-Prompt.

Was zum Context-Fenster zählt

Alles, was das Modell empfängt, zählt zum Context-Limit:

  • System-Prompt (alle oben aufgeführten Abschnitte)
  • Gesprächsverlauf (Benutzer- + Assistenten-Nachrichten)
  • Tool-Aufrufe und Tool-Ergebnisse
  • Anhänge/Transkripte (Bilder, Audio, Dateien)
  • Compaction-Zusammenfassungen und Pruning-Artefakte
  • Provider-Wrapper oder Sicherheits-Header (nicht sichtbar, aber trotzdem gezählt)

Für eine praktische Aufschlüsselung (pro eingefügter Datei, Tools, Skills und System-Prompt-Größe) nutze /context list oder /context detail. Siehe Context.

Aktuelle Token-Nutzung anzeigen

Nutze diese Befehle im Chat:

  • /statusEmoji-reiche Statuskarte mit dem Session-Modell, Context-Nutzung, Input/Output-Tokens der letzten Antwort und geschätzten Kosten (nur bei API-Key).
  • /usage off|tokens|full → fügt einen Nutzungs-Footer pro Antwort zu jeder Antwort hinzu.
    • Bleibt pro Session erhalten (gespeichert als responseUsage).
    • OAuth-Authentifizierung verbirgt Kosten (nur Tokens).
  • /usage cost → zeigt eine lokale Kostenzusammenfassung aus den OpenClaw-Session-Logs.

Weitere Oberflächen:

  • TUI/Web TUI: /status + /usage werden unterstützt.
  • CLI: openclaw status --usage und openclaw channels list zeigen Provider-Quota-Fenster (keine Kosten pro Antwort).

Kostenschätzung (wenn angezeigt)

Kosten werden aus deiner Modell-Preis-Konfiguration geschätzt:

models.providers.<provider>.models[].cost

Diese sind USD pro 1M Tokens für input, output, cacheRead und cacheWrite. Wenn die Preise fehlen, zeigt OpenClaw nur Tokens an. OAuth-Tokens zeigen niemals Dollar-Kosten.

Cache-TTL und Pruning-Auswirkungen

Provider-Prompt-Caching gilt nur innerhalb des Cache-TTL-Fensters. OpenClaw kann optional Cache-TTL-Pruning durchführen: Es bereinigt die Session, sobald die Cache-TTL abgelaufen ist, und setzt dann das Cache-Fenster zurück, sodass nachfolgende Anfragen den frisch gecachten Context wiederverwenden können, anstatt die gesamte Historie neu zu cachen. Das hält die Cache-Write-Kosten niedriger, wenn eine Session über die TTL hinaus inaktiv wird.

Konfiguriere es in der Gateway-Konfiguration und sieh dir die Verhaltensdetails unter Session-Pruning an.

Heartbeat kann den Cache über Inaktivitätsphasen hinweg warm halten. Wenn dein Modell eine Cache-TTL von 1h hat, kann ein Heartbeat-Intervall knapp darunter (z. B. 55m) das erneute Caching des vollständigen Prompts vermeiden und so Cache-Write-Kosten reduzieren.

Bei der Anthropic-API-Preisgestaltung sind Cache-Reads deutlich günstiger als Input-Tokens, während Cache-Writes mit einem höheren Multiplikator abgerechnet werden. Siehe Anthropics Prompt-Caching-Preise für die aktuellen Tarife und TTL-Multiplikatoren: https://docs.anthropic.com/docs/build-with-claude/prompt-caching

Beispiel: 1h-Cache mit Heartbeat warm halten

agents:
  defaults:
    model:
      primary: "anthropic/claude-opus-4-5"
    models:
      "anthropic/claude-opus-4-5":
        params:
          cacheRetention: "long"
    heartbeat:
      every: "55m"

Tipps zur Reduzierung des Token-Drucks

  • Nutze /compact, um lange Sessions zusammenzufassen.
  • Kürze große Tool-Outputs in deinen Workflows.
  • Halte Skill-Beschreibungen kurz (die Skill-Liste wird in den Prompt eingefügt).
  • Verwende kleinere Modelle für ausführliche, explorative Arbeiten.

Siehe Skills für die genaue Formel zur Berechnung des Skill-Listen-Overheads.