Talk Mode

Talk Mode ist eine kontinuierliche Sprachkonversationsschleife:

Auf Spracheingabe hören
Transkript an das Modell senden (main Session, chat.send)
Auf die Antwort warten
Antwort über ElevenLabs ausgeben (Streaming-Wiedergabe)

Verhalten (macOS)

Always-on Overlay während Talk Mode aktiv ist.
Listening → Thinking → Speaking Phasenübergänge.
Bei einer kurzen Pause (Stille-Fenster) wird das aktuelle Transkript gesendet.
Antworten werden in WebChat geschrieben (wie beim Tippen).
Interrupt on speech (standardmäßig an): Wenn du anfängst zu sprechen, während der Assistant spricht, wird die Wiedergabe gestoppt und der Unterbrechungszeitpunkt für den nächsten Prompt notiert.

Voice-Direktiven in Antworten

Der Assistant kann seiner Antwort eine einzelne JSON-Zeile voranstellen, um die Stimme zu steuern:

{ "voice": "<voice-id>", "once": true }

Regeln:

Nur die erste nicht-leere Zeile.
Unbekannte Keys werden ignoriert.
once: true gilt nur für die aktuelle Antwort.
Ohne once wird die Stimme zum neuen Standard für Talk Mode.
Die JSON-Zeile wird vor der TTS-Wiedergabe entfernt.

Unterstützte Keys:

voice / voice_id / voiceId
model / model_id / modelId
speed, rate (WPM), stability, similarity, style, speakerBoost
seed, normalize, lang, output_format, latency_tier
once

Config (`~/.openclaw/openclaw.json`)

{
  talk: {
    voiceId: "elevenlabs_voice_id",
    modelId: "eleven_v3",
    outputFormat: "mp3_44100_128",
    apiKey: "elevenlabs_api_key",
    interruptOnSpeech: true,
  },
}

Standardwerte:

interruptOnSpeech: true
voiceId: fällt zurück auf ELEVENLABS_VOICE_ID / SAG_VOICE_ID (oder erste ElevenLabs-Stimme, wenn API-Key verfügbar ist)
modelId: standardmäßig eleven_v3, wenn nicht gesetzt
apiKey: fällt zurück auf ELEVENLABS_API_KEY (oder Gateway Shell Profile, falls verfügbar)
outputFormat: standardmäßig pcm_44100 auf macOS/iOS und pcm_24000 auf Android (setze mp3_*, um MP3-Streaming zu erzwingen)

macOS UI

Menüleisten-Toggle: Talk
Config-Tab: Talk Mode Gruppe (Voice ID + Interrupt-Toggle)
Overlay:
- Listening: Wolke pulsiert mit Mikrofon-Pegel
- Thinking: Sinkende Animation
- Speaking: Ausstrahlende Ringe
- Klick auf Wolke: Sprechen stoppen
- Klick auf X: Talk Mode beenden

Hinweise