Talk Mode

Talk Mode ist eine kontinuierliche Sprachkonversationsschleife:

  1. Auf Spracheingabe hören
  2. Transkript an das Modell senden (main Session, chat.send)
  3. Auf die Antwort warten
  4. Antwort über ElevenLabs ausgeben (Streaming-Wiedergabe)

Verhalten (macOS)

  • Always-on Overlay während Talk Mode aktiv ist.
  • Listening → Thinking → Speaking Phasenübergänge.
  • Bei einer kurzen Pause (Stille-Fenster) wird das aktuelle Transkript gesendet.
  • Antworten werden in WebChat geschrieben (wie beim Tippen).
  • Interrupt on speech (standardmäßig an): Wenn du anfängst zu sprechen, während der Assistant spricht, wird die Wiedergabe gestoppt und der Unterbrechungszeitpunkt für den nächsten Prompt notiert.

Voice-Direktiven in Antworten

Der Assistant kann seiner Antwort eine einzelne JSON-Zeile voranstellen, um die Stimme zu steuern:

{ "voice": "<voice-id>", "once": true }

Regeln:

  • Nur die erste nicht-leere Zeile.
  • Unbekannte Keys werden ignoriert.
  • once: true gilt nur für die aktuelle Antwort.
  • Ohne once wird die Stimme zum neuen Standard für Talk Mode.
  • Die JSON-Zeile wird vor der TTS-Wiedergabe entfernt.

Unterstützte Keys:

  • voice / voice_id / voiceId
  • model / model_id / modelId
  • speed, rate (WPM), stability, similarity, style, speakerBoost
  • seed, normalize, lang, output_format, latency_tier
  • once

Config (~/.openclaw/openclaw.json)

{
  talk: {
    voiceId: "elevenlabs_voice_id",
    modelId: "eleven_v3",
    outputFormat: "mp3_44100_128",
    apiKey: "elevenlabs_api_key",
    interruptOnSpeech: true,
  },
}

Standardwerte:

  • interruptOnSpeech: true
  • voiceId: fällt zurück auf ELEVENLABS_VOICE_ID / SAG_VOICE_ID (oder erste ElevenLabs-Stimme, wenn API-Key verfügbar ist)
  • modelId: standardmäßig eleven_v3, wenn nicht gesetzt
  • apiKey: fällt zurück auf ELEVENLABS_API_KEY (oder Gateway Shell Profile, falls verfügbar)
  • outputFormat: standardmäßig pcm_44100 auf macOS/iOS und pcm_24000 auf Android (setze mp3_*, um MP3-Streaming zu erzwingen)

macOS UI

  • Menüleisten-Toggle: Talk
  • Config-Tab: Talk Mode Gruppe (Voice ID + Interrupt-Toggle)
  • Overlay:
    • Listening: Wolke pulsiert mit Mikrofon-Pegel
    • Thinking: Sinkende Animation
    • Speaking: Ausstrahlende Ringe
    • Klick auf Wolke: Sprechen stoppen
    • Klick auf X: Talk Mode beenden

Hinweise

  • Benötigt Sprach- und Mikrofon-Berechtigungen.
  • Verwendet chat.send gegen Session-Key main.
  • TTS nutzt die ElevenLabs Streaming API mit ELEVENLABS_API_KEY und inkrementelle Wiedergabe auf macOS/iOS/Android für niedrigere Latenz.
  • stability für eleven_v3 wird auf 0.0, 0.5 oder 1.0 validiert; andere Modelle akzeptieren 0..1.
  • latency_tier wird auf 0..4 validiert, wenn gesetzt.
  • Android unterstützt pcm_16000, pcm_22050, pcm_24000 und pcm_44100 Ausgabeformate für Low-Latency AudioTrack Streaming.