Talk Mode
Talk Mode ist eine kontinuierliche Sprachkonversationsschleife:
- Auf Spracheingabe hören
- Transkript an das Modell senden (main Session, chat.send)
- Auf die Antwort warten
- Antwort über ElevenLabs ausgeben (Streaming-Wiedergabe)
Verhalten (macOS)
- Always-on Overlay während Talk Mode aktiv ist.
- Listening → Thinking → Speaking Phasenübergänge.
- Bei einer kurzen Pause (Stille-Fenster) wird das aktuelle Transkript gesendet.
- Antworten werden in WebChat geschrieben (wie beim Tippen).
- Interrupt on speech (standardmäßig an): Wenn du anfängst zu sprechen, während der Assistant spricht, wird die Wiedergabe gestoppt und der Unterbrechungszeitpunkt für den nächsten Prompt notiert.
Voice-Direktiven in Antworten
Der Assistant kann seiner Antwort eine einzelne JSON-Zeile voranstellen, um die Stimme zu steuern:
{ "voice": "<voice-id>", "once": true }
Regeln:
- Nur die erste nicht-leere Zeile.
- Unbekannte Keys werden ignoriert.
once: truegilt nur für die aktuelle Antwort.- Ohne
oncewird die Stimme zum neuen Standard für Talk Mode. - Die JSON-Zeile wird vor der TTS-Wiedergabe entfernt.
Unterstützte Keys:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Config (~/.openclaw/openclaw.json)
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
Standardwerte:
interruptOnSpeech: truevoiceId: fällt zurück aufELEVENLABS_VOICE_ID/SAG_VOICE_ID(oder erste ElevenLabs-Stimme, wenn API-Key verfügbar ist)modelId: standardmäßigeleven_v3, wenn nicht gesetztapiKey: fällt zurück aufELEVENLABS_API_KEY(oder Gateway Shell Profile, falls verfügbar)outputFormat: standardmäßigpcm_44100auf macOS/iOS undpcm_24000auf Android (setzemp3_*, um MP3-Streaming zu erzwingen)
macOS UI
- Menüleisten-Toggle: Talk
- Config-Tab: Talk Mode Gruppe (Voice ID + Interrupt-Toggle)
- Overlay:
- Listening: Wolke pulsiert mit Mikrofon-Pegel
- Thinking: Sinkende Animation
- Speaking: Ausstrahlende Ringe
- Klick auf Wolke: Sprechen stoppen
- Klick auf X: Talk Mode beenden
Hinweise
- Benötigt Sprach- und Mikrofon-Berechtigungen.
- Verwendet
chat.sendgegen Session-Keymain. - TTS nutzt die ElevenLabs Streaming API mit
ELEVENLABS_API_KEYund inkrementelle Wiedergabe auf macOS/iOS/Android für niedrigere Latenz. stabilityfüreleven_v3wird auf0.0,0.5oder1.0validiert; andere Modelle akzeptieren0..1.latency_tierwird auf0..4validiert, wenn gesetzt.- Android unterstützt
pcm_16000,pcm_22050,pcm_24000undpcm_44100Ausgabeformate für Low-Latency AudioTrack Streaming.