Deepgram (Chuyển đổi âm thanh thành văn bản)
Deepgram là một API chuyển đổi giọng nói thành văn bản (speech-to-text). Trong OpenClaw, nó được dùng để chuyển đổi file âm thanh/tin nhắn thoại đầu vào thông qua tools.media.audio.
Khi được bật, OpenClaw sẽ tải file âm thanh lên Deepgram và chèn bản transcript vào pipeline trả lời ({{Transcript}} + khối [Audio]). Đây không phải là streaming; nó sử dụng endpoint chuyển đổi cho file đã ghi sẵn.
Website: https://deepgram.com Docs: https://developers.deepgram.com
Bắt đầu nhanh
- Đặt API key của các bạn:
DEEPGRAM_API_KEY=dg_...
- Bật provider:
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
Các tùy chọn
model: ID model của Deepgram (mặc định:nova-3)language: gợi ý ngôn ngữ (tùy chọn)tools.media.audio.providerOptions.deepgram.detect_language: bật tự động nhận diện ngôn ngữ (tùy chọn)tools.media.audio.providerOptions.deepgram.punctuate: bật dấu câu tự động (tùy chọn)tools.media.audio.providerOptions.deepgram.smart_format: bật định dạng thông minh (tùy chọn)
Ví dụ với ngôn ngữ:
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}
Ví dụ với các tùy chọn Deepgram:
{
tools: {
media: {
audio: {
enabled: true,
providerOptions: {
deepgram: {
detect_language: true,
punctuate: true,
smart_format: true,
},
},
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
Lưu ý
- Xác thực tuân theo thứ tự auth chuẩn của provider;
DEEPGRAM_API_KEYlà cách đơn giản nhất. - Ghi đè endpoint hoặc header bằng
tools.media.audio.baseUrlvàtools.media.audio.headerskhi dùng proxy. - Output tuân theo các quy tắc âm thanh giống như các provider khác (giới hạn kích thước, timeout, chèn transcript).