Deepgram (Chuyển đổi âm thanh thành văn bản)

Deepgram là một API chuyển đổi giọng nói thành văn bản (speech-to-text). Trong OpenClaw, nó được dùng để chuyển đổi file âm thanh/tin nhắn thoại đầu vào thông qua tools.media.audio.

Khi được bật, OpenClaw sẽ tải file âm thanh lên Deepgram và chèn bản transcript vào pipeline trả lời ({{Transcript}} + khối [Audio]). Đây không phải là streaming; nó sử dụng endpoint chuyển đổi cho file đã ghi sẵn.

Website: https://deepgram.com Docs: https://developers.deepgram.com

Bắt đầu nhanh

  1. Đặt API key của các bạn:
DEEPGRAM_API_KEY=dg_...
  1. Bật provider:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Các tùy chọn

  • model: ID model của Deepgram (mặc định: nova-3)
  • language: gợi ý ngôn ngữ (tùy chọn)
  • tools.media.audio.providerOptions.deepgram.detect_language: bật tự động nhận diện ngôn ngữ (tùy chọn)
  • tools.media.audio.providerOptions.deepgram.punctuate: bật dấu câu tự động (tùy chọn)
  • tools.media.audio.providerOptions.deepgram.smart_format: bật định dạng thông minh (tùy chọn)

Ví dụ với ngôn ngữ:

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Ví dụ với các tùy chọn Deepgram:

{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Lưu ý

  • Xác thực tuân theo thứ tự auth chuẩn của provider; DEEPGRAM_API_KEY là cách đơn giản nhất.
  • Ghi đè endpoint hoặc header bằng tools.media.audio.baseUrltools.media.audio.headers khi dùng proxy.
  • Output tuân theo các quy tắc âm thanh giống như các provider khác (giới hạn kích thước, timeout, chèn transcript).