🤖 Claude Code Tools GitHub avançado

VibeVoice

Família de modelos de voz frontier open-source da Microsoft: transcreva 60 minutos de uma vez e gere fala de até 90 minutos sem chunking.

⚠ Problema

Sistemas de voz tradicionais processam áudio em chunks curtos, perdendo contexto global — resultando em transcrições inconsistentes para múltiplos locutores e síntese que perde coerência em textos longos.

✓ O que resolve

Família de 3 modelos com tokenizadores contínuos de fala a 7,5 Hz, permitindo janela de contexto de 64K tokens sem chunking: ASR (7B params) para transcrição longa com diarização, TTS (1,5B params) para síntese multi-locutor e Realtime (0,5B params) para latência de ~300ms. Apresentação oral aceita no ICLR 2026.

Como começar

1 Acesse via Hugging Face Hub: microsoft/VibeVoice-ASR, VibeVoice-TTS, VibeVoice-Realtime.
2 Experimente sem instalação no Gradio playground na página do projeto.
3 Para ASR: use os notebooks Colab referenciados na documentação.
4 Para Realtime: integre streaming de texto para obter primeiro áudio em ~300ms.
5 Configure hotwords customizadas para melhorar acurácia em vocabulário técnico.
6 Para produção: use vLLM para inferência de alta performance.

Para que serve

🎙️
Transcrição Longa com Diarização Transcreva 60 minutos contínuos com identificação automática de locutores e timestamps — sem quebrar em pedaços.
📚
Geração de Audiobooks Sintetize até 90 minutos com 4 vozes distintas em um único passo — ideal para audiobooks, cursos e narração.
⚡
Assistente de Voz em Tempo Real Latência de ~300ms no primeiro áudio via VibeVoice-Realtime — interfaces conversacionais com resposta percebida como instantânea.

ttsasrspeechvoice-aimicrosoftopen-sourcediarizaçãomultilínguetransformersvllmpythoniclr

Veja também

Project N.O.M.A.D 🤖 Claude Code Tools → DeerFlow 🤖 Claude Code Tools → Hermes Agent 🤖 Claude Code Tools →