🤖 Claude Code Tools
GitHub
avançado
VibeVoice
Família de modelos de voz frontier open-source da Microsoft: transcreva 60 minutos de uma vez e gere fala de até 90 minutos sem chunking.
⚠ Problema
Sistemas de voz tradicionais processam áudio em chunks curtos, perdendo contexto global — resultando em transcrições inconsistentes para múltiplos locutores e síntese que perde coerência em textos longos.
✓ O que resolve
Família de 3 modelos com tokenizadores contínuos de fala a 7,5 Hz, permitindo janela de contexto de 64K tokens sem chunking: ASR (7B params) para transcrição longa com diarização, TTS (1,5B params) para síntese multi-locutor e Realtime (0,5B params) para latência de ~300ms. Apresentação oral aceita no ICLR 2026.
Como começar
- 1 Acesse via Hugging Face Hub: microsoft/VibeVoice-ASR, VibeVoice-TTS, VibeVoice-Realtime.
- 2 Experimente sem instalação no Gradio playground na página do projeto.
- 3 Para ASR: use os notebooks Colab referenciados na documentação.
- 4 Para Realtime: integre streaming de texto para obter primeiro áudio em ~300ms.
- 5 Configure hotwords customizadas para melhorar acurácia em vocabulário técnico.
- 6 Para produção: use vLLM para inferência de alta performance.
Para que serve
-
Transcrição Longa com Diarização Transcreva 60 minutos contínuos com identificação automática de locutores e timestamps — sem quebrar em pedaços.
-
Geração de Audiobooks Sintetize até 90 minutos com 4 vozes distintas em um único passo — ideal para audiobooks, cursos e narração.
-
Assistente de Voz em Tempo Real Latência de ~300ms no primeiro áudio via VibeVoice-Realtime — interfaces conversacionais com resposta percebida como instantânea.