1. Introducción
La evolución de la IA está penetrando en nuestras vidas y negocios a una velocidad sin precedentes.
La competencia es feroz con ChatGPT de OpenAI y Gemini de Google.
El campo de la “síntesis de voz” que genera voz a partir de texto también ha logrado un desarrollo notable junto con la innovación de la IA generativa.
Este artículo resume el Gemini 2.5 TTS de Google recientemente lanzado, OpenAI TTS, y el popular Zundamon de VoiceVox.
Nombre | Fecha de Lanzamiento | Características Principales |
---|---|---|
Zundamon | Junio 2021 (VOICEVOX) | ・Gratuito y uso comercial (VOICEVOX) ・Personaje hermano de Tohoku Zunko ・Rico arte de personajes y materiales MMD |
OpenAI TTS | 6 de noviembre, 2023 (OpenAI Dev Day) | ・Voz sintética realista (6 tipos) ・Conversión texto-a-voz integrada ・Personalidad de voz y expresión emocional posible |
Gemini 2.5 Pro | 25 de marzo, 2025 (Experimental) 6 de mayo, 2025 (Vista previa) |
・Modelo de IA de vanguardia de Google ・Capacidades avanzadas de razonamiento y codificación ・Soporte multimodal (texto, voz, imagen, video) |
2. Prueba de Salida de Audio
Ver es creer, pero escuchar es aún mejor. He generado algunas salidas, así que por favor escucha.
Descripción | Voz Femenina | Voz Masculina |
---|---|---|
Zundamon | - | |
OpenAI TTS | ||
Gemini 2.5 Pro |
Entre estos, Gemini parece estar un paso adelante en términos de voz que suena natural.
Aunque Zundamon suena poco natural como voz humana, es familiar y creo que sigue siendo un excelente motor de síntesis en términos de claridad.
Notas de UI para cada uno. Creo que todas las UI tienen la misma calidad. VOICEVOX te permite especificar la entonación.
— UI de Zundamon
— UI de OpenAI TTS
— UI de Gemini Pro 2.5
Pensamientos Finales
¡La evolución de la síntesis de voz es increíble…!
Creo que las aplicaciones de síntesis de voz como sistemas de interpretación simultánea, diálogo con asistentes de IA, etc., continuarán evolucionando.
Dado que se requerirá más tiempo real y mejor calidad, las tecnologías que sintetizan eficientemente con recursos computacionales limitados deberían volverse más importantes en el futuro.
Espero con ansias los desarrollos futuros.
Referencias
Generate Media | Google AI Studio
OpenAI Text To Speech | Advanced Voice Engine Technology
VOICEVOX | Software Gratuito de Síntesis de Texto-a-Voz y Voz Cantante
Introducción al Motor de Síntesis de Voz VOICEVOX | Blog de Hiho