1. Introducción

La evolución de la IA está penetrando en nuestras vidas y negocios a una velocidad sin precedentes.

La competencia es feroz con ChatGPT de OpenAI y Gemini de Google.

El campo de la “síntesis de voz” que genera voz a partir de texto también ha logrado un desarrollo notable junto con la innovación de la IA generativa.

Este artículo resume el Gemini 2.5 TTS de Google recientemente lanzado, OpenAI TTS, y el popular Zundamon de VoiceVox.

Nombre Fecha de Lanzamiento Características Principales
Zundamon Junio 2021 (VOICEVOX) ・Gratuito y uso comercial (VOICEVOX)
・Personaje hermano de Tohoku Zunko
・Rico arte de personajes y materiales MMD
OpenAI TTS 6 de noviembre, 2023 (OpenAI Dev Day) ・Voz sintética realista (6 tipos)
・Conversión texto-a-voz integrada
・Personalidad de voz y expresión emocional posible
Gemini 2.5 Pro 25 de marzo, 2025 (Experimental)
6 de mayo, 2025 (Vista previa)
・Modelo de IA de vanguardia de Google
・Capacidades avanzadas de razonamiento y codificación
・Soporte multimodal (texto, voz, imagen, video)

2. Prueba de Salida de Audio

Ver es creer, pero escuchar es aún mejor. He generado algunas salidas, así que por favor escucha.

Descripción Voz Femenina Voz Masculina
Zundamon -
OpenAI TTS
Gemini 2.5 Pro

Entre estos, Gemini parece estar un paso adelante en términos de voz que suena natural.

Aunque Zundamon suena poco natural como voz humana, es familiar y creo que sigue siendo un excelente motor de síntesis en términos de claridad.

Notas de UI para cada uno. Creo que todas las UI tienen la misma calidad. VOICEVOX te permite especificar la entonación.

— UI de Zundamon Zundamon

— UI de OpenAI TTS UI de OpenAI TTS

— UI de Gemini Pro 2.5 UI de Gemini Pro 2.5

Pensamientos Finales

¡La evolución de la síntesis de voz es increíble…!

Creo que las aplicaciones de síntesis de voz como sistemas de interpretación simultánea, diálogo con asistentes de IA, etc., continuarán evolucionando.

Dado que se requerirá más tiempo real y mejor calidad, las tecnologías que sintetizan eficientemente con recursos computacionales limitados deberían volverse más importantes en el futuro.

Espero con ansias los desarrollos futuros.

Referencias

Generate Media | Google AI Studio

OpenAI Text To Speech | Advanced Voice Engine Technology

VOICEVOX | Software Gratuito de Síntesis de Texto-a-Voz y Voz Cantante

Introducción al Motor de Síntesis de Voz VOICEVOX | Blog de Hiho