1. はじめに
AIの進化は、かつてないスピードで私たちの生活やビジネスに浸透しています。
OpenAIのChatGPTやGoogleのGeminiなど、競争がすごいです。
テキストから音声を生成する「音声合成」の分野も、生成AIの革新と同時に目覚ましい発展を遂げています。
本記事では最近出てきたGoogleの Gemini 2.5 TTS、OpenAI TTSや、結構前から人気のあるVoiceVoxのずんだもんなどを改めてまとめました。
名称 | 公開年月日 | 主な特徴 |
---|---|---|
ずんだもん | 2021年6月(VOICEVOX) | ・無料・商用利用可(VOICEVOX) ・東北ずん子の弟設定 ・立ち絵やMMD素材も豊富 |
OpenAI TTS | 2023年11月6日(OpenAI Dev Day) | ・リアルな合成音声(6種類) ・文字→音声変換と音声合成を統合 ・音声の個性・感情表現も可能 |
Gemini 2.5 Pro | 2025年3月25日(実験版) 2025年5月6日(プレビュー版) |
・Googleの最先端AIモデル ・高度な推論・コーディング能力 ・マルチモーダル対応(テキスト、音声、画像、動画) |
2. 出力してみた
百聞は一見に如かず、ならぬ百見は一聞に如かず、です。出力してみたので聞いてみてください。
説明 | 女声 | 男声 |
---|---|---|
ずんだもん | - | |
OpenAI TTS | ||
Gemini 2.5 Pro |
この中だと、自然な音声という観点ではGeminiが頭一つ抜けてる感じがあります。
ずんだもんは、人の声として不自然ですが馴染みもあり、聞き取りやすいという点では現在でも優れている合成エンジンだと思います。
それぞれのUIメモ。UIは全部同じクオリティだと思います。VOICEVOXはイントネーションを指定することができます。
— ずんだもんUI
— OpenAI TTS UI
— Gemini Pro 2.5 UI
さいごに
音声合成の進化、すごいですね。。。!
音声合成の応用先として、同時通訳システム、AIアシスタントとの対話、etc、、、がこれから進化していくと思っています。
よりリアルタイムでより良い品質が要求されるので、限りある計算リソースに対して効率よく合成する技術が今後より重要になるはずです。
今後の進化に期待したいです。
参考
Generate Media | Google AI Studio
OpenAI Text To Speech | Advanced Voice Engine Technology