最新の音声AIを調査しました
1. はじめに AIの進化は、かつてないスピードで私たちの生活やビジネスに浸透しています。 OpenAIのChatGPTやGoogleのGeminiなど、競争がすごいです。 テキストから音声を生成する「音声合成」の分野も、生成AIの革新と同時に目覚ましい発展を遂げています。 本記事では最近出てきたGoogleの Gemini 2.5 TTS、OpenAI TTSや、結構前から人気のあるVoiceVoxのずんだもんなどを改めてまとめました。 名称 公開年月日 主な特徴 ずんだもん 2021年6月(VOICEVOX) ・無料・商用利用可(VOICEVOX) ・東北ずん子の弟設定 ・立ち絵やMMD素材も豊富 OpenAI TTS 2023年11月6日(OpenAI Dev Day) ・リアルな合成音声(6種類) ・文字→音声変換と音声合成を統合 ・音声の個性・感情表現も可能 Gemini 2.5 Pro 2025年3月25日(実験版) 2025年5月6日(プレビュー版) ・Googleの最先端AIモデル ・高度な推論・コーディング能力 ・マルチモーダル対応(テキスト、音声、画像、動画) 2. 出力してみた 百聞は一見に如かず、ならぬ百見は一聞に如かず、です。出力してみたので聞いてみてください。 説明 女声 男声 ずんだもん - OpenAI TTS Gemini 2.5 Pro この中だと、自然な音声という観点ではGeminiが頭一つ抜けてる感じがあります。 ずんだもんは、人の声として不自然ですが馴染みもあり、聞き取りやすいという点では現在でも優れている合成エンジンだと思います。 それぞれのUIメモ。UIは全部同じクオリティだと思います。VOICEVOXはイントネーションを指定することができます。 — ずんだもんUI — OpenAI TTS UI — Gemini Pro 2.5 UI ...