Google DeepMind、'Gemini 3.1 Flash TTS'を発表…テキストで話し方や速度を調整可能

robot
概要作成中

Googleの人工知能組織DeepMindは、新しい音声合成モデル「Gemini 3.1 Flash TTS」を公開した。その核心は、既存の機械的な音声よりも自然に話すことができるだけでなく、ユーザーがテキスト指示だけで細かくトーン、速度、雰囲気を調整できる点にある。

テキスト指示によるトーン・イントネーション・速度の制御

Google合同会社は最近、ブログを通じてGemini 3.1 Flash TTSのリリースを発表した。このモデルは、チャットボットの応答を音声に変換する過程で、「熱意のある」「驚きのある」「情報伝達型」などの指示語を反映し、トーンや音色を変えることができる。

公開されたデモ動画によると、ユーザーは声の選択だけでなく、伝え方や雰囲気も調整可能だ。前世代のTTSが「ロボットのよう」と感じられたのに対し、今回のモデルはより人間に近い表現力を実現することに重点を置いている。

英語圏のアクセントからポッドキャスト形式まで対応

Gemini 3.1 Flash TTSは、多くの主要言語の地域アクセントも提供している。英語を例にとると、アメリカ英語の「バレー」や「サザン」アクセントだけでなく、イギリス英語の「ブリクストン」「RP」などのバリエーションも選択可能だ。さらに、「大西洋を越える」などの特殊なアクセントオプションも含まれる。

Googleはまた、このモデルに「ディレクター級コントロール」機能を追加した。ユーザーは話し方や速度をより細かく調整でき、ポッドキャストの対話、オーディオブックのナレーション、言語教師、音声アシスタント、健康ガイド、ニュースキャスター、カスタマーサポート担当者などのテンプレートを利用できる。

特に注目すべきは、ユーザーがシナリオや環境を設定し、台詞の指示を入力した場合でも、そのキャラクターが複数回対話しながら一貫した話し方を維持できるよう設計されている点だ。Googleは、完成した設定値をGemini APIのコードとしてエクスポートでき、複数のプロジェクトやプラットフォームで同じ声を再現できると説明している。

70以上の言語に対応…ウォーターマークも適用

Googleによると、Gemini 3.1 Flash TTSの目標は、より自然な音声体験を提供することだ。対応言語は70以上で、日本語、ヒンディー語、ドイツ語なども含まれる。

さらに、すべての出力内容にはSynthIDのウォーターマークが埋め込まれている。これは、AI生成の音声コンテンツを識別しやすくするためと見られ、将来的に深屈偽造やフェイク情報の拡散に対する懸念に対応する狙いがある。

ブラインドテストで2位にランク…開発者は即時利用可能

その性能も一定の検証を受けている。「Artificial Analysis TTSランキング」の数千回のブラインドテストで、人間の好みに基づく評価において、Gemini 3.1 Flash TTSは1211ポイントで総合2位に入った。Googleは、これが複数の人気TTSモデルよりも高い評価を得ていることを示している。

現在、開発者はすぐにGemini APIとGoogle AIスタジオを通じてこのモデルを利用できる。企業顧客はVertex AIを通じてアクセスでき、一般ユーザーはGoogle Bizで試用可能だ。

今回のリリースは、生成型AIの競争がテキストや画像から音声分野へと急速に拡大していることを示している。特に、企業のサポート、メディア制作、教育、デジタルコンテンツ制作市場において「自然なAI音声」への需要が高まる中、Gemini 3.1 Flash TTSは関連市場の競争激化をさらに促進する可能性が高い。

TP AI 注意事項:TokenPost.aiの言語モデルを用いて記事の要約を行った。本文の主要内容が省略されたり、事実と異なる場合がある。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン