話題のAI音声合成「Fish Audio S2」を実際に試してみた — ElevenLabsと比較してわかったこと

March 18, 2026

話題のAI音声合成「Fish Audio S2」を実際に試してみた — ElevenLabsと比較してわかったこと

AI研究部の藤田です。3月に公開されたばかりのオープンソースTTS「Fish Audio S2」が気になったので、業界標準のElevenLabsと比較検証してみました。「結局どっちがいいの？」をまとめます。

そもそもFish Audio S2って何？

2026年3月10日にFish Audioが公開した、最新のAI音声合成（Text-to-Speech）モデルです。テクノエッジなど各メディアでも取り上げられて話題になっています。

何がすごいのか、ざっくり3つ：

ほぼ人間と区別がつかない音声品質 — 人間かAIか当てるテスト（Audio Turing Test）で、判別不能レベルのスコア0.515を達成
感情を単語単位でコントロールできる — テキストに [嬉しそうに] [囁き声で] のようなタグを書くだけ
複数人の対話を一発で生成できる — 3人が掛け合う会話も、1回の生成で出力可能

しかもオープンソースで、GitHubとHugging Faceで公開されています。

「それ本当？」と思ったので、実際にクラウド版を触って確かめてみました。

検証方法

比較対象はElevenLabs。AI音声合成のデファクトスタンダードで、すでに使っている方も多いと思います。

どちらも無料プランのクラウド版で、同じテキストを読ませて比較しました。

	Fish Audio S2	ElevenLabs
モデル	S2 Pro（最新）	Eleven v3
ボイス	HINATA（コミュニティ提供・日本語男性）	Otani（公式・日本語男性）
料金	無料（月8,000クレジット）	無料（月10,000文字）

テストは3種類やりました：

ニュース読み上げ — 日本語の基本的な自然さを見る
感情制御 — 喜び→悲しみ→怒りの切替がどれだけ効くか
複数話者の対話 — 3人が交互に喋る音声を一括生成

結果① ニュース読み上げ — 日本語の自然さ

こんなテキストを読ませました：

本日、大阪市は2030年の万博跡地を活用した新たなまちづくり計画の概要を発表しました。計画では、約155ヘクタールの敷地に、先端技術の研究拠点や国際交流施設、緑豊かな公園などを段階的に整備するとしています。

Fish Audio S2の結果

最初にデフォルトの英語ボイス（Sarah）で試したところ、日本語は話せるものの**「カタコト外国人のようなイントネーション」**に。多言語対応は動いているが、ネイティブ品質とは言えない印象でした。

日本語ボイス（HINATA）に切り替えると改善。ただし、このボイスはコミュニティユーザーが作成したもので、公式提供ではありません。

ElevenLabsの結果

公式が提供する日本語ネイティブボイス（Otani）で生成。安定した品質でした。

ポイント

ElevenLabsは公式の日本語ボイスが充実しているのが強み。Fish Audioは現時点で公式日本語ボイスがなく、コミュニティに頼る必要があるため、ボイスの品質と著作権面で不安が残ります。

結果② 感情制御 — 「嬉しい→悲しい→怒り」を1つの文章で

S2の目玉機能である感情タグを検証しました。同じテキストを両方に入力：

Fish Audio S2用（日本語タグ）：

[嬉しそうに] やった！ついに合格通知が届いたよ！信じられない！
[悲しげに] でも、一緒に勉強してきた友達は不合格だったって聞いて、素直に喜べなくて…。
[怒りを込めて]

ElevenLabs用（英語タグ）：

[excited] やった！...  [sad] でも、...  [angry]

結果

	Fish Audio S2	ElevenLabs
感情の効き	やや感情がこもっている程度	よく感情がこもっている
日本語タグ vs 英語タグ	大きな差なし	英語タグのみ対応

正直なところ、ElevenLabsの方が感情の切替が明確でした。

Fish S2は論文上では感情表現のベンチマークで91.61%の勝率を出していますが、クラウド版の無料プランで使える範囲では、その実力を十分に発揮できていない印象です。コミュニティボイスとの相性や、有料プランでの品質向上の可能性は今後の検証課題です。

ちなみにFish S2は日本語でタグが書ける（[嬉しそうに]）のは便利です。ElevenLabsは英語タグ（[excited]）しか使えないので、日本語のスクリプトに英語を混ぜる必要があります。

結果③ 複数話者対話 — これはFish S2の圧勝

ここが一番面白かったポイントです。

Fish Audio S2では、テキスト入力画面に「+ 話者を追加」ボタンがあり、話者ブロックを追加していくだけで複数人の対話が作れます。

実際に3人（男性・女性・もう1人の女性）の対話を設定して「音声を生成する」を押すと、1つの音声ファイルとして3人が交互に会話する音声が出力されました。

ElevenLabsでこれをやろうとすると：

話者Aのセリフを生成 → ダウンロード
話者Bのセリフを生成 → ダウンロード
話者Cのセリフを生成 → ダウンロード
音声編集ソフトで結合・タイミング調整

という工程が必要です。ポッドキャスト制作や対話型の教育コンテンツを作る場合、この差は大きいです。

まとめ — 結局どっちを使うべき？

用途	おすすめ	理由
日本語ナレーション（品質重視）	ElevenLabs	公式日本語ボイスが充実、感情制御も明確
複数話者の対話コンテンツ	Fish Audio S2	一括生成で圧倒的に効率的
コスト重視の大量生成	Fish Audio S2	$11/月で200分。ElevenLabsより生成量あたりのコストが低い
自社環境でカスタマイズしたい	Fish Audio S2	オープンソースなので研究・非商用なら無料で使える
著作権リスクを最小化したい	ElevenLabs	公式ボイスで権利がクリア

一言でまとめると： Fish Audio S2は「複数話者」と「オープンソース」で独自の強みがあるが、日本語の音声品質と感情制御では現時点でElevenLabsに軍配。ただし、S2はまだ公開直後で進化の余地が大きいため、今後もウォッチしていく価値があります。

今後やりたいこと

Fish Audio公式の日本語ボイスが追加されたら再検証
オープンソース版をローカルGPU環境で動かして速度検証
社内メンバーでブラインドテスト（どっちがAIかわからない状態で聞き比べ）
自社のeラーニングコンテンツへの適用可能性の検討

関連リンク

Fish Audio: https://fish.audio
ElevenLabs: https://elevenlabs.io
Fish Audio S2 論文: https://arxiv.org/abs/2603.08823
Fish Audio S2 GitHub: https://github.com/fishaudio/fish-speech

質問やフィードバックがあればお気軽にどうぞ！

話題のAI音声合成「Fish Audio S2」を実際に試してみた — ElevenLabsと比較してわかったこと

AI研究部の藤田です。3月に公開されたばかりのオープンソースTTS「Fish Audio S2」が気になったので、業界標準のElevenLabsと比較検証してみました。「結局どっちがいいの？」をまとめます。

そもそもFish Audio S2って何？

何がすごいのか、ざっくり3つ：

ほぼ人間と区別がつかない音声品質 — 人間かAIか当てるテスト（Audio Turing Test）で、判別不能レベルのスコア0.515を達成
感情を単語単位でコントロールできる — テキストに [嬉しそうに] [囁き声で] のようなタグを書くだけ
複数人の対話を一発で生成できる — 3人が掛け合う会話も、1回の生成で出力可能

しかもオープンソースで、GitHubとHugging Faceで公開されています。

「それ本当？」と思ったので、実際にクラウド版を触って確かめてみました。

検証方法

比較対象はElevenLabs。AI音声合成のデファクトスタンダードで、すでに使っている方も多いと思います。

どちらも無料プランのクラウド版で、同じテキストを読ませて比較しました。

	Fish Audio S2	ElevenLabs
モデル	S2 Pro（最新）	Eleven v3
ボイス	HINATA（コミュニティ提供・日本語男性）	Otani（公式・日本語男性）
料金	無料（月8,000クレジット）	無料（月10,000文字）

テストは3種類やりました：

ニュース読み上げ — 日本語の基本的な自然さを見る
感情制御 — 喜び→悲しみ→怒りの切替がどれだけ効くか
複数話者の対話 — 3人が交互に喋る音声を一括生成

結果① ニュース読み上げ — 日本語の自然さ

こんなテキストを読ませました：

本日、大阪市は2030年の万博跡地を活用した新たなまちづくり計画の概要を発表しました。計画では、約155ヘクタールの敷地に、先端技術の研究拠点や国際交流施設、緑豊かな公園などを段階的に整備するとしています。

Fish Audio S2の結果

日本語ボイス（HINATA）に切り替えると改善。ただし、このボイスはコミュニティユーザーが作成したもので、公式提供ではありません。

ElevenLabsの結果

公式が提供する日本語ネイティブボイス（Otani）で生成。安定した品質でした。

ポイント

結果② 感情制御 — 「嬉しい→悲しい→怒り」を1つの文章で

S2の目玉機能である感情タグを検証しました。同じテキストを両方に入力：

Fish Audio S2用（日本語タグ）：

[嬉しそうに] やった！ついに合格通知が届いたよ！信じられない！
[悲しげに] でも、一緒に勉強してきた友達は不合格だったって聞いて、素直に喜べなくて…。
[怒りを込めて]

ElevenLabs用（英語タグ）：

[excited] やった！...  [sad] でも、...  [angry]

結果

	Fish Audio S2	ElevenLabs
感情の効き	やや感情がこもっている程度	よく感情がこもっている
日本語タグ vs 英語タグ	大きな差なし	英語タグのみ対応

正直なところ、ElevenLabsの方が感情の切替が明確でした。

結果③ 複数話者対話 — これはFish S2の圧勝

ここが一番面白かったポイントです。

Fish Audio S2では、テキスト入力画面に「+ 話者を追加」ボタンがあり、話者ブロックを追加していくだけで複数人の対話が作れます。

ElevenLabsでこれをやろうとすると：

話者Aのセリフを生成 → ダウンロード
話者Bのセリフを生成 → ダウンロード
話者Cのセリフを生成 → ダウンロード
音声編集ソフトで結合・タイミング調整

という工程が必要です。ポッドキャスト制作や対話型の教育コンテンツを作る場合、この差は大きいです。

まとめ — 結局どっちを使うべき？

用途	おすすめ	理由
日本語ナレーション（品質重視）	ElevenLabs	公式日本語ボイスが充実、感情制御も明確
複数話者の対話コンテンツ	Fish Audio S2	一括生成で圧倒的に効率的
コスト重視の大量生成	Fish Audio S2	$11/月で200分。ElevenLabsより生成量あたりのコストが低い
自社環境でカスタマイズしたい	Fish Audio S2	オープンソースなので研究・非商用なら無料で使える
著作権リスクを最小化したい	ElevenLabs	公式ボイスで権利がクリア

今後やりたいこと

Fish Audio公式の日本語ボイスが追加されたら再検証
オープンソース版をローカルGPU環境で動かして速度検証
社内メンバーでブラインドテスト（どっちがAIかわからない状態で聞き比べ）
自社のeラーニングコンテンツへの適用可能性の検討

関連リンク

Fish Audio: https://fish.audio
ElevenLabs: https://elevenlabs.io
Fish Audio S2 論文: https://arxiv.org/abs/2603.08823
Fish Audio S2 GitHub: https://github.com/fishaudio/fish-speech

質問やフィードバックがあればお気軽にどうぞ！

‹ Google AI Studioが「フルスタック開発環境」に進化した。実機で検証して見えたこと

領収書をアップするだけ。AI会計ツール「TaxHacker」を試してみた ›

ブログ一覧へ

サービス