BigQuery の「データと会話できる」やつ、想像よりだいぶ賢かった
BigQuery の「データと会話できる」やつ、想像よりだいぶ賢かった


BigQuery の「データと会話できる」やつ、想像よりだいぶ賢かった
X で「BigQuery の会話分析、想像よりだいぶ賢くて社内がざわついている」という投稿を見かけて、気になって試してみました。結論から言うと、評判どおりでした。一度触り始めると、ずっとデータを見ていられる感覚になります。
今回は半日かけて色々試した体験と、途中で気づいた「ちょっとした落とし穴」の話を書いておきます。
BigQuery Conversational Analytics とは
2026 年 1 月にプレビュー公開された機能で、ざっくり言うと「日本語で質問すると、BigQuery が勝手に SQL を書いて実行してグラフまで描いてくれる」というもの。裏で Gemini が動いています。
単なる text-to-SQL ではなくて、いわゆる「データエージェント」という位置付けです。テーブル構造やメタデータを読み取った上で、会話の文脈を保ったまま複数の質問に答えてくれます。
ここまで聞くと「あー、はいはい、AI でデータ分析ね」という感じかもしれません。私もそう思っていました。実際に触ってみるまでは。
最初の体験:サンプルデータで遊ぶ
セットアップ自体は 30 分ちょっと。無料トライアル($300 分のクレジット)を有効化して、BigQuery コンソールの「エージェント」画面を開くと、Google が用意したサンプルエージェントがいくつか置いてあります。
その中から「The Look Ecommerce」という架空のアパレル EC のエージェントを選んで、最初の質問を投げてみました。
「商品カテゴリ別の売上を教えて」
返ってきたのは、メンズ部門のトップ 10 カテゴリを棒グラフで表示したもので、Jeans が圧倒的にトップ。しかも「販売数」と「売上高」を 1 枚のグラフに同時に表現していました(棒の長さが販売数、色の濃さが売上高)。
これは人間のアナリストでもセンスが問われる可視化です。「単位をどう見せるか」「何軸で比較するか」を勝手に判断してくれている。しかも回答は日本語で「Jeans の圧倒的な人気」というインサイト付き。
ここで「あ、これは本当に賢いかも」と思い始めました。
IMDB データで映画ランキングを探る
サンプルデータは用意されたものなので、もう少し自由度の高いデータで試したくなり、BigQuery の公開データセットにある IMDB(映画データベース)でエージェントを自作してみました。
やったことはシンプルで、テーブルを 4 つ選んで(タイトル基本情報、評価、人物情報、出演者)、エージェントに「これで話せるようにしておいてね」と指示するだけ。数クリックで完成です。
最初の質問はこれ:
「歴代で最も評価の高い SF 映画は何ですか?」
返ってきた答えが秀逸でした。
エージェントの回答
IMDb のデータに基づき、ユーザー投票数が 10 万件以上の SF 映画を対象とした評価ランキング(平均評価順)のトップ 10 を抽出しました。歴代で最評価の高い SF 映画は、クリストファー・ノーラン監督の「インセプション(2010)」で、平均評価は 8.8 となっています。次いで「インターステラー」や「マトリックス」などが続いています。
ここが賢い
私は単に「評価の高い SF 映画は?」としか聞いていないんですが、エージェントは勝手に:
SF ジャンルを含む映画(TV ドラマ等を除外)に絞り込み
投票数 10 万件以上というノイズ除去の閾値を設定
「無名映画に 1 票入れた人が 10 点を付けた」という統計的なゴミを排除
こういう判断を自動でやってくれます。普通の人間のアナリストでもこの辺の前提を置くのを忘れて「えっ、なんで聞いたこともない映画が 1 位なの?」と困惑するところから始めたりするので、最初から賢い仕事をしてくれる感覚です。
そして回答には「トップ作品の傾向」「クラシック作品の健闘」「MCU 作品の健闘」といったインサイトまで添えられていました。
「ずっと見てしまう」の正体
一番面白いのは、一つの回答から次の疑問が自然に湧いてくることです。
SF 映画のランキングを見たら「じゃあ時代ごとの評価はどう変わってる?」と気になって、
「SF 映画の評価は 10 年ごとにどう変化している?」
と質問。帰ってきたのは 1910 年代から 2020 年代までの平均評価と制作本数のテーブルとグラフ。面白かったのは、エージェントが単なるデータの羅列で終わらず、**「1920-30 年代の高評価は制作本数が少ないことによる選択バイアスかもしれない」**という統計的な注意まで付け加えてきたことです。
この「答えるだけじゃなく、解釈の落とし穴も教えてくれる」姿勢はかなり嬉しい。
調子に乗って次:
「同じことをホラー映画でやって、SF 映画と比較できる?」
ここで面白いことが起きました。エージェントが前の質問の枠組み(10 年単位、IMDb 評価)を引き継いだまま、SF とホラーの 2 ジャンル比較をしてくれたのです。会話の連続性がちゃんと働いています。
結果を見ると、1980 年代を境に SF がホラーを評価で逆転しているという興味深い発見がありました。ちょうど『スター・ウォーズ』『E.T.』『ブレードランナー』といった SF 大作が出そろった時期です。一方のホラーは 2000 年代以降に評価を落としていて、これは『ソウ』『パラノーマル・アクティビティ』のヒットを受けて、類似の低予算ホラーが量産された時期と一致しています。オリジナルは傑作でも、フォロワー作品群の粗製乱造が平均評価を押し下げた格好ですね。
データがストーリーになる瞬間。これが「ずっと見ていられる」理由だと気づきました。
落とし穴:「予測して」の罠
ここまで褒めてばかりだと広告みたいなので、つまずいた話もしておきます。
アパレル EC のサンプルデータに戻って、こんな質問をしました:
「商品カテゴリ別に今後 3 ヶ月の売上を予測して、どのカテゴリが一番伸びそう?」
帰ってきた答えは「スカート(72% 成長)、靴下(61% 成長)、衣料品セット(58% 成長)が伸びそう」というもの。
全カテゴリで 20〜70% 成長。
……ん?そんなバカな。
違和感を感じて、生成された SQL を見てみました。そこでわかったこと:
エージェントは予測していませんでした。
やっていたのは「Q4 2025 と Q1 2026 の売上を比較して、その成長率で今後を外挿する」というだけの処理。時系列予測モデルは一切使われていません。本当の予測ではなく、直近 2 四半期の比較を「予測」と呼んでいただけだったのです。
これはけっこう重要な教訓でした。自然言語の曖昧さが、そのままアウトプットの曖昧さになるということ。「予測」という言葉を聞いたら人間は時系列モデルを想像しますが、エージェントはそれを推測しないことがあります。
魔法の呪文:関数名を明示する
じゃあどうすれば本物の予測をしてくれるのか。試しに関数名を明示してみました:
「AI.FORECAST を使って、今後 3 ヶ月の月次売上を商品カテゴリ別に予測して」
これで一気に変わりました。エージェントは Google の基盤モデル TimesFM を呼び出して、過去 24 ヶ月分のデータを使った本格的な時系列予測を返してきました。しかも信頼区間付き、季節性を考慮した結果で、アウターウェア&コートは「春なので需要減」と正しく微減トレンドを予測。
さっきの「全カテゴリ 20-70% 成長」の無邪気な外挿とは別物です。
この機能の本当の価値
半日触ってみて思ったのは、この機能の本当の価値は「SQL を書かなくていい」ことじゃなくて、データと会話することで仮説が連鎖することにあるということです。
従来なら:
「SF 映画のランキング見たいな」
SQL 書く
結果見る
「10 年ごとに見たいな」
SQL 書き直す
結果見る
「ホラーと比べたいな」
SQL 書き直す
という行き来で、2, 5, 8 のたびに「どのテーブルで、どの列を、どうジョインして……」と頭を切り替える必要がありました。この切り替えが認知的コストで、思考が途切れるんですよね。
会話分析だと、このコストが消えます。仮説を思いついた瞬間に質問できるので、思考が途切れない。データを「問い詰める」感覚で、ずっと対話できます。
使う側に必要な姿勢
一方で、今回の検証で強く感じたのは、使う側のリテラシーも求められるということです。
回答はもっともらしいけど、生成 SQL を見ると違うことをやっている場合がある
「予測」「平均」「売上」みたいな言葉の定義が、こちらの意図と違うことがある
サンプルサイズや外れ値の扱いに、人間が気づかないとダメなことがある
便利すぎるので、「AI が答えたから正しい」と鵜呑みにしがち。でもこの機能が SQL を見せてくれる設計になっているのは、「ちゃんと検証しろ」というメッセージでもあります。
生成 SQL を読む習慣さえあれば、この機能は本当に強力だと思います。
まとめ
会話分析は 本当に賢い。自然言語の曖昧な質問にも、妥当な前提を置いて答えてくれる
会話の 文脈を引き継ぐ ので、仮説の連鎖が自然に起きる
データから ストーリーが自動で引き出される ので、分析が楽しい
ただし、言葉の選び方で精度が変わる。特に「予測」のような専門用語は、具体的な関数名を指定したほうが確実
生成 SQL は必ず確認する。これを守れば、検証可能で信頼できる分析ツールになる
投稿者が言っていた「社内がざわついている」という感覚、半日触って完全に理解しました。SQL を書ける人も書けない人も、これは触ってみる価値があります。
データが会話相手になる時代、思っていたよりずっと早く来ていたみたいです。
検証環境: BigQuery Conversational Analytics(プレビュー)/検証日: 2026 年 4 月 8 日
BigQuery の「データと会話できる」やつ、想像よりだいぶ賢かった
X で「BigQuery の会話分析、想像よりだいぶ賢くて社内がざわついている」という投稿を見かけて、気になって試してみました。結論から言うと、評判どおりでした。一度触り始めると、ずっとデータを見ていられる感覚になります。
今回は半日かけて色々試した体験と、途中で気づいた「ちょっとした落とし穴」の話を書いておきます。
BigQuery Conversational Analytics とは
2026 年 1 月にプレビュー公開された機能で、ざっくり言うと「日本語で質問すると、BigQuery が勝手に SQL を書いて実行してグラフまで描いてくれる」というもの。裏で Gemini が動いています。
単なる text-to-SQL ではなくて、いわゆる「データエージェント」という位置付けです。テーブル構造やメタデータを読み取った上で、会話の文脈を保ったまま複数の質問に答えてくれます。
ここまで聞くと「あー、はいはい、AI でデータ分析ね」という感じかもしれません。私もそう思っていました。実際に触ってみるまでは。
最初の体験:サンプルデータで遊ぶ
セットアップ自体は 30 分ちょっと。無料トライアル($300 分のクレジット)を有効化して、BigQuery コンソールの「エージェント」画面を開くと、Google が用意したサンプルエージェントがいくつか置いてあります。
その中から「The Look Ecommerce」という架空のアパレル EC のエージェントを選んで、最初の質問を投げてみました。
「商品カテゴリ別の売上を教えて」
返ってきたのは、メンズ部門のトップ 10 カテゴリを棒グラフで表示したもので、Jeans が圧倒的にトップ。しかも「販売数」と「売上高」を 1 枚のグラフに同時に表現していました(棒の長さが販売数、色の濃さが売上高)。
これは人間のアナリストでもセンスが問われる可視化です。「単位をどう見せるか」「何軸で比較するか」を勝手に判断してくれている。しかも回答は日本語で「Jeans の圧倒的な人気」というインサイト付き。
ここで「あ、これは本当に賢いかも」と思い始めました。
IMDB データで映画ランキングを探る
サンプルデータは用意されたものなので、もう少し自由度の高いデータで試したくなり、BigQuery の公開データセットにある IMDB(映画データベース)でエージェントを自作してみました。
やったことはシンプルで、テーブルを 4 つ選んで(タイトル基本情報、評価、人物情報、出演者)、エージェントに「これで話せるようにしておいてね」と指示するだけ。数クリックで完成です。
最初の質問はこれ:
「歴代で最も評価の高い SF 映画は何ですか?」
返ってきた答えが秀逸でした。
エージェントの回答
IMDb のデータに基づき、ユーザー投票数が 10 万件以上の SF 映画を対象とした評価ランキング(平均評価順)のトップ 10 を抽出しました。歴代で最評価の高い SF 映画は、クリストファー・ノーラン監督の「インセプション(2010)」で、平均評価は 8.8 となっています。次いで「インターステラー」や「マトリックス」などが続いています。
ここが賢い
私は単に「評価の高い SF 映画は?」としか聞いていないんですが、エージェントは勝手に:
SF ジャンルを含む映画(TV ドラマ等を除外)に絞り込み
投票数 10 万件以上というノイズ除去の閾値を設定
「無名映画に 1 票入れた人が 10 点を付けた」という統計的なゴミを排除
こういう判断を自動でやってくれます。普通の人間のアナリストでもこの辺の前提を置くのを忘れて「えっ、なんで聞いたこともない映画が 1 位なの?」と困惑するところから始めたりするので、最初から賢い仕事をしてくれる感覚です。
そして回答には「トップ作品の傾向」「クラシック作品の健闘」「MCU 作品の健闘」といったインサイトまで添えられていました。
「ずっと見てしまう」の正体
一番面白いのは、一つの回答から次の疑問が自然に湧いてくることです。
SF 映画のランキングを見たら「じゃあ時代ごとの評価はどう変わってる?」と気になって、
「SF 映画の評価は 10 年ごとにどう変化している?」
と質問。帰ってきたのは 1910 年代から 2020 年代までの平均評価と制作本数のテーブルとグラフ。面白かったのは、エージェントが単なるデータの羅列で終わらず、**「1920-30 年代の高評価は制作本数が少ないことによる選択バイアスかもしれない」**という統計的な注意まで付け加えてきたことです。
この「答えるだけじゃなく、解釈の落とし穴も教えてくれる」姿勢はかなり嬉しい。
調子に乗って次:
「同じことをホラー映画でやって、SF 映画と比較できる?」
ここで面白いことが起きました。エージェントが前の質問の枠組み(10 年単位、IMDb 評価)を引き継いだまま、SF とホラーの 2 ジャンル比較をしてくれたのです。会話の連続性がちゃんと働いています。
結果を見ると、1980 年代を境に SF がホラーを評価で逆転しているという興味深い発見がありました。ちょうど『スター・ウォーズ』『E.T.』『ブレードランナー』といった SF 大作が出そろった時期です。一方のホラーは 2000 年代以降に評価を落としていて、これは『ソウ』『パラノーマル・アクティビティ』のヒットを受けて、類似の低予算ホラーが量産された時期と一致しています。オリジナルは傑作でも、フォロワー作品群の粗製乱造が平均評価を押し下げた格好ですね。
データがストーリーになる瞬間。これが「ずっと見ていられる」理由だと気づきました。
落とし穴:「予測して」の罠
ここまで褒めてばかりだと広告みたいなので、つまずいた話もしておきます。
アパレル EC のサンプルデータに戻って、こんな質問をしました:
「商品カテゴリ別に今後 3 ヶ月の売上を予測して、どのカテゴリが一番伸びそう?」
帰ってきた答えは「スカート(72% 成長)、靴下(61% 成長)、衣料品セット(58% 成長)が伸びそう」というもの。
全カテゴリで 20〜70% 成長。
……ん?そんなバカな。
違和感を感じて、生成された SQL を見てみました。そこでわかったこと:
エージェントは予測していませんでした。
やっていたのは「Q4 2025 と Q1 2026 の売上を比較して、その成長率で今後を外挿する」というだけの処理。時系列予測モデルは一切使われていません。本当の予測ではなく、直近 2 四半期の比較を「予測」と呼んでいただけだったのです。
これはけっこう重要な教訓でした。自然言語の曖昧さが、そのままアウトプットの曖昧さになるということ。「予測」という言葉を聞いたら人間は時系列モデルを想像しますが、エージェントはそれを推測しないことがあります。
魔法の呪文:関数名を明示する
じゃあどうすれば本物の予測をしてくれるのか。試しに関数名を明示してみました:
「AI.FORECAST を使って、今後 3 ヶ月の月次売上を商品カテゴリ別に予測して」
これで一気に変わりました。エージェントは Google の基盤モデル TimesFM を呼び出して、過去 24 ヶ月分のデータを使った本格的な時系列予測を返してきました。しかも信頼区間付き、季節性を考慮した結果で、アウターウェア&コートは「春なので需要減」と正しく微減トレンドを予測。
さっきの「全カテゴリ 20-70% 成長」の無邪気な外挿とは別物です。
この機能の本当の価値
半日触ってみて思ったのは、この機能の本当の価値は「SQL を書かなくていい」ことじゃなくて、データと会話することで仮説が連鎖することにあるということです。
従来なら:
「SF 映画のランキング見たいな」
SQL 書く
結果見る
「10 年ごとに見たいな」
SQL 書き直す
結果見る
「ホラーと比べたいな」
SQL 書き直す
という行き来で、2, 5, 8 のたびに「どのテーブルで、どの列を、どうジョインして……」と頭を切り替える必要がありました。この切り替えが認知的コストで、思考が途切れるんですよね。
会話分析だと、このコストが消えます。仮説を思いついた瞬間に質問できるので、思考が途切れない。データを「問い詰める」感覚で、ずっと対話できます。
使う側に必要な姿勢
一方で、今回の検証で強く感じたのは、使う側のリテラシーも求められるということです。
回答はもっともらしいけど、生成 SQL を見ると違うことをやっている場合がある
「予測」「平均」「売上」みたいな言葉の定義が、こちらの意図と違うことがある
サンプルサイズや外れ値の扱いに、人間が気づかないとダメなことがある
便利すぎるので、「AI が答えたから正しい」と鵜呑みにしがち。でもこの機能が SQL を見せてくれる設計になっているのは、「ちゃんと検証しろ」というメッセージでもあります。
生成 SQL を読む習慣さえあれば、この機能は本当に強力だと思います。
まとめ
会話分析は 本当に賢い。自然言語の曖昧な質問にも、妥当な前提を置いて答えてくれる
会話の 文脈を引き継ぐ ので、仮説の連鎖が自然に起きる
データから ストーリーが自動で引き出される ので、分析が楽しい
ただし、言葉の選び方で精度が変わる。特に「予測」のような専門用語は、具体的な関数名を指定したほうが確実
生成 SQL は必ず確認する。これを守れば、検証可能で信頼できる分析ツールになる
投稿者が言っていた「社内がざわついている」という感覚、半日触って完全に理解しました。SQL を書ける人も書けない人も、これは触ってみる価値があります。
データが会話相手になる時代、思っていたよりずっと早く来ていたみたいです。
検証環境: BigQuery Conversational Analytics(プレビュー)/検証日: 2026 年 4 月 8 日
