ブラウザだけで動くAI映像認識 SmolVLMの実力を検証してみた

ブラウザだけで動くAI映像認識 SmolVLMの実力を検証してみた

February 17, 2026

500円のカメラアプリより賢い?ブラウザだけで動くAI映像認識「SmolVLM」を本気で検証してみた

「カメラに映っているものを、AIがリアルタイムで説明してくれる」

SF映画の話ではありません。サーバー不要、ブラウザだけで動く時代がもう来ています。

今回検証したのは、Hugging Faceが公開している SmolVLM-realtime-webcam。わずか500Mパラメータという超軽量モデルで、Webカメラの映像をAIがリアルタイムで認識・解説してくれるデモアプリです。

「軽量モデルで、どこまで実用的な認識ができるのか?」——期待と不安を抱えながら、実際に動かしてみました。

そもそもSmolVLMって何?

SmolVLMは、Hugging Faceが開発した**軽量ビジョン言語モデル(VLM)**です。

  • パラメータ数: 500M(GPT-4Vと比べると桁違いに小さい)

  • 動作環境: llama.cppサーバー + ブラウザ(ローカルPC上で完結)

  • できること: Webカメラの映像を見て、「何が映っているか」を自然言語で説明

  • GitHub: ngxson/smolvlm-realtime-webcam(★4.7k)

クラウドAPIに頼らず、手元のPCだけでリアルタイム映像認識ができる。それがSmolVLMの最大の魅力です。

検証環境

項目

内容

PC

Mac

ブラウザ

Chrome

モデル

SmolVLM-500M-Instruct(GGUF形式)

バックエンド

llama.cpp server

入力デバイス

内蔵Webカメラ → スマホカメラ(後述)

検証前の小さな戦い:スクショが撮れない問題

検証を始めてすぐ、地味な壁にぶつかりました。

まず、SmolVLMの回答は基本的に英語で返ってくるので、DeepLを横に開いて翻訳しながらの検証になります。

そして、色々な角度からカメラに映したい。上からの画角を試そうと、スマホを高く掲げて撮影し、「よし、今だ!」とCommand+Shift+3でスクショを撮ったら——DeepLのウィンドウが閉じました。

「これはもう、スマホをWebカメラとして使った方がいいんじゃないか?」

そう思い立ち、スマホカメラとPCの連携を設定。見事に成功。 手元で自由にアングルを変えられるようになり、意気揚々と検証を再開したのですが……

片手でスマホを持ちながら、もう片方の手でCommand+Shift+3を押すほうが、圧倒的に難しかった。

3つのキーを同時押し。人間の手が2本しかない以上、物理的に無理があります。「実装してから気づく残念な事実」、エンジニアなら一度は経験があるのではないでしょうか。

6つのテストで実力を丸裸にしてみた

気を取り直して、SmolVLMの認識精度を6つのテストで徹底検証しました。

テスト1:環境認識(オフィスの風景) → ◎ 優秀!

カメラに映るオフィス環境を、どの程度正確に説明できるか。

結果は期待以上でした。

デスク、モニター、椅子、観葉植物などを正しく認識し、「オフィス環境でデスクワークをしている」という文脈まで理解。照明が変わっても安定していました。

「500Mでこれだけできるのか」と、正直驚きました。

テスト2:人物カウント → △ ちょっと怪しい

1人なら正確。でも2人以上になると……「何人かいる」程度の認識にとどまりました。正確な人数を数えるのは苦手なようです。

テスト3:服装の認識 → △ 日替わりで回答が変わる

同じ服装でもタイミングによって回答が変わります。大まかな色は認識できますが、服の種類を正確に当てるのは難しいようです。

テスト4:物体認識の精度 → △ 数も種類も盛ってくる

📸 電子レンジとコーヒーメーカーが「オーブン2台とトースターオーブン」に変身。数も種類も盛ってくるのがSmolVLMの個性。 (※写真⑤:電子レンジをオーブンと誤認識している画像)

似たカテゴリの物体(キッチン家電同士など)を混同する傾向があります。「だいたい合ってるけど、細部が違う」という感じです。

テスト5:ジェスチャー認識 → × 反応なし

手を挙げてみたり、ピースサインをしてみたり。ほぼ反応なし。 認識できるときもあるにはあるのですが、一貫性がなく、実用には程遠い結果でした。

テスト6:回答の一貫性 → × 毎回言うことが違う

これが一番気になったポイントです。同じカメラアングルで同じ場面を映しているのに、毎回違う回答が返ってくる。

「1人います」→ 次の瞬間「2人います」。何も変わっていないのに。

そして極めつけがこちら。

ないものが見える。 これがAIの「ハルシネーション(幻覚)」です。軽量モデルでは特に起こりやすい現象で、SmolVLM-500Mでもはっきり確認できました。VISKの未来が見えているかもしれません。

テスト7:応答速度 → ○ これは十分

数秒間隔でレスポンスが返ります。リアルタイムモニタリングとしては十分な速度。ここはしっかり合格点です。

検証結果を一枚の表にまとめると

テスト項目

評価

ひとこと

環境認識

「オフィスで仕事中」まで理解する

人物カウント

1人はOK、2人以上は怪しい

服装認識

色はわかる、種類は気分次第

物体認識

似たカテゴリの物を混同する

ジェスチャー認識

×

ピースしても無視される

回答の一貫性

×

同じ場面なのに毎回違うことを言う

応答速度

数秒で返ってくる、これは優秀

500Mパラメータの「できること」と「できないこと」

得意なこと 💪

  • シーン全体のざっくり把握: 「オフィスで人が仕事をしている」レベルの理解は非常に正確

  • 一般的な物体の認識: デスク、モニター、椅子、観葉植物くらいなら余裕

  • 応答速度: ローカル実行で数秒。クラウドAPI不要でこの速さは立派

苦手なこと 😅

  • 数を数える: 人数や物の個数はだいたい間違える

  • 細かい動作: ジェスチャーや手の動きは認識が追いつかない

  • 一貫性を保つ: 同じ場面でも「今日の気分」で回答が変わる

  • 細部の判定: 服の種類や小さな物体の識別は厳しい

  • ハルシネーション: 存在しないものを堂々と報告してくる

じゃあ、どこで使える?

✅ 向いている用途

  • 会議室の空き確認 — 「人がいる or いない」の二択なら十分な精度

  • ざっくり環境モニタリング — 異常な状態(誰もいないはずの場所に人影)の検知

  • デモ・プロトタイプ — 「AIカメラってこういうことができます」の概念実証

❌ 向いていない用途

  • 入退室管理 — 正確な人数カウントが必要な場面には力不足

  • セキュリティ監視 — 細かい動作の認識ができないと意味がない

  • 品質検査 — ミリ単位の精度が求められる現場には到底及ばない

  • 金貨の鑑定 — 言うまでもなく

まとめ:「ざっくり理解」の天才、「正確さ」は今後に期待

SmolVLM-500Mは、ブラウザとローカルPCだけでAIカメラ体験ができるという点では非常に手軽で魅力的なツールです。

ただし、検証の結論は明確でした。

「大まかなシーン理解は得意。でも正確さが求められる用途には向かない。」

特に回答の一貫性の低さとハルシネーションが最大の課題です。同じ場面を見せても毎回違うことを言い、挙げ句の果てに金貨が見えるAIは、業務では信頼しづらい。

とはいえ、これは500Mという超軽量モデルの話。2Bや7Bクラスのモデルならどうか、特定タスクにファインチューニングしたらどうか——まだまだ伸びしろはあります。

あ、あとスマホとPCの連携は、物理的な操作性まで考えてから実装しましょう。DeepLが吹き飛ぶのも、Command+Shift+3が押せないのも、全部「やってから気づく」系の罠です。これが今回一番の学びだったかもしれません。

検証環境:Mac / Chrome / SmolVLM-500M-Instruct / llama.cpp server / 2026年2月

VISK株式会社 | AI技術検証レポート

500円のカメラアプリより賢い?ブラウザだけで動くAI映像認識「SmolVLM」を本気で検証してみた

「カメラに映っているものを、AIがリアルタイムで説明してくれる」

SF映画の話ではありません。サーバー不要、ブラウザだけで動く時代がもう来ています。

今回検証したのは、Hugging Faceが公開している SmolVLM-realtime-webcam。わずか500Mパラメータという超軽量モデルで、Webカメラの映像をAIがリアルタイムで認識・解説してくれるデモアプリです。

「軽量モデルで、どこまで実用的な認識ができるのか?」——期待と不安を抱えながら、実際に動かしてみました。

そもそもSmolVLMって何?

SmolVLMは、Hugging Faceが開発した**軽量ビジョン言語モデル(VLM)**です。

  • パラメータ数: 500M(GPT-4Vと比べると桁違いに小さい)

  • 動作環境: llama.cppサーバー + ブラウザ(ローカルPC上で完結)

  • できること: Webカメラの映像を見て、「何が映っているか」を自然言語で説明

  • GitHub: ngxson/smolvlm-realtime-webcam(★4.7k)

クラウドAPIに頼らず、手元のPCだけでリアルタイム映像認識ができる。それがSmolVLMの最大の魅力です。

検証環境

項目

内容

PC

Mac

ブラウザ

Chrome

モデル

SmolVLM-500M-Instruct(GGUF形式)

バックエンド

llama.cpp server

入力デバイス

内蔵Webカメラ → スマホカメラ(後述)

検証前の小さな戦い:スクショが撮れない問題

検証を始めてすぐ、地味な壁にぶつかりました。

まず、SmolVLMの回答は基本的に英語で返ってくるので、DeepLを横に開いて翻訳しながらの検証になります。

そして、色々な角度からカメラに映したい。上からの画角を試そうと、スマホを高く掲げて撮影し、「よし、今だ!」とCommand+Shift+3でスクショを撮ったら——DeepLのウィンドウが閉じました。

「これはもう、スマホをWebカメラとして使った方がいいんじゃないか?」

そう思い立ち、スマホカメラとPCの連携を設定。見事に成功。 手元で自由にアングルを変えられるようになり、意気揚々と検証を再開したのですが……

片手でスマホを持ちながら、もう片方の手でCommand+Shift+3を押すほうが、圧倒的に難しかった。

3つのキーを同時押し。人間の手が2本しかない以上、物理的に無理があります。「実装してから気づく残念な事実」、エンジニアなら一度は経験があるのではないでしょうか。

6つのテストで実力を丸裸にしてみた

気を取り直して、SmolVLMの認識精度を6つのテストで徹底検証しました。

テスト1:環境認識(オフィスの風景) → ◎ 優秀!

カメラに映るオフィス環境を、どの程度正確に説明できるか。

結果は期待以上でした。

デスク、モニター、椅子、観葉植物などを正しく認識し、「オフィス環境でデスクワークをしている」という文脈まで理解。照明が変わっても安定していました。

「500Mでこれだけできるのか」と、正直驚きました。

テスト2:人物カウント → △ ちょっと怪しい

1人なら正確。でも2人以上になると……「何人かいる」程度の認識にとどまりました。正確な人数を数えるのは苦手なようです。

テスト3:服装の認識 → △ 日替わりで回答が変わる

同じ服装でもタイミングによって回答が変わります。大まかな色は認識できますが、服の種類を正確に当てるのは難しいようです。

テスト4:物体認識の精度 → △ 数も種類も盛ってくる

📸 電子レンジとコーヒーメーカーが「オーブン2台とトースターオーブン」に変身。数も種類も盛ってくるのがSmolVLMの個性。 (※写真⑤:電子レンジをオーブンと誤認識している画像)

似たカテゴリの物体(キッチン家電同士など)を混同する傾向があります。「だいたい合ってるけど、細部が違う」という感じです。

テスト5:ジェスチャー認識 → × 反応なし

手を挙げてみたり、ピースサインをしてみたり。ほぼ反応なし。 認識できるときもあるにはあるのですが、一貫性がなく、実用には程遠い結果でした。

テスト6:回答の一貫性 → × 毎回言うことが違う

これが一番気になったポイントです。同じカメラアングルで同じ場面を映しているのに、毎回違う回答が返ってくる。

「1人います」→ 次の瞬間「2人います」。何も変わっていないのに。

そして極めつけがこちら。

ないものが見える。 これがAIの「ハルシネーション(幻覚)」です。軽量モデルでは特に起こりやすい現象で、SmolVLM-500Mでもはっきり確認できました。VISKの未来が見えているかもしれません。

テスト7:応答速度 → ○ これは十分

数秒間隔でレスポンスが返ります。リアルタイムモニタリングとしては十分な速度。ここはしっかり合格点です。

検証結果を一枚の表にまとめると

テスト項目

評価

ひとこと

環境認識

「オフィスで仕事中」まで理解する

人物カウント

1人はOK、2人以上は怪しい

服装認識

色はわかる、種類は気分次第

物体認識

似たカテゴリの物を混同する

ジェスチャー認識

×

ピースしても無視される

回答の一貫性

×

同じ場面なのに毎回違うことを言う

応答速度

数秒で返ってくる、これは優秀

500Mパラメータの「できること」と「できないこと」

得意なこと 💪

  • シーン全体のざっくり把握: 「オフィスで人が仕事をしている」レベルの理解は非常に正確

  • 一般的な物体の認識: デスク、モニター、椅子、観葉植物くらいなら余裕

  • 応答速度: ローカル実行で数秒。クラウドAPI不要でこの速さは立派

苦手なこと 😅

  • 数を数える: 人数や物の個数はだいたい間違える

  • 細かい動作: ジェスチャーや手の動きは認識が追いつかない

  • 一貫性を保つ: 同じ場面でも「今日の気分」で回答が変わる

  • 細部の判定: 服の種類や小さな物体の識別は厳しい

  • ハルシネーション: 存在しないものを堂々と報告してくる

じゃあ、どこで使える?

✅ 向いている用途

  • 会議室の空き確認 — 「人がいる or いない」の二択なら十分な精度

  • ざっくり環境モニタリング — 異常な状態(誰もいないはずの場所に人影)の検知

  • デモ・プロトタイプ — 「AIカメラってこういうことができます」の概念実証

❌ 向いていない用途

  • 入退室管理 — 正確な人数カウントが必要な場面には力不足

  • セキュリティ監視 — 細かい動作の認識ができないと意味がない

  • 品質検査 — ミリ単位の精度が求められる現場には到底及ばない

  • 金貨の鑑定 — 言うまでもなく

まとめ:「ざっくり理解」の天才、「正確さ」は今後に期待

SmolVLM-500Mは、ブラウザとローカルPCだけでAIカメラ体験ができるという点では非常に手軽で魅力的なツールです。

ただし、検証の結論は明確でした。

「大まかなシーン理解は得意。でも正確さが求められる用途には向かない。」

特に回答の一貫性の低さとハルシネーションが最大の課題です。同じ場面を見せても毎回違うことを言い、挙げ句の果てに金貨が見えるAIは、業務では信頼しづらい。

とはいえ、これは500Mという超軽量モデルの話。2Bや7Bクラスのモデルならどうか、特定タスクにファインチューニングしたらどうか——まだまだ伸びしろはあります。

あ、あとスマホとPCの連携は、物理的な操作性まで考えてから実装しましょう。DeepLが吹き飛ぶのも、Command+Shift+3が押せないのも、全部「やってから気づく」系の罠です。これが今回一番の学びだったかもしれません。

検証環境:Mac / Chrome / SmolVLM-500M-Instruct / llama.cpp server / 2026年2月

VISK株式会社 | AI技術検証レポート