Contents

Microsoft の新しい Phi-4 Vision 15B モデルが、Deep Reasoning をいつアクティブにするかを決定します

<本文>/images/Microsoft-Phi-4-15B.jpg

Microsoft の新しい Phi-4 Vision 15B モデルが深い推論をいつアクティブにするかを決定します

Microsoft は、視覚タスクと推論タスクの両方を処理するように設計された新しいオープンウェイト マルチモーダル AI モデルである Phi-4-reasoning-vision-15B をリリースしました。

150 億パラメータのモデルは、多くの最新の AI システムと比較して比較的軽量でありながら、画像を処理し、インターフェイス要素を理解し、複雑な数学的推論を実行できます。

適応推論を備えたマルチモーダル モデル

Phi-4-reasoning-vision-15B は、画像キャプションや UI 要素のグラウンディングなど、いくつかの高度な機能をサポートしています。このモデルは、数学的クエリや分析タスクなどの複雑な推論問題も解決できます。

最も注目すべき機能の 1 つは、より深い推論が必要な場合に自動的に決定する機能です。

ユーザーに手動で推論を有効または無効にするのではなく、タスクでより高度な処理が必要な場合、モデルは内部の「思考モード」をアクティブにします。単純なクエリの場合は、複雑な推論プロセスを行わずにすぐに応答します。

この適応型アプローチは効率を向上させる可能性がありますが、特定のシナリオでは予測不可能な動作が発生する可能性もあります。

質の高いデータに重点を置いたトレーニング戦略

Microsoft は約 2,000 億のトークンでモデルをトレーニングしましたが、これは 1 兆トークンを超えるトレーニング データセットに依存する多くの最新の AI システムと比較すると比較的小規模です。

同社は、生のスケールではなく、注意深く厳選された高品質のトレーニング データに焦点を当てました。トレーニング プロセス中、GPT-4o はデータの生成と評価を支援し、モデルの推論機能を洗練するのに役立ちました。

このアプローチにより、Microsoft は大量の計算リソースを必要とせずに、有能なマルチモーダル システムを構築することができました。

ベンチマーク結果はまちまちだが有望なパフォーマンスを示している

ベンチマーク テストでは、Phi-4-reasoning-vision-15B がいくつかのカテゴリで競争力のある結果をもたらし、場合によってはより大きなモデルを上回るパフォーマンスを示しました。

ただし、このモデルは他の分野の競合システムにも遅れをとっており、全体的にはまちまちの結果をもたらしました。

Microsoft は、有利な結果のみを強調するのではなく、長所と短所の両方を含むバランスのとれたベンチマーク比較を公開しました。

開発者向けの軽量オプション

その機能にもかかわらず、Phi-4 モデル ファミリは、中国の開発者による Qwen ベースのシステムなどの競合するオープンウェイト モデルよりも注目されていないことがよくあります。

それでも、Phi-4-reasoning-vision-15B はそのサイズに比べて強力なパフォーマンスを提供するため、より小規模なハードウェア セットアップで実行される効率的な AI システムを必要とする開発者にとって魅力的になる可能性があります。

このモデルはすでに公開されており、開発者は Microsoft の AI プラットフォームとモデル リポジトリを通じて重みをダウンロードできます。

その他の Microsoft ニュースでは、同社は Build 2026 開発者カンファレンスの日程を発表し、SharePoint の設計アップデートを準備中です。

Microsoft は、別の Web ブラウザを起動する代わりに、リンクを Copilot インターフェイス内で直接開くことができる新しい Copilot 機能もテストしています。

ネオウィン経由

*️⃣ 出典リンク:

Phi-4-reasoning-vision-15B、Build 2026 開発者カンファレンスの日程、SharePoint の設計更新、Copilot インターフェイス内で直接開きます、 Neowin