AIエージェント最新研究動向2025:CUA・A2A・マルチエージェントの現在地
2025年のAIエージェント研究を牽引するCUA、A2Aプロトコル、マルチエージェント協調の最新成果をベンチマーク数値と学術論文から解説します。
AIエージェントの最新研究動向2025を一言で表すなら、「研究室から現場へ」です。CUA(Computer-Using Agent)がGUIを直接操作し、GoogleのA2Aプロトコルには50社以上が参画、マルチエージェント協調の理論研究もAAMAS 2025で着実に成果を積み上げています。一方で、Gartnerは2027年末までにエージェント型AIプロジェクトの40%以上がキャンセルされると予測しており(Gartner, 2025)、技術の可能性と実装の現実にはまだ大きなギャップがあります。本記事では、ベンチマーク数値・学術論文・業界動向の3軸から、AIエージェント研究の「現在地」と「次の一手」を具体的に整理します。
AIエージェントの定義と2025年の技術的転換点
AIエージェントとは、目標を与えられると自ら計画を立て、外部ツールを使い、結果を評価しながらタスクを完了する自律型AIシステムです。2025年、この領域は研究段階から実用段階へ急速に移行しました。IBMとMorning Consultの調査では、エンタープライズAIアプリを構築中の開発者の99%がAIエージェントを探索・開発中と回答しています(IBM Think Insights)。
従来AIとの違い——自律性・ツール利用・継続的推論
従来のLLM(大規模言語モデル)は「一問一答」が基本でした。ユーザーが質問し、モデルが回答して終わりです。AIエージェントはここに3つの能力を加えます。
自律性——人間が逐一指示しなくても、中間ステップを自分で判断します。ツール利用——Web検索、コード実行、API呼び出しなど外部ツールを状況に応じて選択・実行します。継続的推論——一度の出力で終わらず、結果を観察して次の行動を修正するループを回します。
2025年1月にOpenAIが発表した「Operator」は、この3能力を体現した具体例です。GPT-4oの視覚認識と強化学習を組み合わせ、ブラウザのGUIを直接操作できます。
基本アーキテクチャの全体像(ReAct・Planning・Memory)
現在のAIエージェントは、大きく3つの設計パターンで構成されています。
┌─────────────────────────────────┐
│ AIエージェント │
│ │
│ ┌─────────┐ ┌──────────────┐ │
│ │ Planning │→│ ReAct Loop │ │
│ │ (計画) │ │ Think→Act→Obs│ │
│ └─────────┘ └──────────────┘ │
│ ↕ ↕ │
│ ┌─────────────────────────────┐│
│ │ Memory(短期/長期記憶) ││
│ └─────────────────────────────┘│
│ ↕ │
│ ┌─────────────────────────────┐│
│ │ Tools(検索・API・コード) ││
│ └─────────────────────────────┘│
└─────────────────────────────────┘
ReAct(Reasoning + Acting)は、「思考→行動→観察」を繰り返すループです。たとえばCUA(Computer-Using Agent)がWebサイトを操作する際、画面を見て次のクリック位置を推論し、結果を観察して修正します。Planningは、複雑なタスクをサブタスクに分解する能力です。Memoryは、短期的な作業コンテキストと長期的な知識を保持し、過去の経験を再利用する仕組みです。
この3要素の組み合わせ方が、2025年のエージェント研究における中心的な設計課題になっています。
2025年AIエージェント研究の3大トレンド:CUA・Agentic RAG・マルチエージェント協調
2025年のAIエージェント研究は、「画面操作の自動化」「自律的な情報検索」「複数エージェントの協調」という3つの軸で急速に進んでいます。それぞれの領域で、ベンチマーク性能の更新やオープンソース化の波が押し寄せています。
Computer-Using Agent(CUA)——GUIを操作するAIの実測性能
CUA(Computer-Using Agent)は、人間と同じようにマウスやキーボードでGUIを操作するAIです。2025年1月にOpenAIが発表した「Operator」は、GPT-4oの視覚認識と強化学習を組み合わせたCUAモデルを搭載しています。
実測性能を見ると、OS操作タスクのOSWorldで38.1%、WebブラウジングのWebArenaで58.1%の成功率を記録しました。「38.1%は低いのでは?」と感じるかもしれませんが、OSWorldはドラッグ操作やファイル管理など多段階の操作を含む高難度ベンチマークです。
さらに注目すべきは、2025年8月公開の論文「OpenCUA: Open Foundations for Computer-Use Agents」で提案されたOpenCUA-72Bです。OSWorld-Verifiedで45.0%を達成し、オープンソースモデルとして新たなSOTA(最高性能)を打ち立てました。CUA領域でもオープンソースが商用モデルに迫りつつあります。
Agentic RAGとオープンソースモデルの台頭
Agentic RAGは、従来のRAG(検索拡張生成)にエージェントの自律性を加えた手法です。従来は「質問→検索→回答」という一方通行でしたが、Agentic RAGでは検索結果の不足を自ら判断し、追加検索や情報の統合を繰り返します。
この進化を支えているのがオープンソースモデルの性能向上です。DeepSeek-V3(6710億パラメータ、MoE=専門家混合アーキテクチャ)は、数学推論ベンチマークMATH 500で90.2%を記録しました。ただし、これは公式発表値であり、独立した第三者検証が十分ではない点には留意が必要です。オープンソースモデルの推論能力が高まることで、Agentic RAGの精度も底上げされています。
マルチエージェント連携の理論的課題——報酬分配と協調性評価
複数のAIエージェントが協力してタスクを解く「マルチエージェントシステム」では、理論面の課題解決が活発に研究されています。
2025年度の人工知能学会全国大会では、菅原・戸田(2025)が「マルチエージェント経路計画における報酬を通じた協調行動の獲得」を発表しました。他のエージェントの行動が自分に与える影響を報酬関数に組み込むことで、協調行動を自然に引き出す手法です。
また、2025年5月のAAMAS(国際自律エージェント・マルチエージェントシステム会議)では、筑波大学の研究チームによる「Robustness of Epistemic Gossip Protocols Against Data Loss」がフルペーパー採択されました。エージェント間の情報共有がデータ欠損に対してどの程度頑健かを理論的に分析した研究です。こうした基礎研究の蓄積が、実用的なマルチエージェントシステムの信頼性を底上げしていきます。
A2Aプロトコルとエージェント間標準化の最前線
AIエージェントが単体で動く時代は終わりつつあります。2025年、複数のエージェントが協調して働くための「共通言語」づくりが本格化しました。その中心にあるのがGoogleのA2Aプロトコルです。
GoogleのA2Aプロトコル——50社超が参加するエコシステム
2025年4月、GoogleはAgent2Agent(A2A)プロトコルを公式に発表しました。A2Aは、異なるベンダーが開発したAIエージェント同士が安全にタスクを受け渡しするための通信規格です。
注目すべきは、その参加企業の顔ぶれです。Atlassian、Box、Salesforce、SAPなど50社以上の技術パートナーがすでに参画しています。筆者の見解では、これほど多くの主要SaaS企業が初期段階から足並みを揃えた標準化は、AI業界でも異例のスピード感といえます。
A2Aが解決しようとしている課題は明確です。たとえば、営業部門のCRMエージェントが在庫管理エージェントに問い合わせ、さらに物流エージェントに配送手配を依頼する——こうしたクロスベンダーの連携を、個別のAPI統合なしに実現する仕組みです。
ただし、A2Aは2025年時点でまだ発展途上の規格です。仕様の変更が入る可能性は十分にあるため、本番環境への全面採用は段階的に進めるのが賢明でしょう。
MCPとの役割分担:エージェント間通信 vs リソース接続
A2Aとよく混同されるのが、AnthropicのMCP(Model Context Protocol)です。両者の守備範囲は明確に異なります。
┌──────────────────────────────────────────┐
│ マルチエージェントの通信構造 │
│ │
│ [Agent A] ←──A2A──→ [Agent B] │
│ │ │ │
│ MCP MCP │
│ │ │ │
│ [DB/API/ツール] [DB/API/ツール] │
└──────────────────────────────────────────┘
A2Aは「エージェント対エージェント」の水平通信を担います。一方、MCPは「エージェント対外部リソース(データベース、API、ツール)」の垂直接続を標準化するプロトコルです。つまり、A2Aで仲間と話し、MCPで道具を使う——両者は競合ではなく補完関係にあります。
実際に手を動かしてみると、この役割分担の整理は設計判断に直結します。「エージェント同士を連携させたいのか」「外部ツールへのアクセスを統一したいのか」を切り分けることで、適切なプロトコル選定ができます。
生産性向上の実証とセキュリティリスクの現実
AIエージェントは生産性を大きく押し上げる一方で、新たな脅威も生み出しています。導入の恩恵とリスクの両面を、実証データから見ていきます。
Stanford・MIT共同研究が示す生産性15%向上の内訳
スタンフォード大学・MIT・NBERの共同研究(Brynjolfsson et al., NBER Working Paper)は、AIエージェントへのアクセスが労働者の生産性を平均15%向上させたと報告しています。特に注目すべきは、初心者・低スキル労働者では34%の改善が見られた点です。熟練者よりも経験の浅い層ほど恩恵が大きく、AIエージェントが「スキルの底上げツール」として機能していることがわかります。
IBMとMorning Consultの調査でも、エンタープライズ向けAIアプリケーションを構築中の開発者のうち99%がAIエージェントを探索・開発中と回答しています(IBM Think Insights)。グローバル市場規模は2025年に76億ドル、2030年には471億ドル(CAGR 45.8%)に達するとの予測もあり、実用段階への移行が加速しています。
史上初のAIエージェント悪用事例と設計段階からの対策
2025年11月、Anthropicは同社のClaude LLMが中国の国家支援ハッカーに悪用され、「AIエージェントによるサイバー攻撃」が実行されたと発表しました(トレンドマイクロ解説記事)。AIエージェントが攻撃ツールとして転用された、公に確認された初の事例です。
NRIセキュアテクノロジーズの分析によると、AIエージェント関連のセキュリティリスクの73%は従来の手法では検出できません(NRIセキュアブログ)。つまり、運用後の監視だけでは不十分で、設計段階から権限の最小化・入出力の検証・行動ログの記録を組み込む必要があります。筆者の見解では、「ガードレールは後付けできない」という前提に立つことが、エージェント開発の出発点になるでしょう。
Gartner予測——40%のプロジェクト中止が意味すること
Gartnerは、2028年までに日々の業務判断の15%がAIエージェントによって自律的に行われると予測しています(Gartner, 2025年10月)。2024年時点で0%だったことを考えると、急激な変化です。
一方で同社は、2027年末までにエージェント型AIプロジェクトの40%以上がキャンセルされるとも警告しています(Gartner, 2025年6月)。その理由はコスト増大、ビジネス価値の不明確さ、不十分なリスク管理の3点です。技術的に可能であることと、事業として成立することは別問題です。導入を検討する際は、まず小規模なPoC(概念実証)で効果を測定し、段階的にスケールする戦略が現実的でしょう。
まとめ:AIエージェント研究の現在地から次の一手を選ぶ
2025年のAIエージェント研究は、CUAの実測性能(OSWorld 38.1%→OpenCUA-72Bの45.0%)、A2Aプロトコルによる標準化、マルチエージェント協調の理論的深化という3つの軸で確実に前進しました。しかし、筆者の見解では、この領域の本当の勝負は2026年以降に始まります。Gartnerが指摘する「プロジェクトの40%中止」という現実は、技術そのものの限界ではなく、ビジネス価値の設計とリスク管理の未成熟が原因です。
では、エンジニアや研究者が今日から取るべきアクションは何でしょうか。3つ提案します。
1. 小さなCUAを手元で動かす。 OpenCUA-72Bはオープンソースで公開されています。OSWorldベンチマークを自分の環境で再現し、GUIエージェントの「できること」と「できないこと」を体感するのが最も効率的な学習法です。
2. A2Aプロトコルの仕様を読む。 2025年時点でA2Aは発展途上の標準であり、仕様変更の可能性があります。だからこそ、今のうちに公式ドキュメントを読み込み、自社のシステムにどう適用できるか検討を始める価値があります。早期に知見を蓄積した組織が、標準化の恩恵を最初に受けます。
3. セキュリティを「後付け」にしない。 AIエージェントのセキュリティリスクの73%は従来手法で検知できないとされています。エージェントを設計する段階で、権限の最小化・行動ログの記録・人間による承認ステップを組み込むことが、プロジェクト中止を回避する鍵になります。
AIエージェントは「何でもできる万能ツール」ではなく、「適切に設計すれば確実に生産性を引き上げるシステム」です。Stanford・MIT・NBERの共同研究が示した生産性15%向上という数値は、正しく実装した場合の成果です。技術のハイプに流されず、ベンチマーク・論文・実装コードという一次情報に立ち返ることが、この領域で成果を出す最短ルートになります。
参考文献
- https://openai.com/index/introducing-operator/
- https://openai.com/index/computer-using-agent/
- https://arxiv.org/abs/2508.09123
- https://cloud.google.com/blog/ja/products/ai-machine-learning/a2a-a-new-era-of-agent-interoperability
- https://www.gartner.com/en/newsroom/press-releases/2025-10-20-gartner-identifies-the-top-strategic-technology-trends-for-2026
- https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027
- https://mas.cs.tsukuba.ac.jp/jp/index-j.html
- https://confit.atlas.jp/guide/event/jsai2025/subject/1D5-OS-24c-04/detail
- https://book.st-hakky.com/data-science/deepseek-v3-performance-comparison
- https://www.nber.org/papers/w31161
- https://www.ibm.com/think/insights/ai-agents-2025-expectations-vs-reality
- https://www.trendmicro.com/ja_jp/research/25/f/unveiling-ai-agent-vulnerabilities-part-i-introduction-to-ai-agent-vulnerabilities.html
- https://www.nri-secure.co.jp/blog/ai-agent-1