GPT-5.5は本当に出たのか?Codex台頭とClaude Code比較で見る「自律型エージェント」の現在地

はじめに
OpenAIは2026年4月23日、GPT-5.5を正式発表し、ChatGPTとCodexへの展開を始めたと公表しました。
ただし、そこから先の評価はもう少し慎重に見る必要があります。OpenAIはGPT-5.5を「our smartest model yet」と位置づけ、知識労働やツール利用、エージェント的な実行性能で強い数字を示していますが、AnthropicもまたClaude 4系とClaude Codeを前面に出し、SWE-bench Verifiedでは自社モデルが先行すると主張しています。しかもAnthropic自身が、エージェント系ベンチマークは実行環境の違いだけで順位差が揺れうると警告しています。つまり、GPT-5.5の登場は大きな出来事ですが、「これで勝負が決まった」と言うにはまだ早い段階です。
背景と概要
まず、「GPT-5.5は本当に出たのか」という点については、答えは明確にイエスです。OpenAIの公式発表では、GPT-5.5は複雑な現実仕事向けに設計された新モデルで、コード作成、オンライン調査、情報分析、文書作成、ツール横断の作業に強いと説明されています。GPT-5.5はChatGPTとCodexに展開され、API向け提供も近いと案内されています。
OpenAIが今回強調しているのは、単なる「会話がうまいAI」ではなく、「仕事を前に進めるAI」です。公式発表では、GDPvalで84.9%、OSWorld-Verifiedで78.7%、Tau2-bench Telecomで98.0%とし、複雑な知識労働やコンピュータ操作、顧客対応ワークフローで最先端級の性能を示したとしています。ここから見えるのは、GPT-5.5が単体モデルというより、エージェント的な仕事の実行母体として位置づけられていることです。
その文脈で重要になるのがCodexです。Codexは2025年5月に、クラウド上で並列に複数タスクを動かせるソフトウェアエンジニアリングエージェントとして研究プレビュー公開されました。その後、2026年2月には複数エージェントを並列管理するCodexアプリが登場し、2026年4月にはGPT-5.5がCodexでの推奨モデルになりました。つまりOpenAIは、単に新モデルを出したのではなく、モデルとエージェント基盤を一体で前に進めているのです。
現在の状況
現在のCodexは、単なるコード補完ツールではありません。OpenAIの開発者向けページでは、Codexを「OpenAI’s coding agent」と位置づけ、コードを書く、修正する、実行する、レビューする、さらにローカルCLI、IDE、クラウド、アプリをまたいで使える仕組みとして整理しています。CLI版はローカル端末上でコードを読み、変更し、コマンドを実行でき、アプリ版は複数エージェントを別スレッドで並列運用する前提で設計されています。
さらにOpenAIは、Codexをソフトウェア開発だけに閉じ込めていません。2026年4月には、ChatGPT内で共有型のworkspace agentsを発表し、これを「Codex-powered agents for teams」と説明しました。これらのエージェントは、コードだけでなく、レポート作成、メッセージ対応、各種ツール連携まで含めて、長時間のワークフローをクラウド上で継続実行できます。ここから見えるのは、OpenAIがCodexを「コーディングAI」から「業務エージェント基盤」へ広げようとしていることです。
一方、Claude Codeも依然として非常に強い存在です。Anthropicの公式説明では、Claude Codeはコードベースを読み、ファイルを編集し、コマンドを実行し、開発ツールと連携するagentic coding toolで、ターミナル、IDE、デスクトップアプリ、ブラウザで利用できます。さらにドキュメント上では、バックグラウンド実行、サブエージェント、専用スキルの構成が可能で、複数の役割を分担させる設計も進んでいます。つまり、Claude Codeもすでに「ただの対話型コーディング補助」ではありません。
ただし、プロダクト思想には差があります。Anthropic自身のエンジニアリング記事では、「Claude Codeの1セッションは一度に1つのことしかできない」とし、並列作業には複数のClaudeを走らせて役割分担する発想を紹介しています。対してOpenAIのCodexアプリは、最初から複数エージェントの並列運用を中心に据えています。この違いを単純な優劣にするのは難しいですが、Codexの方がより早く“エージェント群を監督する画面”へ進んでいるのは確かです。
注目されるポイント
第一に、「GPT-5.5=最強AI」はマーケティングとしては理解できても、事実として断定はできません。OpenAIはGPT-5.5が複数ベンチマークで最先端だと述べていますが、AnthropicはClaude 4系がSWE-bench Verifiedで先行すると主張しています。そもそも比較しているベンチマークが違い、得意領域も違います。知識労働やコンピュータ操作を重視するならGPT-5.5の優位が目立ち、実ソフトウェア修正の評価軸ではClaude側の主張も強い、というのが現実に近いです。
第二に、「Claude CodeよりCodexの時代か」という問いも、いまの段階では時期尚早です。Codexはクラウド並列、アプリ、CLI、workspace agentsまで含めて、OpenAIのエージェント戦略の中心に育っています。ですがClaude Codeも、ローカル開発者体験、エディタや端末との一体感、サブエージェント、バックグラウンド実行などを磨いており、思想の違う強い競合として残っています。今起きているのは“交代”というより、“主戦場の分化”です。
第三に、「世界最高峰の自律型エージェント」という表現は、限定付きでしか言えません。OpenAIはGPT-5.5のOSWorld-VerifiedやGDPvalの結果を出し、Codexは長時間タスクや並列実行、クラウド継続作業を前面に出しています。とはいえAnthropicは、エージェント系ベンチマークではインフラ設定の違いだけで数ポイント揺れることがあり、それがリーダーボード差より大きいこともあると明言しています。つまり、“最高峰”はベンチマークと運用条件を指定して初めて意味を持つ言葉です。
第四に、今回の変化の本質は「モデルの頭の良さ」だけではありません。OpenAIはGPT-5.5単体を売っているのではなく、Codex、CLI、アプリ、workspace agentsまで含めた運用面を一気に整えています。Codexアプリの公式説明でも、開発者が複数エージェントを監督し、長時間の作業を並列で回すことを前提にしています。これは、AIを“質問に答える道具”から“任せて監督する労働力”へ近づける変化です。
第五に、その一方で、この流れはまだ過渡期でもあります。OpenAI自身がGPT-5.5をChatGPTとCodexへ先行展開し、API提供には追加の安全対策が必要だと説明していることからも、強いエージェント能力ほど安全管理や権限制御の難しさが増すことが分かります。自律性が高いほど、性能だけでなく監督、承認、権限設計が主戦場になるのです。
今後の見通し
今後の競争は、「どのモデルが一番賢いか」だけでは決まりません。量子化されたように見える現在の争点は、モデル性能、ローカル体験、クラウド並列、承認フロー、組織共有、外部ツール接続を誰が最もうまく一体化できるかです。OpenAIはCodexとworkspace agentsでそこを押さえにきており、AnthropicはClaude Codeを開発者の現場により深く埋め込む方向で対抗しています。
したがって、このテーマの答えはこうなります。GPT-5.5は本当に登場しました。Codexも、ただのコード生成機ではなく、本格的な自律型エージェント基盤へ進化しつつあります。ただし、「もうClaude Codeの時代は終わった」「世界最強が確定した」とまでは言えません。いま起きているのは王者の確定ではなく、AIが“手伝うソフト”から“任せて監督する実働エージェント”へ変わる転換点であり、Codexはその最前列の一つに立った、というのが最も正確な見方でしょう。
