Coding Agentで見えてきた「身体」の必要性

前回、Codexが将棋AI「やねうら王」をC++からC#へ移植した件について記事を書いた。

AIがやねうら王をC#に移植してしまった件
https://yaneuraou.yaneu.com/2026/02/11/yaneuraou-csharp-by-ai/

その後もCodexを使い続ける中で、今年の将棋AI界隈はCoding Agentによって大きく変わるだろうなと強く思わされたのだが、やはりAIには「身体」が必要だなとも感じるようになった。ここではその考えをメモとして整理しておきたい。

ここで言う「身体」とは、いわゆるフィジカルAIのような物理的身体を意味しない。もっと抽象的な意味での身体性である。

料理AIを例に考える

仮に料理AIがあったとする。

決められたレシピから料理を作ることはできるだろうし、レシピごとに「美味しさ」が数値化されていれば、高い点数になりそうな料理を予測することもできるだろう。販売しているなら、その売上額を教師データとして使うことはできるかもしれない。

しかし、AIは実際にそれを「味わう」ことはできない。
作って、味わって、改良する、というループを自律的に回すことはできない。

これは現在のAIには味覚という感覚器官が存在しないからである。そのため、強化学習を行うとしても、報酬は人間が与えた評価値などに依存せざるを得ない。

このような構造では、まったく新しいジャンルの独創的な料理が自然発生的に生まれるとは考えにくい。

まあ、多くの人は「食べ慣れたもの」を求めているので、必ずしも問題にはならないのだが。

作曲AIの場合

同様に作曲AIを考えてみる。

もしAIが音楽を「感じる」ための感覚器官を持っていれば、世間の楽曲を大量に学習データとして与える必要はない。感覚器官の出力を報酬として強化学習を回せばよいからである。

極端な例を挙げれば、人間の聴覚や脳細胞を培養し、AIが生成した音楽を聞かせ、その反応を報酬信号として音楽を改良していく、という発想も理論上はあり得る。これだと物理的な時間的な制約が強いから、この場合、野球のスタジアムのようなところに何百万個という脳細胞を配置して並列的に実験をしなければならないだろうが。

ともかく、そうやって強化学習を行えば、人間の作った音楽データなど必要ないのである。

しかし現在の作曲AIは、音楽を「感じて」いない。大量の既存楽曲を学習し、その統計的構造をもとに生成しているに過ぎない。

そのため、自律的な感覚を基準にした創造とは異なる構造を持っている。

もっとも、人間が好む音楽の幅はそれほど広くない。学習データに近い楽曲を高品質に生成できれば、多くの人にとってはそれで十分なのである。

では「感覚器官」が身体性なのか

ここまで読むと、感覚器官こそが身体性だと思われるかもしれない。

しかし、私が言いたい「身体性」はそれだけではない。

最近、Codex(以下AIと記す)を使ってWebサイトのクローラーを作成していた。AIは、Seleniumを使ったPythonコードを書くのだが、これが想像以上に難航した。

サイトはHTMLを返す。しかしAIは画面を見ることができない。

そこでまず、ページを保存するコードを追加し、保存されたHTMLを確認しながら進める。ところが、実際のサイトにはボタン操作による動的挙動がある。

人間であれば、画面を見れば一瞬で理解できる。

しかしAIの場合、

・HTMLを保存
・スクリーンショットを保存
・それを画像認識APIに投げる
・結果を解析
・次の操作を生成

という手順を踏まなければならない。

人間ならChromeの開発者ツールを開けば即座に把握できることをAIは1時間経っても気づかなかった。これには心底失望した。

世界を観測するための「手」と「目」

ブラウザという「世界」を観測するには、それに適した手と目が必要なのである。

CDP(Chrome DevTools Protocol)経由でアクセスさせればよい、という指摘もあるだろう。その通りである。この場合、CDPこそがブラウザ世界に対する身体である。

重要なのは、「特定の世界を観測・操作するためには、それ専用のインターフェースが必要だ」という点である。

それはAPIかもしれないし、MCPかもしれない。
いずれにせよ、観測可能性と操作可能性を与える仕組みが必要なのだ。

私がここで言う身体性とは、まさにこの「世界にアクセスするためのインターフェース」のことである。

観測コストという問題

AIは推論自体は高速で行える。しかし、観測に時間がかかる対象に対しては極めて非効率になる。

人間は視覚によって画面全体を瞬時に把握できる。
しかしAIは逐次的に情報を取得し、解析し、次の一手を考える。

この観測コストの差は決定的である。

そのため、AIから見て観測に時間がかかる対象に対しては、現在のエージェント型AIはほとんど無力であると感じている。

思うに、現在のAIは、膨大な知識を持ちながら、どこにも立っていない。
身体とは、世界の内部に立つための必要条件である。
内部に立たない限り、世界はいつまでも記述の対象でしかない。

Coding Agentで見えてきた「身体」の必要性」への2件のフィードバック

  1. ブラウザーの問題は Seleniumのようなものを使えば可能だと思うのです。実際claude codeではブラウザーを制御するchromeプラグインを使って実際にユーザーの接続情報を使って画面をスクリーンショットしたりChrome開発ツールの情報をとったり、JavascriptやPythonを使ってテスト実行をしてスクレイピングソフトの修正をしてくれました。だた、そういうのが無かったらAIにはできない作業だったので手足が必要という説明はわかります。味覚を感じても判断はできないし、音は聞けても人間の判断をフィードバックさせるのは難しいのは確かだけど、せめてカメラでもつけて人間の表情や動きといった情報をAIに渡せばいいのかもしれませんね。

    • 例えばGoogleのSERP(検索の結果ページ)、DOM elementの属性値が動的に(定期的に)変わるんですよね…。
      他には、JavaScriptでclick event送らないと反応しないボタンとか。

      こういうタイプ、Codexでは自動的には解決不可能かもしれんです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です