Deep Learning系の将棋AIとして最強と名高いdlshogiのGitHubは、1年ぐらい更新がなかったのだが、今月、久しぶりにいくつかのコミットがあった。
dlshogiの作者の山岡さんが言うには、「GPT-5.5でレビューしてみたらバグが見つかりました。レアケースなのでほとんど影響のないバグですが。」とのことであった。
実は、やねうら王のほうでも最近Codexが発見したバグがいくつかある。どれも棋力には影響しないような軽微なバグだが、確かにバグと言えるようなものであった。
興味が湧いたので、私が過去に製作した基幹システムをCodex(GPT-5.5)にレビューさせてみた。これは上場企業でも使われている、そこそこの規模の基幹システムである。
ほどなく、Codexは大きなバグを一つ発見した。これは数ヶ月に1回ぐらい起きるレアな不具合ではあるものの、長年原因がわからず、「まあいいか」と放置していたバグだ。その原因を正確に指摘したのには驚いた。
Codexは、その他にも軽微なバグをいくつも指摘した。どれも納得感はある指摘であった。
OSなどのAPIにしても、所詮は他人が作ったものであり、APIの作者が想定していない呼び出し方をしてしまったり、細かい挙動までドキュメント化されておらず、間違った呼び出し方をしてしまうことは多々ある。単純にエンジニアリングの経験年数だけでカバーできるものではないと思う。
単純化して言えば、どれだけ経験を積んでも、普通のエンジニアは、コンピューターサイエンスやソフトウェア工学のすべての領域に精通しているわけではないので、苦手分野というのはどうしてもある。そういう苦手分野では理解が足りないので、間違った方法でAPIを呼び出してしまったり、コーナーケースに気づかなかったりする。
Codexにも当然、死角はあるのだが、(ベテランエンジニアである)人間の持つ死角とは、その分布がかなり異なると感じる。少なくともCodexのレビューによって、ソフトウェアの品質を一定の水準まで向上させられることがわかった。「2026年は(過去から受け継いだ)ソフトウェアの品質が飛躍的に向上した年」のように後世で語られるだろう。
最近、Claude Mythosが既存ソフトウェアの脆弱性を発見しまくって、国家として、サイバー攻撃の脅威に備える必要があると言われている。
政府、最新AI「Claude Mythos」に官民連携対応、日銀・メガバンク首脳と緊急会合
https://news.yahoo.co.jp/articles/f7af7bc6873ab3c416801a6cdc857ccf4934d5ef
しかし、私に言わせれば、現時点のCodexがすでにヤバいのである。Codexを使えばソフトウェアの脆弱性をバンバン発見できるのである。Mythosとどれくらい差があるのかは知らんが、Codexでも使い方次第ですでにヤバい能力がある。私が思うに、Mythosが脆弱性をバンバン発見するとして、それは主にハーネスや運用の違いに起因するのではないかと思う。要するに使い方次第であって、モデル性能をこれ以上劇的に上げなくとも、もうすでにヤバいぐらいの能力がある。「Mythosに備えて」なんて言ってる奴らは全員エアプなんじゃねーの。
…などと、こんなクソでかい主語にしてもちっとも炎上しないのが、このブログの凄いところである。これからも、このブログを細々と更新していきたい。
ほんとそうですよね。もう自分で書いた方が質が悪くて、最近は自分で書かなくなりましたw