Andrej Karpathyが公開した Autoresearch(LLMエージェントが自律的に研究を反復改善するフレームワーク)を、実際の研究プロジェクトに適用した実験レポートが注目を集めている。
Autoresearchの仕組みはシンプルで、エージェントが train.py を繰り返し編集し、評価指標を最大化するループを回す。実験者は医療X線データを用いたeCLIPの旧コードを題材に採用し、「ハイパーパラメータ調整→アーキテクチャ変更→ムーンショットアイデア」と段階的なフェーズを設定。最終フェーズではエージェントに 論文検索のためのWeb閲覧を許可 し、ほぼ自由に探索させた。
セキュリティ面では、エージェントがワークステーション上で任意コードを実行することを警戒し、コンテナ化+ネットワーク遮断を実施。Claude Codeの権限も2ファイルの編集と run.sh の実行のみに制限した。1回の実験を約5分に収めることで高速イテレーションを実現している。