EP.005

#5 使うほど全員のAIが賢くなる「集合知スキル進化」の正体

ユーザーの成功と失敗を夜間に自動集約し、翌朝にはスキルが改善されて全員に届く仕組み

2026年4月17日

RSS

番組ノート

今回の論文

タイトル: SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
著者: Ziyu Ma et al.（DreamX Team）
発表: 2026年4月（プレプリント）

このエピソードのポイント

ユーザーがAIを使った記録（成功・失敗）を自動で集めて、AIが自分でスキルの改善案を考えて書き直す仕組みがある
改善されたスキルはテストに合格したものだけが配信されるので、品質が下がらない一方通行の設計になっている
6日間の運用シミュレーションで、クリエイティブ生成タスクが相対88%向上するなど、使うほど全員のAIが賢くなることが確認された

#放課後論文ラジオ#AI#AIエージェント#機械学習#集合知#SkillClaw#LLM#自動進化

論文を読み解く

Overview

ひと言でいうと

複数ユーザーがAIアシスタントを使う中で遭遇した成功・失敗の経験を自動的に集約し、AIの「スキル」を夜間に自律改善・全ユーザーへ配信する仕組みを実現した研究。ユーザーは何もしなくても、使うたびにAIが賢くなっていく。

Background

背景

ChatGPTのようなAIアシスタントは、「スキル」と呼ばれる手順書（ツールの使い方や作業の段取りをまとめたもの）を使ってタスクをこなします。ところが現状では、このスキルは一度作ったら 基本的に変わりません 。あるユーザーがAIと格闘して「このAPIはポート9110で動く」と発見しても、別のユーザーはまた同じ試行錯誤を繰り返すことになります。似たような仕事をしている人たちが、それぞれ独立に同じ壁にぶつかっては同じ解決策を見つけている——この「車輪の再発明」が延々と続く構造が問題でした。個人の経験がシステム全体の知恵として蓄積されないのです。

Novelty

何が新しいか

SkillClaw の発想は、「みんなの失敗と成功を集めて、スキルを夜のうちに自動改善する」 というものです。仕組みは大きく3つのステップに分かれます。

①経験の記録と共有: 各ユーザーのAIエージェントが日中のやりとり（どのツールを呼び、何が返ってきて、最終的にどうなったか）を詳細に記録します。いわばAIの「業務日報」です。

②自律的な進化（Agentic Evolver）: 夜間に、集まった日報をスキルごとにグループ化し、AI自身が分析します。「このスキルは3人のユーザーで成功したが、2人では失敗。失敗の共通原因はAPIのポート番号の間違い」といった具合に、成功パターンと失敗パターンを照らし合わせ、スキルの修正案を自ら作成します。ここが従来と大きく異なるポイントで、固定のルールではなく AIが自由に推論して改善点を見つける のです。

③検証と配信: 修正案は実環境でテストされ、改善が確認されたものだけが翌日の全ユーザーに配信されます。改悪されたスキルは弾かれるので、 品質が下がることはない 設計です。

Results

どんな結果が出たか

WildClawBench という実世界タスクのベンチマークで、8ユーザー・6日間の運用をシミュレーションした結果、4つのタスク領域すべてで性能が向上しました。特に目を引くのは 「クリエイティブ生成」が初日の約11.6%から21.8%へと相対 88%向上 した点です。これは、コンテンツ生成能力そのものではなく「ファイル配置やディレクトリ設定」といった環境準備の手順が改善された結果でした。「検索・情報取得」も 22.7%→34.6%と相対52%向上 し、段階的にスキルが積み上がっていく様子が確認されました。さらに、制御実験では「レポート保存」タスクが 28.3%から100% に改善されるなど、手順的な知識の欠落をスキル進化が的確に補えることが示されました。

Key Point

なぜ重要か

この研究が示す未来像は、 「使えば使うほど、全員のAIが賢くなる」 というものです。

たとえば社内で100人がAIアシスタントを使っている状況を想像してみてください。ある営業担当が「Slackのメッセージからタスクを抽出する」作業でAIと試行錯誤し、うまくいく手順を見つけたとします。SkillClawの仕組みがあれば、その知見は夜のうちに自動的にスキルに反映され、翌朝には他の99人のAIも同じ改善の恩恵を受けられます。ユーザー側は何もする必要がありません。

これは、SaaS製品の「使っていくうちに勝手にアップデートされる」体験に近いですが、アップデートの中身を AIが自分で考えて作る 点が革新的です。企業にとっては、AIツールの導入後に「使われるほど投資対効果が上がる」仕組みが現実味を帯びてきたことを意味します。特に、同じような業務を多くの人がこなす組織（カスタマーサポート、データ分析、社内情報検索など）では、効果が大きくなると考えられます。

From the Host

解説者ノート

個人的に最も面白いと感じたのは、「検証で不合格のスキルは配信しない」という一方通行の品質管理です。これにより「進化したけど退化した」が起きない設計になっている。一方で、今回は8ユーザー・6日間という小規模テストであり、ユーザー数が増えたときに矛盾する経験（ある人には成功、別の人には失敗する同じスキル改善）をどう扱うかは今後の課題になりそうです。また、進化エンジン自体がLLMなので「AIがAIの手順書を書き直す」構造になっており、この再帰的な仕組みがどこまでスケールするかは非常に興味深いテーマです。

キーワード

スキル（Skill）

AIエージェントが特定のタスクをこなすための「手順書」。APIの呼び方やツールの使い方が書かれている

Agentic Evolver（自律進化エンジン）

集まったユーザーの使用記録を分析し、スキルの改善案を自分で考えて作るAI。人間の指示なしで動く

セッション軌跡（Session Trajectory）

ユーザーとAIのやりとりの全記録。「何を指示し、何をツールに投げ、何が返り、最終的にどうなったか」の因果関係の連鎖

集合的進化（Collective Evolution）

個々のユーザーの経験を集約して、全員で共有するスキルセットを継続的に改善していくこと

バリデーション（Validation）

改善したスキルを実環境でテストし、本当に良くなったかを確認するプロセス。合格したものだけ配信される

WildClawBench

60の実世界タスク（生産性、コード、検索、安全性など）で構成されるAIエージェントの評価用ベンチマーク

論文情報

2604 08377v1

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI研究を2人の会話でざっくり読み解いていく番組だよ！

かなで

ゆい、最近なんか部活でさ、後輩に同じこと何回も教えてない？

ゆい

あー！わかる！めっちゃわかる！

←前のエピソード

EP.004 #4 あらゆるソフトをAIの練習場に変えるフレームワークの正体

次のエピソード→

EP.006 #6 小さなAIでも名医になれる？推論を見守る"審判役AI"の正体

EP.005|#5 使うほど全員のAIが賢くなる「集合知スキル進化」の正体

--:--/--:--