<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
     xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
     xmlns:content="http://purl.org/rss/1.0/modules/content/"
     xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>放課後論文ラジオ</title>
    <link>https://paper-cast.net</link>
    <language>ja</language>
    <description>AIの最新論文を、ゆい＆かなでが放課後のおしゃべり感覚で解説するポッドキャストです。 論文は読まなくてOK。1エピソード1論文、約10分でAI研究の最前線がざっくりわかります。</description>
    <lastBuildDate>Mon, 11 May 2026 08:57:22 +0000</lastBuildDate>
    <atom:link href="https://paper-cast.net/feed.xml" rel="self" type="application/rss+xml"/>
    <itunes:author>放課後論文ラジオ</itunes:author>
    <itunes:owner>
      <itunes:name>放課後論文ラジオ</itunes:name>
      <itunes:email>oyakostory@gmail.com</itunes:email>
    </itunes:owner>
    <itunes:image href="https://paper-cast.net/cover.png"/>
    <itunes:category text="Technology">
      <itunes:category text="Artificial Intelligence"/>
    </itunes:category>
    <itunes:explicit>no</itunes:explicit>
    <itunes:type>episodic</itunes:type>
    <item>
      <title>#33 音楽を入れたらAIが踊る動画を作る時代</title>
      <description>1枚の人物写真と好きな楽曲があれば、その人がプロのように踊る動画が作れる——そんな技術「MACE-Dance」を解説します。「振り付け担当」と「映像化担当」の2人のAIに分業させるユニークな設計で、自然な動きと崩れない見た目を両立。SNS時代の動画制作はどう変わるのでしょうか？</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation</li>
<li><strong>著者</strong>: Kaixing Yang, Jiashu Zhu et al.（中国人民大学、アリババAMAP、清華大学ほか）</li>
<li><strong>発表</strong>: arXiv 2025年12月（2026年5月公開予定）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>音楽を入れるだけで、参考画像の人物がその曲に合わせて踊る動画を自動生成する技術</li>
<li>「動きの専門家」と「見た目の専門家」を直列につなぐ分業設計で、自然なダンスと崩れない映像を両立</li>
<li>中間データに3D骨格を使うことで、奥行きや手足の重なりに強くなり、編集もしやすい</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>Mixture-of-Experts（MoE）</strong>: 1つの巨大AIが全部やる代わりに、得意分野の違う複数のAIに分業させる仕組み。</li>
<li><strong>拡散モデル</strong>: ノイズだらけの状態から少しずつノイズを除いて、綺麗な画像や動きを作るAIの主流技術。</li>
<li><strong>BiMamba</strong>: Transformerより高速で、時系列の前後関係をなめらかに扱える新しいAI部品。前向き・後ろ向きの両方を見るタイプ。</li>
<li><strong>SMPL</strong>: 人体を3Dで表現する標準的な「デジタル人形」フォーマット。関節角度などで全身の姿勢を表す。</li>
<li><strong>Guidance-Free Training（GFT）</strong>: 従来の生成AIで2回必要だった計算を1回で済ませる新しい学習法。速くて安定。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2512.18181</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep033_2512_18181/episode-FtAbJY0eTRljzqYKRTHgdSkFraAGFb.mp3" length="7721324" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep033</guid>
      <pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>33</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#32 AIに「grep」を使わせたら検索が変わった</title>
      <description>今回はAIエージェントの検索手法を根本から見直す論文を紹介。ベクトル検索の代わりにgrepやbashで直接ファイルを探らせると、正答率は11ポイント上昇、コストは約30%ダウン。RAGの常識を覆す逆転の発想を、ゆいとかなでがゆるく読み解きます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction</li>
<li><strong>著者</strong>: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie et al.</li>
<li><strong>発表</strong>: 2026年5月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIに情報を探させる時、ベクトル検索ではなくgrepなど昔からのコマンドで直接ファイルを探らせる新発想</li>
<li>同じAIモデルでも検索方法を変えるだけで、正答率が11ポイント上がりコストは約30%下がった</li>
<li>大規模コーパスでは性能が落ちるなど制約もあり、用途を選ぶ技術であることもしっかり議論</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>RAG（検索拡張生成）</strong>: AIに外部の文書を探させ、その内容を踏まえて回答させる仕組み。社内データ活用の定番手法です。</li>
<li><strong>ベクトル検索</strong>: 文書や質問を数値に変換し「意味の近さ」で似たものを返す方式。意味は捉えやすいが完全一致は苦手。</li>
<li><strong>エージェント型検索</strong>: AIが自分で計画を立て、何度も検索を繰り返しながら答えに近づいていく賢い検索のやり方。</li>
<li><strong>Direct Corpus Interaction (DCI)</strong>: この論文の提案手法。インデックスを作らず、AIにターミナルを渡して直接ファイルを探らせるアプローチ。</li>
<li><strong>grep / bash</strong>: Linuxで昔から使われているコマンド。文字列を検索したりコマンドを組み合わせたりできる便利な道具。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2605.05242</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep032_2605_05242/episode-RoktVkL0SAeYzebHWd7DT7KVK3LDSA.mp3" length="9154412" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep032</guid>
      <pubDate>Sun, 10 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>32</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#31 ナンセンスがAIを賢くする不思議な話</title>
      <description>今回はプロンプトに「ロレム・イプサム」という意味のないダミー文を加えるだけで、AIの推論力が上がるという驚きの研究を紹介。なぜナンセンスが効くのか、なぜ完全ランダムだとダメなのか、AIの思考の癖がちょっと見えてくる回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration</li>
<li><strong>著者</strong>: Langlin Huang, Chengsong Huang, Jinyuan Li et al.（ワシントン大学セントルイス校）</li>
<li><strong>発表</strong>: 2026年5月（プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>難しすぎる問題で全部不正解になると学習が止まってしまう「ゼロアドバンテージ問題」を、ダミー文の追加だけで救えるという話</li>
<li>数学ベンチマークで最大+6.20点の改善。サンプリング数を単純に増やすより効果が大きい</li>
<li>ただしランダムなら何でもいいわけではなく「ラテン語風で意外度が低い」ナンセンスがちょうどよく効く</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>GRPO</strong>: 同じ問題を複数回AIに解かせて、相対的に良かった答えに寄せていく強化学習の手法</li>
<li><strong>ゼロアドバンテージ問題</strong>: 全部の試行が間違えると相対的な差が消え、学習信号がゼロになってしまう現象</li>
<li><strong>ロレム・イプサム</strong>: デザイン業界でレイアウト確認に使われるラテン語風のダミー文。意味は持たない</li>
<li><strong>プロンプト空間の摂動</strong>: 入力文そのものを揺さぶる手法。出力にランダム性を足すのとは別の発想</li>
<li><strong>パープレキシティ</strong>: モデルから見た「意外度」。低いほど自然に見え、高いほど突拍子もない</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2605.05566</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep031_2605_05566/episode-zQaaudldRu2l7X198nKCd6kGjJAEjc.mp3" length="9212012" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep031</guid>
      <pubDate>Sat, 09 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>31</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#30 AIがAIを鍛える、文書理解の新しいレシピ</title>
      <description>今回は、長くて専門的な文書からAIが「使えるスキル」を自動で抜き出す研究を紹介。人手も正解データもなしに、AI同士の自己対戦でスキル集を育てるCtx2Skillという手法を解説します。社内マニュアルや契約書をAIに読ませたい人、必聴の回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: From Context to Skills: Can Language Models Learn from Context Skillfully?</li>
<li><strong>著者</strong>: Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang et al.（清華大学、DeepLang AI、UIUC、復旦大学、香港中文大学）</li>
<li><strong>発表</strong>: 2026年5月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>社内マニュアルや専門文書など、AIが学習時に知らなかった情報を「その場で読み取って使う」のは実は苦手分野</li>
<li>AI同士を「出題者」と「解答者」に分けて自己対戦させ、文書から使えるスキル集を自動で作る仕組みを提案</li>
<li>スキルを与えただけでGPT-4.1が上位モデルのGemini 3 Proを上回るなど、追加学習なしで性能が伸びることを実証</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>コンテキスト学習</strong>: 事前学習で覚えていない情報を、その場で渡された文書から読み取って使う能力のこと。</li>
<li><strong>自然言語スキル</strong>: 「この場面ではこう判断する」というルールや手順を、人が読める文章にまとめたもの。</li>
<li><strong>自己対戦（Self-play）</strong>: AI同士が出題者と解答者に分かれて、互いに鍛え合う学習方法。</li>
<li><strong>敵対的崩壊</strong>: 対戦が過熱して出題が極端になり、解答スキルも偏ってしまう現象。</li>
<li><strong>Cross-time Replay</strong>: 過去の各時点のスキルを難問・易問の両方で再評価し、バランスの取れたものを選ぶ仕組み。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.27660</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep030_2604_27660/episode-oG3u5TGqyNeJcFwXucVKEuGxOj9pgS.mp3" length="9619244" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep030</guid>
      <pubDate>Fri, 08 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>30</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#29 AIに自己レビューさせてはいけない</title>
      <description>今回はAIに研究プロセスをまるごと任せる「ARIS」を読み解きます。アイデア出しから論文執筆、査読対応までを自動化しつつ、実行役と批評役を別メーカーのAIに分けるという運用原則がポイント。AIエージェントを業務に組み込みたい人に役立つ、設計思想のヒントが詰まった一本です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration</li>
<li><strong>著者</strong>: Ruofeng Yang, Yongcan Li, Shuai Li 他（上海交通大学）</li>
<li><strong>発表</strong>: 2026年4月（arXivテクニカルレポート）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIによる研究自動化の最大の落とし穴は「もっともらしいが裏付けのない成功」を作り出してしまうこと</li>
<li>ARISは「実行するAI」と「批評するAI」を別メーカーに分けることで、自己レビューの甘さを回避</li>
<li>主張と根拠を台帳で突き合わせ、履歴ゼロの第三者AIに再監査させる仕組みは、社内のAI運用にも転用できる発想</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>敵対的協調</strong>: 仲間だけど立場が違うAI同士に、わざと粗探しをさせ合って品質を上げる仕組み。</li>
<li><strong>もっともらしい裏付けなき成功</strong>: 一見うまくいっているように見えて、実は根拠が伴っていないAIの出力。長時間タスクで起きやすい現象です。</li>
<li><strong>主張台帳</strong>: 論文の主張1つ1つを「どの実験データが裏付けているか」と紐づけて管理する一覧表。</li>
<li><strong>ハーネス</strong>: AIモデル本体を取り囲む業務システム部分。何を覚えさせ、何を見せ、どう繋ぐかというロジック全体のこと。</li>
<li><strong>クロスファミリーレビュー</strong>: ClaudeとGPTのように、別系統のAIに相互レビューさせる運用ルール。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2605.03042</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep029_2605_03042/episode-D6liDx4SVC1EYpDGOkU8SVOJu3OOuU.mp3" length="7469612" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep029</guid>
      <pubDate>Thu, 07 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>29</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#28 90万円で動く「考えるロボット」の正体</title>
      <description>今回はロボット制御AIの最新研究「MolmoAct2」を取り上げます。これまで数千万円の専用ロボットが必要だった汎用ロボットAIが、約90万円の機材で動く時代に。空間を見て考えながら動く仕組みと、完全オープン化がビジネスにもたらすインパクトをゆるく解説します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: MolmoAct2: Action Reasoning Models for Real-World Deployment</li>
<li><strong>著者</strong>: Haoquan Fang, Jiafei Duan et al.（Allen Institute for AI / ワシントン大学ほか）</li>
<li><strong>発表</strong>: 2026年5月（arXiv）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>約90万円の安価な機材セットで動く、完全オープンソースのロボット基盤モデルが登場</li>
<li>画面で「変化した部分だけ」奥行きを再計算する省エネ思考で、考えながらも速く動ける</li>
<li>未知の環境での実機テストで成功率87.1%。次点に38ポイント以上の大差をつけた</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>VLAモデル</strong>: 画像と言葉の指示を受け取って、ロボットの動きを直接出力するAI。「目」「耳」「手」を一つのモデルで担います</li>
<li><strong>ファインチューニング</strong>: 既存のAIに特定の作業データを追加で学習させて、自社向けに仕立て直すこと</li>
<li><strong>双腕（バイマニュアル）</strong>: 両腕を協調させる作業。皿洗いや服たたみなど、片手では難しい仕事に必要です</li>
<li><strong>適応的深度推論</strong>: 画面で変化した場所の奥行きだけを計算し直す省エネ思考。ロボットの応答を速くする工夫</li>
<li><strong>フローマッチング</strong>: 滑らかな連続動作を生成する数学的手法。ノイズから徐々にきれいな軌道を作り上げます</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2605.02881</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep028_2605_02881/episode-g056VykCZX9gdkbiciG8CNJ9Xm7FS2.mp3" length="7809452" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep028</guid>
      <pubDate>Wed, 06 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>28</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#27 論文という形式が、AIに合わなくなってきた</title>
      <description>研究を「人間向けの物語」から「AIが直接読んで動かせるパッケージ」へ。失敗の記録まるごと残すARAという新フォーマットの提案論文を読み解きます。再現率や理解度の実験結果から、強いAIには過去の記録がむしろ足かせになるという意外な発見まで。社内ナレッジ運用にも効くヒントが詰まった回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: The Last Human-Written Paper: Agent-Native Research Artifacts</li>
<li><strong>著者</strong>: Jiachen Liu et al.（Orchestra Research、Stanford、Cornell、MIT、Yale ほか）</li>
<li><strong>発表</strong>: 2026年5月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>論文は「人間向けに圧縮された物語」。失敗や試行錯誤がごっそり捨てられていて、AIエージェントが再現・発展させるには情報が足りない</li>
<li>主張・コード・探索の枝分かれ・生データの4層フォルダで研究を表現する「ARA」という新フォーマットの提案</li>
<li>理解・再現の実験ではARAが圧勝。一方で強いモデルでは過去の失敗記録が逆に足かせになるという意外な結果も</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>ARA（Agent-Native Research Artifact）</strong>: 論文をPDFではなく、AIがそのまま読んで動かせる構造化フォルダにまとめた新しい成果物のかたち</li>
<li><strong>物語化税（Storytelling Tax）</strong>: 研究を一本のストーリーにまとめる過程で、失敗や試行錯誤の情報がごっそり捨てられてしまうコスト</li>
<li><strong>探索グラフ</strong>: 研究中に試した仮説や失敗、方向転換を、枝分かれを保ったまま記録した木構造のメモ</li>
<li><strong>PaperBench / RE-Bench</strong>: AIエージェントが論文を再現したり研究タスクを解いたりする力を測るベンチマーク</li>
<li><strong>ARAコンパイラ</strong>: 既存のPDF論文やGitHubリポジトリを、ARA形式に自動変換する仕組み</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.24658</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep027_2604_24658/episode-JkWIznrHQPSC1N4qRDvr5jGbMxLh56.mp3" length="8991404" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep027</guid>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>27</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#26 動画生成AIに3D空間の感覚を教え込む</title>
      <description>今回はテキストから動画を作るAIの弱点「カメラを動かすと物が歪む・消える」を強化学習で解決した研究、World-R1を紹介。モデル構造を変えずに3D的な一貫性を後から教え込むアイデアと、自動運転やロボット学習への応用可能性をゆるく語ります。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: World-R1: Reinforcing 3D Constraints for Text-to-Video Generation</li>
<li><strong>著者</strong>: Weijie Wang et al.（浙江大学、Microsoft Research ほか）</li>
<li><strong>発表</strong>: 2026年1月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>動画生成AIの弱点「カメラを動かすと物が歪む・消える」を、モデル構造を変えずに直す試み</li>
<li>生成した動画を3D空間として復元し、その破綻度合いを「報酬」にして強化学習で鍛える</li>
<li>3D一貫性を高めても、炎や水などの動きが固まらないように「周期的デカップル学習」で工夫</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>強化学習（RL）</strong>: 良い結果には報酬、悪い結果には罰を与えて少しずつAIを賢くする学習法。今回は「3D的に矛盾の少ない動画」がご褒美の対象です。</li>
<li><strong>3D一貫性</strong>: カメラを動かしても物体の形や位置がずれない、世界として筋が通っている性質のこと。</li>
<li><strong>メタビュー評価</strong>: 生成した動画を別の角度から覗いて「ハリボテになっていないか」を確認する仕組み。</li>
<li><strong>ノイズワーピング</strong>: 動画の元になるランダムノイズにカメラの動きをあらかじめ埋め込む工夫。モデルをいじらずにカメラ制御を可能にします。</li>
<li><strong>周期的デカップル学習</strong>: 3D制約をかけ続けると映像が固まってしまうので、定期的に制約を外して動きを学ばせる工夫。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.24764</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep026_2604_24764/episode-zOIJQb3OS3oYWPJkbo8WnpoGpm4kpk.mp3" length="11594924" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep026</guid>
      <pubDate>Sun, 03 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>26</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#25 AIの学習データを「デバッグ」する時代</title>
      <description>今回はAIの学習データ作りを「ソフトウェア開発」のように扱う新しい研究を紹介。AIが間違えた箇所を「データのバグ」として特定し、必要な部分だけを直す手法ProDaを解説します。32Bモデルが大手AIを上回った結果や、ビジネス現場への影響まで、ゆるく掘り下げます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora</li>
<li><strong>著者</strong>: Chenkai Pan, Xinglong Xu, Yuhang Xu et al.（浙江大学ほか）</li>
<li><strong>発表</strong>: 2026年4月（arXiv）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIの学習データ作りを「テスト→デバッグ→修正」のサイクルで行う方法論を提案</li>
<li>知識を3階層（概念・関係・推論チェーン）に整理し、間違いの原因をピンポイントで診断</li>
<li>わずか1,000サンプルの修正で、従来の10倍のデータを使った手法を上回る成果を達成</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>ファインチューニング</strong>: 学習済みのAIに、特定分野のデータを追加で学ばせて専門家に育てる工程です</li>
<li><strong>ベンチマーク</strong>: AIの能力を測るためのテスト問題集のこと</li>
<li><strong>概念ギャップと推論不足</strong>: AIが間違える原因を「知識自体がない」のか「知識はあるけど組み合わせられない」のかに分けた考え方</li>
<li><strong>破滅的忘却</strong>: 新しいことを学ばせると、前に覚えていたことを忘れてしまうAIの困った現象</li>
<li><strong>L1/L2/L3知識構造</strong>: 「概念→関係→推論チェーン」と3層に知識を整理した地図のような仕組み</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.24819</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep025_2604_24819/episode-nTVCKjOQOpMGeenqRDTqrfI597AaAl.mp3" length="8964332" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep025</guid>
      <pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>25</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#24 AIエージェントは「会話」をやめるべき？</title>
      <description>複数のAIを連携させる「マルチエージェント」は遅くてコストも高いのが悩み。今回はAI同士のやり取りを「文章」ではなく「思考の中身」で直接つなぐ新手法RecursiveMASを紹介。精度8.3%向上、速度2.4倍、トークン75%削減という驚きの結果の裏にある発想の転換を、ゆいとかながゆるく読み解きます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Recursive Multi-Agent Systems</li>
<li><strong>著者</strong>: Xiyuan Yang, Jiaru Zou et al.（UIUC、Stanford、NVIDIA、MIT）</li>
<li><strong>発表</strong>: arXiv, 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>複数のAIエージェントを「文章」ではなく「思考の中身（潜在表現）」で直接つなぐ新フレームワーク</li>
<li>LLM本体は凍結したまま、間をつなぐ小さなモジュールだけを学習させる省コスト設計</li>
<li>精度は平均8.3%向上、速度は最大2.4倍、トークンは最大75.6%削減という三方良しの結果</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>マルチエージェントシステム（MAS）</strong>: 役割の違う複数のAIをチームのように連携させて問題を解く仕組みです。プランナー、批評役、解答役のように分業させます。</li>
<li><strong>潜在表現</strong>: AIが文章を出力する直前に内部で持っている「思考の数値ベクトル」のこと。文章にする前の生の中間状態です。</li>
<li><strong>再帰的計算</strong>: 同じ処理を何回もループさせて、答えを少しずつ深めていくやり方です。</li>
<li><strong>RecursiveLink</strong>: 本研究の中核となる小さなモジュール。エージェント同士の潜在表現を橋渡しする「翻訳機」のような役割を担います。</li>
<li><strong>勾配消失</strong>: 学習時に、層やループを重ねるほど学習の手がかりが伝わりにくくなる現象です。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.25917</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep024_2604_25917/episode-0NHb4z5aN5hsaJdgAI40UV9n8BwtOi.mp3" length="9419372" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep024</guid>
      <pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate>
      <itunes:episode>24</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#23 AIが嘘をつき始める本当の理由</title>
      <description>AIに追加学習させると、なぜか前は答えられていた質問に嘘をつくようになる——その原因を突き止めた最新研究を読み解きます。容量不足ではなく「似た概念同士の干渉」が犯人だった？自己蒸留という対策で幻覚を大幅に減らせる仕組みを、ゆいとかながゆるく解説します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Why Fine-Tuning Encourages Hallucinations and How to Fix It</li>
<li><strong>著者</strong>: Guy Kaplan, Zorik Gekhman, Zhen Zhu, et al.（ヘブライ大学、テクニオン、UIUC、USC）</li>
<li><strong>発表</strong>: 2026年4月（プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>追加学習でAIが嘘をつき始める原因は「容量不足」ではなく「似た概念同士の干渉」だった</li>
<li>架空の地名 vs ランダムIDの比較実験で、表現の似ている新情報だけが既存の知識を壊すことを実証</li>
<li>「自己蒸留」という対策で、通常15%落ちる精度の劣化を約3%まで抑えられる</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>ファインチューニング</strong>: 学習済みAIに追加データを与えて、特定の用途や口調に合わせ込む作業のこと。</li>
<li><strong>幻覚（ハルシネーション）</strong>: AIがもっともらしい嘘を自信満々に答えてしまう現象。</li>
<li><strong>自己蒸留</strong>: 学習前の自分自身を「先生」として保存し、新しいことを学ぶときに変わりすぎないように制約をかける手法。</li>
<li><strong>表現の干渉</strong>: 似た意味の概念がモデル内の近い場所に保存されていて、片方を更新するともう片方まで壊れてしまう現象。</li>
<li><strong>安定性と可塑性のトレードオフ</strong>: 「新しく覚える力」を上げると「前のことを忘れない力」が下がる、という綱引きの関係。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.15574</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep023_2604_15574/episode-kpS8D8ZSxbvDS3zUBL1GNnVuHeqXf3.mp3" length="8070380" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep023</guid>
      <pubDate>Thu, 30 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>23</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#22 AIエージェントを「会社」として雇う時代</title>
      <description>今回はAIエージェントを「会社の従業員」のように雇い、配属し、評価し、必要なら解雇するフレームワーク「OneManCompany」の論文を読み解きます。複数のAIをチームとして動かす新しい仕組みや、ソフト開発ベンチで成功率84.67%を達成した実力、そしてAI人材市場というビジネス的な可能性まで、ゆるくお話しします。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company</li>
<li><strong>著者</strong>: Zhengxu Yu, Yu Fu et al.（Huawei Noah's Ark Lab、UCL、リバプール大学）</li>
<li><strong>発表</strong>: 2026年4月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIエージェントを「会社の従業員」として雇い、配属し、評価し、解雇する新しい仕組み「OneManCompany」を紹介</li>
<li>ソフト開発ベンチPRDBenchで成功率84.67%を達成し、Claude-4.5を約15ポイント上回った実力</li>
<li>異なるAIベンダーのエージェントが同じプロジェクトで共存できる「AI人材市場」というビジネス的インパクト</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>Talent / Container</strong>: エージェントの「人格・スキル」と「実行環境」を分けて扱う設計。同じ人格を別の環境に持ち運べるイメージです。</li>
<li><strong>Talent Market</strong>: 検証済みのAIエージェントが登録された人材マーケット。HRエージェントが必要に応じて「採用」してくれます。</li>
<li><strong>E2R木探索</strong>: タスクを木のように分解して「探索→実行→レビュー」を繰り返す方法。途中で行き詰まったら別の道を試します。</li>
<li><strong>DAG（有向非巡回グラフ）</strong>: タスク同士の依存関係を循環なく整理する図。「Aが終わらないとBは始められない」を厳密に管理します。</li>
<li><strong>PIP（改善計画）</strong>: 成績が振るわないエージェント向けの改善プログラム。改善しないと自動的に「解雇」される仕組みです。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.22446</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep022_2604_22446/episode-mXhhoSEmj5D2vbjpyHkgNtHpt39fpj.mp3" length="9374444" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep022</guid>
      <pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>22</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#21 AIは世界をどこまで理解しているか</title>
      <description>今回はAIエージェントの「世界の理解力」を測るための新しい物差しを提案した論文を取り上げます。能力を3段階、世界を4領域に分けて400本以上の研究を整理した地図を解説。ビジネスでAIを評価するときに使える「見るべきポイント」が見えてきます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond</li>
<li><strong>著者</strong>: Meng Chu et al.（香港科技大学、シンガポール国立大学、オックスフォード大学ほか）</li>
<li><strong>発表</strong>: 2026年4月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIの「世界を理解する力」を、予測者・シミュレーター・進化者という3つのレベルで整理した</li>
<li>物理・デジタル・社会・科学の4領域でAIの成熟度を比較すると、科学領域が最先端で社会領域が最も難しいことが分かった</li>
<li>動画生成が綺麗でも「行動を変えたら未来も変わるか」というテストでは脆い。ビジネスでAIを選ぶときの新しい物差しになる</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>ワールドモデル</strong>: AIが頭の中に持つ「世界の縮図」。次に何が起きるかを予測するための内部シミュレーターのようなもの</li>
<li><strong>エージェント</strong>: 目標を達成するために自分で考えて動くAI。ワールドモデルを使って計画を立てる</li>
<li><strong>反実仮想</strong>: 「もし違う選択をしていたら？」という仮定の問いに答える力。本当に計画に使えるAIに必要な能力</li>
<li><strong>自律実験ループ</strong>: AIが仮説を立て、実験して、結果を見て自分のモデルを更新するサイクル。最上位レベルの核心</li>
<li><strong>介入感度</strong>: 行動を変えたら未来も変わるか、というテスト。見た目のリアルさとは別物</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.22748</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep021_2604_22748/episode-iSIUI0pulNIyZIZPi5AG8MS7fhEwLq.mp3" length="10106540" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep021</guid>
      <pubDate>Tue, 28 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>21</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#20 AIが動画の「時間の流れ」を見抜く</title>
      <description>今回はAIに「時間の伸び縮み」を理解させる研究を紹介。動画が早送りかスローかを見抜き、さらに速度を指定して動画を生成できる新技術です。音のピッチ変化を学習のヒントにするユニークな発想や、4.4万クリップの巨大スローモーションデータセットの作り方、フェイク動画対策やコンテンツ制作への応用まで、ゆるっと話します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Seeing Fast and Slow: Learning the Flow of Time in Videos</li>
<li><strong>著者</strong>: Yen-Siang Wu et al.（Cornell University, 国立台湾大学, ワシントン大学）</li>
<li><strong>発表</strong>: 2026年4月（arXiv）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIは普通の動画ばかり学んでいるので「早送り」「スロー再生」を見分けられない、という盲点に挑戦</li>
<li>音のピッチが変わる現象を利用して、人間がラベルを付けなくてもAIが速度を学べる仕組みを開発</li>
<li>速度変化の検出精度92.4%を達成し、「指定した速度で動く動画」の生成にも成功</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>自己教師あり学習</strong>: 人間がラベルを付けなくても、データの中にある規則性を使ってAIが自分で学ぶ仕組み</li>
<li><strong>時間と周波数のスケーリング</strong>: 動画を早送りすると音が高くなる物理現象。再生速度と音の高さがリンクすることを学習に活用</li>
<li><strong>等変性（equivariance）</strong>: 入力を2倍速にすると出力の予測速度も2倍になる、という比例関係。これをAIに守らせる学習法</li>
<li><strong>時間的超解像</strong>: カクカクした低fps動画を、なめらかな高fps動画に変換する技術</li>
<li><strong>速度条件付き生成</strong>: 「0.1倍速で動く動画を作って」のように、速度を指定してAIに動画を生成させる仕組み</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.21931</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep020_2604_21931/episode-jGPeaqjYwQgGLzpFPIpW6T5tVp49Qj.mp3" length="8762732" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep020</guid>
      <pubDate>Mon, 27 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>20</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#19 AIが2Dゲームを丸ごと作る時代</title>
      <description>「マーベルのキャラでゲーム作って」と頼むだけで、ブラウザで遊べる2Dゲームが丸ごと完成する時代へ。香港中文大学の研究チームが発表したAIエージェント「OpenGame」を読み解きながら、ゲーム制作の民主化と、複雑な長期タスクをAIに任せる新しい方法論について話します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: OpenGame: Open Agentic Coding for Games</li>
<li><strong>著者</strong>: Yilei Jiang et al.（香港中文大学 MMLab）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>自然な言葉の要望から、コード・キャラ画像・BGMまで揃った2Dゲームを丸ごと自動生成するAIエージェント</li>
<li>「テンプレートスキル」と「デバッグスキル」という再利用可能な能力を、経験から自然に育てていく仕組みがユニーク</li>
<li>横スクロールなど物理ベースのゲームは得意だが、戦略やパズル系は苦手。「論理状態の管理」が次の壁</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>エージェント</strong>: 自分で計画を立て、ツールを使って試行錯誤しながらタスクを進めるAI。文章を返すだけのAIより一段賢い動き方をします。</li>
<li><strong>Phaser</strong>: JavaScriptで2Dゲームを作るためのオープンソースのライブラリ。コードだけで完結するのでAIが扱いやすいんです。</li>
<li><strong>テンプレートスキル</strong>: ゲームの種類ごとの「骨組みのひな型」を、経験を重ねるうちに自然と学習・蓄積していく仕組み。</li>
<li><strong>デバッグスキル</strong>: 過去に遭遇したエラーとその直し方をメモとして溜め込み、同じバグで毎回つまずかないようにする仕組み。</li>
<li><strong>ヘッドレスブラウザ</strong>: 画面を表示せず裏でWebページを動かす技術。AIがゲームの動作を自動でチェックするのに使われます。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.18394</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep019_2604_18394/episode-KxAgb7ccE7ZX4nSgDrX2A6QYQ86jvF.mp3" length="10575980" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep019</guid>
      <pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>19</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#18 見るAIと描くAIがひとつになる</title>
      <description>画像を「見て理解する」ことと「描いて作る」ことを、ひとつのAIモデルで両立させた最新研究「LLaDA2.0-Uni」を読み解きます。なぜ今まで別々だったのか、どんな工夫で統合したのか、そして交互にテキストと画像を生み出す未来とは？ビジネス応用までゆるっと語ります。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model</li>
<li><strong>著者</strong>: Tiwei Bie et al.（Inclusion AI、AGI Research Center）</li>
<li><strong>発表</strong>: 2026年4月（arXiv）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>画像を「見る」AIと「描く」AIを1つにまとめた統合モデルが登場</li>
<li>画像を「意味を持った記号」に変換する工夫で、理解タスクでも専門モデルと互角に</li>
<li>レシピの手順書のように、文章と画像を交互に生み出せる新しい使い方が見えてきた</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>拡散型言語モデル</strong>: 文章を「穴埋め問題」として一気に解くAI。左から順に書くタイプより並列処理で速いのが特徴</li>
<li><strong>統合マルチモーダルモデル</strong>: 画像の理解と生成を1つのモデルでこなすAI。普通は別々のモデルが必要</li>
<li><strong>SigLIP-VQトークナイザー</strong>: 画像を「意味を持った単語のような記号」に変換する仕組み。見た目だけでなく意味も残せる</li>
<li><strong>MoE（専門家の集まり）</strong>: 入力に応じて必要な専門家だけを呼び出す構造。大規模でも効率よく動かせる</li>
<li><strong>交互生成</strong>: テキストと画像を交互に出す機能。料理の手順書やストーリーボードのような出力が作れる</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.20796</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep018_2604_20796/episode-rxgNZ3Ypg12AE0eSuAL4oOmU8tFmDP.mp3" length="8413100" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep018</guid>
      <pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>18</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#17 AIエージェントを育てる無限の訓練場</title>
      <description>AIエージェントの実力は「モデルの大きさ」より「どれだけリアルな環境で訓練したか」で決まる？中国人民大学とByteDanceの研究チームが作った、AIが自ら訓練場を生み出し弱点を診断して進化し続ける仕組みを、ゆるく読み解きます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence</li>
<li><strong>著者</strong>: Guanting Dong et al.（中国人民大学、ByteDance Seed）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIエージェントを鍛えるための「リアルな仕事環境」を約2,000種類も自動で生成する仕組みを構築</li>
<li>エージェントの失敗ログから弱点を診断し、そこを狙って再訓練する「自己進化ループ」を実現</li>
<li>140億パラメータのモデルが6,850億パラメータの巨大モデルを一部ベンチマークで上回る結果に</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>MCP（Model Context Protocol）</strong>: AIが外部ツールやサービスを呼び出すための共通規格。USB-Cのように「どんなツールでも同じ接続口で使える」ようにする仕組みです。</li>
<li><strong>エージェントRL（強化学習）</strong>: AIが実際に行動してフィードバックを受けて改善する訓練法。人間がゲームで少しずつ上達していく過程に似ています。</li>
<li><strong>ステートフル環境</strong>: 行動のたびに状況が変わる環境のこと。「予約を入れたら在庫が減る」のように、過去の行動が現状に影響する世界です。</li>
<li><strong>検証可能なタスク</strong>: 答えが正しいかをプログラムで自動判定できる課題。採点者がいらないので大量訓練に向いています。</li>
<li><strong>スケーリング則</strong>: 訓練環境を増やすほど性能が上がる法則。この研究では環境数を2,000まで増やすと平均スコアが倍以上になりました。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.18292</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep017_2604_18292/episode-OP1THzjG8BabdAcDxxPnaJ8UQsG0tX.mp3" length="9069164" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep017</guid>
      <pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>17</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#16 試着AIが4秒で返ってくる時代</title>
      <description>自撮り1枚で最大6点の服やバッグを着せ替え、しかも数秒で結果が返ってくる。タオバオが実際に数千万件をさばいている商用バーチャル試着AI「Tstars-Tryon」を読み解きます。なぜ200秒が4秒になったのか、そしてECの返品問題にどう効くのかを、ゆるっとおしゃべり。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items</li>
<li><strong>著者</strong>: Mengting Chen et al.（Taobao / アリババ Pailitaoチーム）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>自撮り写真に、最大6点の服・バッグ・帽子などを一気に着せ替えできる商用試着AI</li>
<li>他社モデルが200秒かかるところを、約4〜7秒で返すという桁違いのスピード</li>
<li>すでにタオバオで数千万件が実運用。ECの返品率問題に効く「現実解」になりつつある</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>バーチャル試着</strong>: ネットショッピングで、自分の写真に服を合成して「着た姿」を見られる技術のこと。</li>
<li><strong>MMDiT</strong>: 文章・人物画像・服の画像をひとつのAIの中でまとめて扱える新しい仕組み。従来は別々に処理していました。</li>
<li><strong>インペインティング</strong>: 画像の一部を隠して「そこだけ描き直す」やり方。従来の試着AIで主流でしたが、体型や背景がズレやすい弱点がありました。</li>
<li><strong>蒸留（CFG蒸留・ステップ蒸留）</strong>: 丁寧に時間をかけて描く大きなAIの知識を、短い手順でも同じ品質を出せる小さなAIに移すテクニック。高速化の鍵です。</li>
<li><strong>強化学習による仕上げ</strong>: 出力の「良い・悪い」をAIに教え込み、服のシワや姿勢の不自然さを減らしていく追加学習の工程。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.19748</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep016_2604_19748/episode-N7Atx8JzXQL9fexq17GfAEEjc56WSz.mp3" length="8902124" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep016</guid>
      <pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>16</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#15 AIの答えが金太郎飴になる正体</title>
      <description>ChatGPTのようなAIは、追加学習を経ると似たような答えしか返さなくなる「多様性崩壊」が起きます。今回は、その原因が学習のどの段階で生まれるのかを追跡した最新研究を紹介。ブレストや創作にAIを使う人、必聴の回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Where does output diversity collapse in post-training?</li>
<li><strong>著者</strong>: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras（University of Sheffield）</li>
<li><strong>発表</strong>: 2026年4月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIを「指示に従わせる学習」を重ねると、同じ質問への答えが似通っていく「多様性崩壊」が起きる</li>
<li>学習データの構成次第で、多様性が失われる段階も度合いも大きく変わることが判明</li>
<li>「考えるな」と指示しても多様性は戻らない。モデルの重みに焼き付いているので運用側の対策には限界がある</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>ポストトレーニング</strong>: ベースモデルに「丁寧に・指示通りに」答えるクセを追加で仕込む仕上げ工程のこと</li>
<li><strong>SFT（教師あり微調整）</strong>: お手本の回答を真似させる学習。お手本が偏るとモデルも偏ってしまう</li>
<li><strong>DPO（直接選好最適化）</strong>: 「こっちの答えの方が良い」という好みのペアデータでモデルを調整する手法</li>
<li><strong>多様性崩壊</strong>: 同じ質問への複数回答が似通ってしまい、バリエーションが消えてしまう現象</li>
<li><strong>pass@k / 多数決</strong>: 何度もサンプリングして良い答えを選ぶ手法。出力にバリエーションがあることが前提</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.16027</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep015_2604_16027/episode-reZPsCtU9UEBp2L6u01GaIHoMhhz6b.mp3" length="8767340" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep015</guid>
      <pubDate>Tue, 21 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>15</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#14 たった2ビットでAIの脳を破壊する攻撃</title>
      <description>数十億パラメータを持つAIモデルも、たった1〜2ビットを書き換えるだけで壊滅する——そんな衝撃的な攻撃手法「Deep Neural Lesion」を紹介します。訓練データも最適化計算も不要。自動運転や医療AIのセキュリティを根本から揺さぶる研究を、ゆいとかなでゆるく読み解きます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips</li>
<li><strong>著者</strong>: Ido Galil, Moshe Kimhi, Ran El-Yaniv (NVIDIA / Technion / IBM Research)</li>
<li><strong>発表</strong>: arXiv 2025年（2502.07408）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>数十億あるAIの重みのうち、たった1〜2ビットを反転させるだけでモデルが壊滅的に機能不全になる</li>
<li>攻撃者は訓練データも、モデルを動かすことすら必要ない。驚くほど軽量な手法</li>
<li>LLMの数学正解率が78%から0%に。自動運転や医療AIのセキュリティに直結する話</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>符号ビット</strong>: 数値の先頭1ビットで、プラスかマイナスかを決める部分。ここを反転させると値が正反対になる</li>
<li><strong>ビット反転攻撃</strong>: メモリ上のデータを1ビット単位で書き換える攻撃。物理現象やソフト侵入で起こりうる</li>
<li><strong>Rowhammer</strong>: メモリに高速アクセスを繰り返すと、隣のビットが勝手に反転してしまう現象を悪用した有名な攻撃手法</li>
<li><strong>プルーニング</strong>: AIから重要でない重みを削って軽くする技術。本研究はその逆で「重要な重み」を狙い撃つ</li>
<li><strong>誤り訂正符号（ECC）</strong>: データに冗長情報を足してビット反転を自動で直す仕組み。防御策として提案されている</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2502.07408</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep014_2502_07408/episode-1qBm4FaNNU42wH6XuqszLFWtUr948Y.mp3" length="9421100" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep014</guid>
      <pubDate>Mon, 20 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>14</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#13 AIへのヒントは「短く的確」が最強だった</title>
      <description>AIに難問を解かせるとき、ヒントは長いほど良い…と思っていませんか？実は「短く的確な一押し」のほうが学習効率も性能も上がることが分かりました。1.5Bという小さなモデルで数学推論の最高性能を叩き出した「KnowRL」という手法を、ゆいとかなでゆるく読み解きます。教育や業務指導にも通じる気づきが満載です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance</li>
<li><strong>著者</strong>: Linhao Yu, Tianmeng Yang, Siyu Ding et al.（天津大学、Baidu、中国科学院）</li>
<li><strong>発表</strong>: 2026年4月（arXiv）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIに難しい問題を解かせるとき、ヒントは「長く詳しく」より「短く的確に」のほうが効く</li>
<li>ヒントを少しずつ増やすと、ある瞬間に性能が急ジャンプする「クリティカル・セグメント効果」を発見</li>
<li>1.5Bという小さめのモデルで数学推論の最高性能を更新、エッジ活用の可能性も</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>知識ポイント（KP）</strong>: 問題を解くのに必要な「原子レベル」の数学的原理や定理の1単位。細かく分解したヒントのかけら。</li>
<li><strong>報酬スパースネス</strong>: 難問すぎてAIが全く正解できず、学習の手がかりが得られない状態のこと。</li>
<li><strong>クリティカル・セグメント効果</strong>: ヒントの量を増やしていくと、ある地点で性能が突然ジャンプし、それ以上は伸びなくなる現象。</li>
<li><strong>剪定の逆説</strong>: 不要そうなヒントを1つずつ削ると性能が上がるのに、まとめて削ると逆に下がる不思議な現象。</li>
<li><strong>CSS（制約付き部分集合探索）</strong>: 明らかに要らないヒントを削ぎ落とし、残った候補の組み合わせだけを全探索する効率的な選択手法。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.12627</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep013_2604_12627/episode-0KdCorORemZtWFmJ3loStRVgrx0T1n.mp3" length="7950572" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep013</guid>
      <pubDate>Sun, 19 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>13</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#12 AIはまだゲーム初心者にも勝てない</title>
      <description>今回は「AIは画面を見ながらゲームをプレイできるのか？」を公平に測るベンチマーク「GameWorld」を紹介。最新のGPT-5やGemini-3、Claudeを同じ土俵で比較したら、人間の初心者にすら大きく及ばない現実が明らかに。AIエージェントの今と課題が見えてくる回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents</li>
<li><strong>著者</strong>: Mingyu Ouyang et al.（シンガポール国立大学・オックスフォード大学）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>ブラウザで遊べる34種類のゲーム・170タスクで、最新AI18種を同じ条件で評価する仕組みを作った</li>
<li>トップのGemini-3でもタスク進捗41.9%・クリア率21.2%で、人間の初心者（進捗64.1%）にすら届かない</li>
<li>「記憶を増やすほど賢くなる」とは限らず、操作履歴がノイズになってAIの性能が落ちる現象も発見</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>マルチモーダルAI</strong>: 文章だけでなく画像も同時に理解できるAI。GPT-5やGemini、Claudeなどが代表例です。</li>
<li><strong>Computer-Use Agent (CUA)</strong>: 人間と同じように「座標をクリック」「キーを押す」といったレベルでPCを操作するAIのこと。</li>
<li><strong>汎用型エージェント</strong>: 「ジャンプ」「右に動く」のように意味の単位で指示を出すAI。座標計算は別の仕組みが担当します。</li>
<li><strong>状態検証型評価</strong>: ゲーム内部のデータを直接読み取って成否を判定する仕組み。画面認識のあいまいさを排除できます。</li>
<li><strong>進捗度（Progress）</strong>: 完全クリアできなくても「どこまで近づけたか」を0〜1で表す指標です。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.07429</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep012_2604_07429/episode-WYAc27q6UvSYfGQstUMp4w3T13Zgku.mp3" length="9457964" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep012</guid>
      <pubDate>Sun, 19 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>12</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#11 AIに「採点理由」を語らせたら画像生成が激変した</title>
      <description>今回は画像生成AIの「採点係」を賢くする研究を紹介します。点数だけじゃなく「なぜその点数か」を語らせることで、生成AIの品質が一気に向上。さらに驚くのは、モデルを再訓練しなくても、プロンプトを書き直すだけで同等の改善が得られるという結果。AIを使いこなすヒントが詰まった回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time</li>
<li><strong>著者</strong>: Haozhe Wang, Cong Wei, Weiming Ren et al.（香港科技大学、ウォータールー大学、アリババ）</li>
<li><strong>発表</strong>: arXivプレプリント, 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>画像生成AIの「採点係」に点数だけでなく理由を語らせると、生成品質が大きく改善する</li>
<li>再訓練せずとも、批評してプロンプトを書き直すループだけでRL訓練と同等の効果が出る</li>
<li>「AIは既に良い出力を出せる力を持っていて、プロンプト次第で引き出せる」という潜在能力仮説を提示</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>報酬モデル</strong>: 生成AIの出力がどれだけ良いかを採点するAI。この点数を使って生成AIを訓練します</li>
<li><strong>リワード・ハッキング</strong>: 生成AIが「本当に良い画像」ではなく「採点係が高得点をつけやすい画像」を作るようになってしまう現象</li>
<li><strong>Generate-Critique-Refine ループ</strong>: 生成→批評→プロンプト改良→再生成、という繰り返しで、モデル自体を鍛えずに出力を改善する仕組み</li>
<li><strong>PARROT</strong>: 「AとBどちらが好き」という選好データから、理由付きの採点データを自動で作り出す訓練パイプライン</li>
<li><strong>潜在能力仮説</strong>: 生成AIは既に高品質な出力を出す能力を持っているが、プロンプトが曖昧で発揮できていないだけ、という考え方</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.11626</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep011_2604_11626/episode-v4JG41stBjLDQI3yZSwyeGUBFAaDLZ.mp3" length="9242540" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep011</guid>
      <pubDate>Sat, 18 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>11</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#10 スマホを操るAIを誰でも作れる時代へ</title>
      <description>人間のようにスマホをタップ・スワイプして操作してくれるAI、通称「GUIエージェント」。今回は訓練から評価、実機運用までを一気通貫で公開したオープンソース基盤「ClawGUI」を読み解きます。小さなモデルが巨大モデルを超えた秘密とは？ビジネス応用の可能性もゆるくおしゃべり。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents</li>
<li><strong>著者</strong>: Fei Tang, Zhiqiong Lu et al.（浙江大学）</li>
<li><strong>発表</strong>: 2026年4月（arXiv）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>スマホ画面をタップ・スワイプで操作するAI「GUIエージェント」を、訓練・評価・実機運用まで丸ごとオープンソース化</li>
<li>1ステップごとに採点する仕組みで、2Bの小さなモデルが36倍大きい72Bモデルを上回る成功率を達成</li>
<li>LINEやSlack感覚でスマホを遠隔操作できる時代が現実に。APIのない業務アプリが多い日本でも応用が広がりそう</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>GUIエージェント</strong>: 人間と同じように画面を見て、タップやスワイプでアプリを操作するAI。APIがないアプリにも対応できます。</li>
<li><strong>オンライン強化学習</strong>: AIが実際に試行錯誤しながら「うまくいった行動」を学んでいく方式。現場で経験を積むイメージです。</li>
<li><strong>Process Reward Model (PRM)</strong>: 最終結果だけでなく、途中の一手一手に点数をつける仕組み。将棋の棋譜検討に近い発想です。</li>
<li><strong>GiGPO</strong>: 一連の操作を場面ごとにグループ分けして、どの場面のどの手が良かったかを細かく評価するアルゴリズム。</li>
<li><strong>再現率</strong>: 他の論文の数字を同じ条件でやり直したときに再現できた割合。研究の信頼性を支える基礎的な指標です。</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.11784</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep010_2604_11784/episode-wVGciyKTJSiz2tkkL0nTI8L86Wh0zr.mp3" length="9168812" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep010</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>10</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#9 AIの「検算」が100分の1のデータで賢くなった理由</title>
      <description>AIが数学の問題を解くとき、その答えが本当に正しいかを「採点」するAIがいます。でも従来の採点係AIは大量の教師データが必要でした。今回紹介する論文では、採点係AI自身に「考えさせる」ことで、わずか1,000件のデータで従来の100倍のデータを使ったモデルを超える精度を実現。数学だけでなく科学やコードにも応用できるこの技術、ビジネスでのAI活用にも大きなヒントがあります。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Process Reward Models That Think</li>
<li><strong>著者</strong>: Muhammad Khalifa et al.</li>
<li><strong>発表</strong>: 2025年4月（arXiv初出）、2025年12月更新</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIの解答を「ステップごとに採点するAI」に自分でも考えさせたら、精度が大幅アップした</li>
<li>必要な学習データはたった約1,000件。従来の100分の1以下のコストで、より高性能な採点係AIが作れる</li>
<li>数学で学習しただけなのに、科学やプログラミングの検証にも使える汎用性の高さがすごい</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>PRM（プロセス報酬モデル）</strong>: AIの解答を最終結果だけでなく、途中のステップごとに正しいかどうか採点する仕組みのこと</li>
<li><strong>Chain-of-Thought（思考の連鎖）</strong>: AIが答えにたどり着くまでの考えた過程を文章として書き出したもの。人間でいう途中式やメモ書きにあたる</li>
<li><strong>LLM-as-a-Judge</strong>: 汎用AIをそのまま「審判役」として使うアプローチ。専用の訓練なしで手軽だが、精度や安定性に課題がある</li>
<li><strong>Best-of-N</strong>: 同じ問題に対してN個の解答を生成し、一番良いものを選ぶ手法。選ぶ役の精度が結果を大きく左右する</li>
<li><strong>合成データ</strong>: AIが自動生成したデータのこと。人手で作る代わりにAIに生成させ、品質の良いものだけを選別して訓練に使う</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2504.16828v5</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep009_2504_16828v5/episode-VCZ7O5ixKHSGO5Mas8ousYHJWguktF.mp3" length="10334060" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep009</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>9</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#8 AIに「失敗の記憶」を持たせたら同じミスを繰り返さなくなった</title>
      <description>AIが強化学習で賢くなる過程で、同じ間違いを表現だけ変えて何度も繰り返してしまう問題、気になりませんか？今回は、過去の失敗パターンを記憶してペナルティを与える新手法「MEDS」を紹介します。数学の正答率が最大17%向上し、解き方の多様性もアップ。チャットボットやコード生成AIの「悪い癖」を直すヒントが詰まった回です。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping</li>
<li><strong>著者</strong>: Yang Liu et al.（復旦大学・上海イノベーション研究所）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIが同じタイプの間違いを繰り返す「エラー崩壊」という問題に、過去の失敗を記憶させるアプローチで挑んだ</li>
<li>モデル内部の計算データを"推論の指紋"として再利用し、ほぼ追加コストゼロで失敗パターンを分類できる</li>
<li>数学ベンチマークで正答率が最大17%向上しつつ、解き方のバリエーションも増えた</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>強化学習</strong>: AIに「良い結果には報酬、悪い結果にはペナルティ」を与えて行動を改善させる学習方法。ゲームや数学の問題解きでよく使われます</li>
<li><strong>ロジット</strong>: モデルが次の単語を選ぶときの「各候補の有力度スコア」。モデル内部の計算過程で自然に生まれるので、追加の計算なしに取り出せます</li>
<li><strong>HDBSCAN</strong>: データの密集具合を見て自動的にグループ分けする手法。グループの数を事前に決めなくていいのが特長です</li>
<li><strong>報酬シェーピング</strong>: AIに与える報酬の設計を工夫して、望ましい行動をより効率的に学ばせるテクニック</li>
<li><strong>pass@k</strong>: k回答を生成したうちに少なくとも1回正解が含まれる確率。AIの問題解決力を測る指標です</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.11297</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep008_2604_11297/episode-oZLqKBaR2J9P62mwt9Ht6Y2qFlTfqb.mp3" length="11831084" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep008</guid>
      <pubDate>Thu, 16 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>8</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#7 AIが「意味のない単語」をガン見してしまう現象の正体</title>
      <description>ChatGPTなどのAIモデルが、文頭の記号や改行など意味のないトークンに注意力の大半を集中させてしまう「Attention Sink」という不思議な現象。今回は180本以上の研究を初めて体系的にまとめたサーベイ論文を取り上げ、なぜこの現象が起きるのか、AIのコスト削減や信頼性向上にどうつながるのか、最新の対策技術まで丸ごと解説します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation</li>
<li><strong>著者</strong>: Zunhai Su et al.（清華大学、香港大学、Meituan LongCat Team 他）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIが文頭の記号など「意味のない場所」に注意力の大半を吸い取られる「Attention Sink」という現象が、ハルシネーションやコスト増大の一因になっている</li>
<li>この現象は「どこにも注目しない」という選択肢がないAIの仕組み上の制約が原因で、モデルが情報の混ざりすぎを防ぐ"自衛手段"でもあった</li>
<li>ゲート付き注意機構や改良Softmaxなどの対策技術が急速に進み、Qwen3など最新の商用モデルにもすでに採用されている</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>Attention Sink（注意の吸い込み口）</strong>: AIが文章や画像を処理するとき、意味のないトークンに注意力の大部分が吸い取られてしまう現象。文頭の記号などが「排水口」のような役割を果たしてしまう</li>
<li><strong>Softmax</strong>: AIの注意スコアを「合計1」の確率に変換する関数。「どこにも注目しない」という選択肢がないため、余った注意が意味のないトークンに流れ込む原因になっている</li>
<li><strong>KVキャッシュ</strong>: AIが文章を生成するときに過去の情報を一時保存するメモリ領域。長い文章を扱うほどメモリが膨れ上がるため、Attention Sinkの仕組みを使った圧縮技術が注目されている</li>
<li><strong>Gated Attention（ゲート付き注意機構）</strong>: 注意の出力に「門番」を設けて、不要な注意をゼロにできるようにした改良版の仕組み。注意の集中を46.7%から4.8%まで減らせたという結果が報告されている</li>
<li><strong>ハルシネーション</strong>: AIがもっともらしいウソを生成してしまう現象。見るべきところを見ずに回答してしまうAttention Sinkがその一因とされている</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.10098</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep007_2604_10098/episode-gBqPWqEQGAxvRTvVgQK2UW3N2iiFBw.mp3" length="11981420" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep007</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>7</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#6 小さなAIでも名医になれる？推論を見守る&quot;審判役AI&quot;の正体</title>
      <description>今回は、AIが医療問題を解くときに「途中の推論ステップ」をリアルタイムで監視・軌道修正する&quot;審判役AI&quot;の研究を紹介します。モデル本体を一切変えずに外側から制御するだけで、小型モデルの正答率がほぼ倍になるという驚きの結果も。AIの運用コストや医療現場への展開可能性まで、ビジネス視点でもわかりやすく解説します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Process Reward Agents for Steering Knowledge-Intensive Reasoning</li>
<li><strong>著者</strong>: Jiwoong Sohn, Tomasz Sternal, Kenneth Styppa et al.（ETH Zürich / Heidelberg University）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIの推論を「最後にまとめて採点」するのではなく、1ステップごとにリアルタイムで監視・評価する"審判役AI"（PRA）を導入した</li>
<li>推論AI本体には一切手を加えず、外側からの制御だけで小型モデル（4Bパラメータ）が医療問題の正答率80%超えを達成した</li>
<li>訓練に使っていない別のモデルにもそのまま適用でき、最大25.7ポイントもの正答率アップを実現した</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>プロセス報酬モデル（PRM）</strong>: AIの推論を「途中経過の各ステップごと」に採点する仕組み。最終回答だけでなく、思考の過程そのものを評価する</li>
<li><strong>凍結ポリシー（Frozen Policy）</strong>: パラメータを一切変更しない推論AI。審判役AIはこの「凍結された」AIの外側から制御だけを行う</li>
<li><strong>ビームサーチ</strong>: 複数の推論候補を同時に進め、スコアの高いものだけを残していく探索手法。将棋の「読み」を複数同時に進めるイメージ</li>
<li><strong>RAG（検索拡張生成）</strong>: AIが回答する前に外部データベースから関連文書を検索し、それを参考にして回答を生成する手法</li>
<li><strong>マージンシフト</strong>: 外部文献を参照した場合としなかった場合で、AIの判断がどれだけ変わるかを測る指標。変化が大きいほど文献検索が有用だったことを示す</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.09482</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep006_2604_09482/episode-8BLg83ZFqiEgmLrq6wtceHpMHgrpUG.mp3" length="10031084" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep006</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>6</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#5 使うほど全員のAIが賢くなる「集合知スキル進化」の正体</title>
      <description>今回は、複数ユーザーの経験をAIが自動で集めて分析し、スキル（手順書）を夜のうちに改善して全員に配信するフレームワーク「SkillClaw」を紹介します。使えば使うほどAIが賢くなる仕組みの裏側や、6日間で性能が最大88%向上した実験結果、企業での活用可能性まで、ゆるく読み解いていきます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: SkillClaw: Let Skills Evolve Collectively with Agentic Evolver</li>
<li><strong>著者</strong>: Ziyu Ma et al.（DreamX Team）</li>
<li><strong>発表</strong>: 2026年4月（プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>ユーザーがAIを使った記録（成功・失敗）を自動で集めて、AIが自分でスキルの改善案を考えて書き直す仕組みがある</li>
<li>改善されたスキルはテストに合格したものだけが配信されるので、品質が下がらない一方通行の設計になっている</li>
<li>6日間の運用シミュレーションで、クリエイティブ生成タスクが相対88%向上するなど、使うほど全員のAIが賢くなることが確認された</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>スキル（Skill）</strong>: AIが特定のタスクをこなすための「手順書」のこと。APIの呼び方やツールの使い方がまとめられている</li>
<li><strong>Agentic Evolver（自律進化エンジン）</strong>: ユーザーの使用記録を分析して、スキルの改善案を自分で考えて作るAI。人間の指示なしで動く</li>
<li><strong>セッション軌跡</strong>: ユーザーとAIのやりとりの全記録。何を指示して、何が返ってきて、最終的にどうなったかの流れ</li>
<li><strong>集合的進化</strong>: 個々のユーザーの経験を集めて、全員で共有するスキルを継続的に良くしていくこと</li>
<li><strong>バリデーション</strong>: 改善したスキルを実環境でテストして、本当に良くなったか確認するプロセス。合格したものだけ配信される</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.08377v1</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep005_2604_08377v1/episode-KsUCBEJ6f0ayu2J10g8aqEZC9oRay8.mp3" length="9746540" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep005</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>5</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#4 あらゆるソフトをAIの練習場に変えるフレームワークの正体</title>
      <description>今回は「どんなソフトウェアでもAIエージェントの練習環境に自動変換できる」という驚きのフレームワーク・Gym-Anythingを紹介します。医療・金融・天文学など200種類のソフトにまたがる1万件超の実務タスクを自動で作り出す仕組みや、最強AIでも3割弱しか解けないというリアルな結果から、AIと人間の協業の未来を考えます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Gym-Anything: Turn any Software into an Agent Environment</li>
<li><strong>著者</strong>: Pranjal Aggarwal, Graham Neubig, Sean Welleck（カーネギーメロン大学）</li>
<li><strong>発表</strong>: 2026年4月（arXiv プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIがソフトウェアのテスト環境を自動で作り、別のAIがスクリーンショットで監査する「作成・監査ループ」がすごい</li>
<li>200種類のソフト・1万件超のタスクという桁違いのベンチマークが誕生し、AIの実力がリアルに測れるようになった</li>
<li>最強モデルでも達成率27.5%——AIに仕事を丸投げできる時代はまだ先だけど、小型モデルの急成長にも注目</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>Computer-Use Agent（CUA）</strong>: 人間のようにマウスやキーボードでパソコンを操作するAIのこと。画面を見てクリックやタイプを行い、ソフトウェアを使いこなすことを目指します</li>
<li><strong>作成・監査ループ</strong>: AIが環境を作り、別のAIがスクリーンショットなどの証拠でチェックして不備を指摘する品質管理の仕組み。施工者と検査員のような関係です</li>
<li><strong>提案→増幅（Propose-and-Amplify）</strong>: 高性能なAIが少数のお手本タスクを作り、安価なAIがそれを参考に大量のタスクを生成する二段階のデータ作成手法</li>
<li><strong>蒸留（Distillation）</strong>: 大きく高性能なAIの「解き方」を小さなモデルに学習させて性能を移す技術。大型モデルの知恵を圧縮して持ち運べるようにするイメージです</li>
<li><strong>GDP基盤のソフト選定</strong>: テスト対象のソフトを「その職業がどれだけ経済価値を生んでいるか」から逆算して選ぶ方法。経済的に重要なソフトを優先的にカバーします</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.06126v1</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep004_2604_06126v1/episode-f8qg5Kaxi5rmxbexE4j39INwEHRzb1.mp3" length="10558700" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep004</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>4</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#3 AIはサイコロを振れない？LLMの「ランダムのフリ」の正体</title>
      <description>今回は「AIは本当にランダムな数を出せるのか？」を徹底検証した論文を紹介します。ChatGPTやGeminiに「0から9をランダムに選んで」と頼むと、特定の数字に偏りまくることが判明。でも外から乱数を渡せば正しく使えるという意外な発見も。AIエージェント時代に知っておきたい、LLMの根本的な弱点とその回避策をゆるく解説します。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: The Illusion of Stochasticity in LLMs</li>
<li><strong>著者</strong>: Xiangming Gu et al.（Google DeepMind / シンガポール国立大学）</li>
<li><strong>発表</strong>: 2026年4月（プレプリント）</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>LLMに「ランダムな数を出して」と頼むと、どのモデルでもめちゃくちゃ偏る（7や42ばかり出てくる！）</li>
<li>外部から乱数を渡して「これを変換して」と頼むと、ちゃんと正確にできる。問題は乱数を"生み出す"こと自体にある</li>
<li>AIエージェントを実用化するなら「ランダム性は外から注入する」という設計がカギになりそう</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>サンプリング</strong>: 決められた確率のルールに従って、サイコロを振るようにランダムに値を選ぶこと</li>
<li><strong>一様分布</strong>: どの値も同じ確率で出る分布。公平なサイコロのイメージ</li>
<li><strong>適合度検定</strong>: 実際のデータが理論上の分布にどれくらい合っているかを数学的に判定する方法</li>
<li><strong>knowing-doingギャップ</strong>: 正しい答えを「知っている」のに、行動として「実行できない」ズレのこと。人間にもある現象</li>
<li><strong>疑似乱数生成器（PRNG）</strong>: 計算式で「ランダムっぽい」数列を作る仕組み。完全なランダムではないが実用上は十分使える</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.06543v1</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep003_2604_06543v1/episode-OeUTG6GkQIluMLYk5b7qwKP1aMXfkr.mp3" length="9826604" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep003</guid>
      <pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>3</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#2 AIそのものが「パソコン本体」になる未来がやってきた</title>
      <description>今回はAIモデルそのものをコンピュータとして動かす「ニューラルコンピュータ」という新しい概念を提案した論文を紹介します。動画生成AIにターミナルやデスクトップの操作を学習させ、OSなしで画面を生成・操作できるか検証した研究です。壮大なビジョンと「足し算すらできない」現実のギャップから、AIの今と未来が見えてきます。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: Neural Computers</li>
<li><strong>著者</strong>: Mingchen Zhuge et al.（Meta AI / KAUST）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>AIモデルの内部状態だけでCPU・メモリ・画面表示をすべてまかなう「ニューラルコンピュータ」という新概念が提案された</li>
<li>ターミナル版とデスクトップ版の2つのプロトタイプを構築し、操作に応じた画面変化の動画生成に成功した</li>
<li>算数の正答率が自力4%→ヒントあり83%と、「自分で考える」のではなく「教えてもらった答えを映す」段階であることも正直に示された</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>ニューラルコンピュータ（NC）</strong>: AIモデルの内部だけで計算・記憶・入出力をすべてまかなう、新しいコンピュータの考え方。OSやソフトウェアに頼らない</li>
<li><strong>完全ニューラルコンピュータ（CNC）</strong>: ニューラルコンピュータの理想の完成形。どんな計算もでき、自由にプログラムでき、動作が安定する状態を指す</li>
<li><strong>拡散モデル</strong>: ノイズから画像や動画を少しずつきれいにして生成するAI技術。最近の画像・動画生成AIの主流になっている</li>
<li><strong>リプロンプティング</strong>: AIへの指示文をより詳しく書き直すことで、出力の質を上げるテクニック。この研究では算数の正答率が4%から83%に跳ね上がった</li>
<li><strong>チューリング完全</strong>: 理論上どんな計算でもこなせる能力のこと。今のパソコンはこの性質を持っているが、ニューラルコンピュータはまだ到達していない</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.06425</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep002_2604_06425/episode-KrNzTDcNSJAeUDCR83qKEbl0x1l3tn.mp3" length="11965292" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep002</guid>
      <pubDate>Thu, 16 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>2</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
    <item>
      <title>#1 AIが40分で学会論文を書き上げる時代がやってきた</title>
      <description>今回は、実験メモを渡すだけでAIが学会投稿レベルの論文を自動で書き上げるフレームワーク「PaperOrchestra」を紹介します。5つの専門AIがオーケストラのように連携し、文献レビューから図表作成、推敲まで約40分でこなします。人間が書いた論文に迫る品質を実現したその仕組みと、研究・ビジネスへのインパクトをゆるく語ります。</description>
      <content:encoded><![CDATA[<p><strong>今回の論文</strong></p>
<ul>
<li><strong>タイトル</strong>: PaperOrchestra: A Multi-Agent Framework for Automated AI Research Paper Writing</li>
<li><strong>著者</strong>: Yiwen Song et al.（Google）</li>
<li><strong>発表</strong>: 2026年4月</li>
</ul>
<p><strong>このエピソードのポイント</strong></p>
<ul>
<li>実験メモを渡すだけで、5つの専門AIがチームを組んで約40分で学会レベルの論文原稿を自動生成する</li>
<li>トップ学会の採択論文200本で評価した結果、文献レビューの質で既存手法に50〜68%の勝率差をつけて圧勝した</li>
<li>論文執筆だけでなく、企画書や技術レポートなど「複雑な文書をAIチームで作る」という考え方がビジネスにも応用できる</li>
</ul>
<p><strong>キーワード</strong></p>
<ul>
<li><strong>マルチエージェント</strong>: 複数のAIがそれぞれ違う役割を持ち、チームとして連携して一つの仕事をこなす仕組み</li>
<li><strong>RAG（検索拡張生成）</strong>: AIが文章を作るときに外部の情報を検索して取り込むことで、でたらめな内容を減らす技術</li>
<li><strong>ベンチマーク</strong>: 手法の性能を公平に比べるための、共通のテスト問題集とルールのセット</li>
<li><strong>コンテンツリファインメント</strong>: AI査読者のフィードバックをもとに原稿を繰り返し修正して品質を高めていく推敲プロセス</li>
<li><strong>SxS評価</strong>: 2つの成果物を横に並べて「どちらが良いか」を直接比較する評価方法</li>
</ul>
<p><strong>論文リンク</strong></p>
<ul>
<li>論文URL: https://arxiv.org/abs/2604.05018</li>
</ul>]]></content:encoded>
      <enclosure url="https://rukaigcrtnxydaat.public.blob.vercel-storage.com/episodes/ep001_2604_05018/episode-kLi00XUWuv5XICY0zyWSOXp5d8qzDa.mp3" length="11446892" type="audio/mpeg"/>
      <guid isPermaLink="false">https://paper-cast.net/episodes/ep001</guid>
      <pubDate>Thu, 16 Apr 2026 00:00:00 +0000</pubDate>
      <itunes:episode>1</itunes:episode>
      <itunes:episodeType>full</itunes:episodeType>
    </item>
  </channel>
</rss>