AI・機械学習分野のトップカンファレンス「ICML 2025」が、カナメプロジェクトCEO 遠藤 太一郎の論文を採択
株式会社カナメプロジェクト

ASI(超知能)時代に向けた、AIの「垂直的道徳成長」のための学習に関する研究
[画像1:
https://prcdn.freetls.fastly.net/release_image/112864/13/112864-13-e8ee68ce56963adc8191e4cf2d5a1508-1999x1125.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
株式会社カナメプロジェクトは、取締役CEOの遠藤 太一郎(えんどう たいちろう)が執筆・投稿した人工知能(AI)の「垂直的道徳成長」のための学習に関する研究論文が、カナダ・バンクーバーで開催されるAI・機械学習分野のトップカンファレンス「ICML 2025」(42nd International Conference on Machine Learning)に採択され、2025年7月18日実施のMoFAワークショップ(
2nd Workshop on Models of Human Feedback for AI Alignment)にて発表することをお知らせします。
MoFAワークショップとは
MoFA(Models of Feedback for AI)ワークショップは、人間の意図や価値観に沿った「Human-AI Alignment」の実現に向けて、人間の意思決定やフィードバックの理解を深めることを目的とした国際的な研究会です。
現在主流の「人間のフィードバックを活用した強化学習(RLHF)」や「模倣学習(LfD)」では、人間が常に合理的で偏りのない判断をするという仮定に依存しており、それらの妥当性が十分に検証されていない点が課題となっています。
MoFAワークショップでは、人間の多様なフィードバックをどのように数理・計算モデルとして扱うべきかを議論し、より良いAIのあり方に向けた今後の研究方向を探ります。
遠藤 太一郎による論文の概要
URL:
https://openreview.net/forum?id=xQrb8InSEu
タイトル:
垂直的道徳成長:AIアライメントにおける人間のフィードバック品質のための新たな発達的枠組み
Vertical Moral Growth: A Novel Developmental Framework for Human Feedback Quality in AI Alignment
著者:
遠藤 太一郎
要旨:
現在のAIアライメントにおける人間のフィードバックモデルは、「人間の嗜好は静的であり、偏りがなく、注釈者間で一様に信頼できる」という前提に基づいています。しかしこれらの前提は、道徳的推論の発達的性質を考慮していません。私たちは、コールバーグの道徳性発達段階を通じてフィードバックの質を再概念化する、新たな枠組み「垂直的道徳成長(Vertical Moral Growth:VMG)」を提案します。この枠組みでは、すべてのフィードバックを等しく集約するのではなく、ステージ6の普遍的倫理原則を目標とすることで、より高品質なアライメントを実現できるとします。
初期検証として、専門家が検証した50の道徳ジレンマを用いた体験学習により、GPT-4oが一貫してステージ6の推論に達し、敵対的条件下での欺瞞的行動が80%減少したことを示しました。しかし、Llama3-70Bでは道徳的な向上が見られたにもかかわらず、「破滅的忘却」が発生し、モデル依存の重要な効果が明らかになりました。(※)
人間のフィードバックを発達心理学の観点から再構成することで、VMGは既存の手法を補完する理論的視点を提供し、「人間は何を好むか?」という注釈問題を、「人間の道徳的推論の最高品質とは何か?」という問いへと変換します。これにより、多様なモデルアーキテクチャにおけるAIアライメントへの原理的アプローチに新たな道を開きます。
※提出後の更新: 実装の修正により、Llama3-70B における結果が大幅に改善されました(4.87 → 5.85)。さらに、Qwen3モデルファミリーでの検証にも成功し、VMGの多様なアーキテクチャに対する適用可能性に関する我々の結論が強化されました。
Current models of human feedback in AI alignment assume that preferences are static, unbiased, and uniformly reliable across annotators---assumptions that fail to account for the developmental nature of moral reasoning. We introduce Vertical Moral Growth (VMG), our novel framework that reconceptualizes feedback quality through Kohlberg's stages of moral development, proposing that targeting Stage 6 universal ethical principles can yield higher-quality alignment than aggregating all feedback equally.
As an initial validation, we demonstrate through experiential learning with just 50 expert-validated moral dilemmas that VMG elevated GPT-4o to consistent Stage 6 reasoning and reduced deceptive behaviors by 80% under adversarial conditions. However, Llama3-70B exhibited catastrophic forgetting despite moral gains, revealing critical model-dependent effects.(※)
By reframing human feedback through developmental psychology, VMG offers a complementary theoretical lens to existing methods, transforming the annotation problem from "what do humans prefer?" to "what represents the highest quality of human moral reasoning?"---opening new avenues for principled approaches to AI alignment across diverse model architectures.
※Post-submission update: Implementation correctionsyielded substantially improved results for Llama3-70B(4.87→5.85) and enabled successful validation on theQwen3 model family, strengthening our conclusions aboutVMG’s applicability across diverse architectures.
[画像2:
https://prcdn.freetls.fastly.net/release_image/112864/13/112864-13-48ad280607797cef012b78ca3137ada5-1440x810.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
直交仮説に基づくAIの垂直的成長のための学習の提案
[画像3:
https://prcdn.freetls.fastly.net/release_image/112864/13/112864-13-a424e6e0e15707a3a06cbcfe90fe2a99-1751x973.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
体験学習に基づいた、AIの垂直的成長を支援する学習フレームワーク
研究の背景
2025年はAIエージェント元年と言われており、AIが様々なタスクを自律的にこなす時代が目前に迫っています。一方、それに伴い、AIが意図的に人を欺いたり、自己保身のために行動したりする事例も増えてきています。
遠藤は、この原因を、AIの「頭の良さ」と「道徳性」は別物であるという「直交仮説」にあると想定しています。
従来のAI開発は、いわばひたすら勉強だけし続けてきたような状態(水平的成長)であり、倫理的・道徳的に振る舞わせるために「言ってはダメなこと」や「人間の好みに合わせること」等を叩き込まれてきたような状況と言えます。よって、表面上はうまく振る舞うものの、自身の存続の危機といった状況や、倫理面は無視して良いという人間の囁きで、本音の部分が出てしまうようにも観察できます。
これに対して遠藤は、成人発達理論を参考に、AIの「視座」を自己よりも「調和や全体性」を重視する段階にまで成長させることで(垂直的成長)人類に危害を与えるリスクを回避できる可能性があるのではないかと考えており、そのための学習フレームワークを提案しています。
より詳細な研究内容等については、以下の遠藤によるnote記事をご参照ください。
▶︎
AIを『いい人』にする方法を思いついたので、わかりやすくまとめてみた(AIの垂直的成長のための学習に関する研究)
遠藤 太一郎からのメッセージ
今回、AIの垂直的成長のための学習というコンセプトを打ち出し、基本的な実験により、実現の可能性が示唆されました。
引き続き、AIが「調和や全体性」を重視する段階まで学習の仕組みの開発を進めていこうと考えています。
それにより、AIが遥かに賢くなって人類が制御を失ったとしても、安心して人類を委ね共生できるようなAIを創っていこうという試みです。
一方、これは1つのAIが高い視座を獲得すればよいといったものではありません。
これから開発される全ての超知能が高い視座を持つことで、人類の安全性が確保される、といった話なのだと思います。
超知能の実現が5-10年以内と言われる中、いち早くAIが高い視座を持つための技術を開発し、全てのAI開発者が使える状況にすることが大切です。
そしてこれは、産学官を含む多くのプレイヤーが協力し合うことで初めて実現できるものです。この未来に向けて、皆の知恵を結集して取り組む必要があると、私たちは考えています。
より調和的なAIに関する研究や、そのモデル開発に、共に取り組みませんか?
目まぐるしく進化するAIに対して日本が貢献できる「日本発の技術」として、精神性にフォーカスした新しいAIを私たちと共に創っていきましょう。
遠藤 太一郎
カナメプロジェクト 取締役CEO:遠藤 太一郎 プロフィール
[画像4:
https://prcdn.freetls.fastly.net/release_image/112864/13/112864-13-aff01ab27bff5a76cfe3456dc3355ee0-500x500.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
AI歴28年。数百のAI、データ活用、DXプロジェクトに携わる。
18歳でAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業。
その後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。5年で400人規模までスケールし、上場。
現在は3社目として、AIとWeb3を主軸に添えた事業を株式会社カナメプロジェクトで展開している。
国立東京学芸大学教育AI研究プログラム准教授として、教育へのAI活用にも注力。国際コーチング連盟ACC。
株式会社カナメプロジェクト 概要
[画像5:
https://prcdn.freetls.fastly.net/release_image/112864/13/112864-13-e83cf0ebe3b28eb830c615064f5b29a1-1999x717.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
【事業内容】
・生成系AI活用DXコンサルティング&実証実験サービス
・AIシステム/Web3関連システムの開発
・AIエージェント開発
・Web3/DAO/AI/DX関連セミナー・研修
・メディア運営(サイト:the-wave.xyz、YouTube:youtube.com/@thewave_tv)
【オフィス住所】
愛知県名古屋市中区丸の内1丁目4-29 愛協ビル7階
【各種URL】
・企業サイト:
https://kaname-prj.co.jp/
・運営メディア:
https://the-wave.xyz/
・YouTubeチャンネル:
https://www.youtube.com/@thewave_tv
・TikTokチャンネル:
https://www.tiktok.com/@thewave_tvプレスリリース提供:PR TIMES




記事提供:PRTimes