その他 – とれまがニュース

経済や政治がわかる新聞社や通信社の時事ニュースなど配信

とれまが – 個人ブログがポータルサイトに!みんなでつくるポータルサイト。経済や政治がわかる新聞社や通信社の時事ニュースなど配信
RSS
製品 サービス 企業動向 業績報告 調査・報告 技術・開発 告知・募集 人事 その他
とれまが >  ニュース  > リリースニュース  > その他

カラクリ、日本企業初のComputer-Using Agent「KARAKURI VL」を公開 - コンピュータ操作を完全自動化できるAIエージェント

カラクリ株式会社

カラクリ、日本企業初のComputer-Using Agent「KARAKU

GENIAC2期で開発、日本語画像読解タスクで国内最高性能を達成


カスタマーサポートに特化したAIエージェントを提供するカラクリ株式会社(東京都中央区:代表取締役CEO 小田志門、以下カラクリ)は、日本企業として初めて※1 Computer-Using Agent(CUA)モデル「KARAKURI VL」の開発に成功しました。本モデルは、経済産業省・NEDOが推進する「Generative AI Accelerator Challenge(GENIAC)」第2期のプロジェクトを通して、日本のカスタマーサポート現場向けに最適化されたCUAを開発し、日本語画像読解タスクでは国内最高性能※2 を達成いたしました。さらに国際標準ベンチマーク「OSWorld」を日本語環境向けに独自翻訳・改良したベンチマークも開発し、日本語環境でのCUA評価基準を確立しました。

[画像1: https://prcdn.freetls.fastly.net/release_image/25663/122/25663-122-a8c74c047e616ebe97a02c21fe237334-1920x1080.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]



■Computer-Using Agent(CUA)とは
CUA(Computer-Using Agent)は、自然言語の指示でコンピュータ操作を完全自動化する次世代AI技術です。画面のスクリーンショットを視覚的に認識し、マウスクリックやキーボード入力をコマンドとして実行することで、人間と同様にあらゆるアプリケーションを操作できます。2024年10月のAnthropicによる「Computer Use」機能の発表、2025年1月のOpenAIによる「Operator」の発表により商用化が本格化。現在の最高性能モデルはOSWorldベンチマークで42.9点(人間の72.4点に対し約59%)※3 を記録しています。

■開発背景
CUA技術は急速に発展していますが、既存のモデルはすべて海外企業によって開発され、英語環境を前提としています。日本企業がCUAモデルを独自開発した例はこれまでありませんでした。特に以下の課題が存在していました
- 日本語UIの文字認識精度の低さ(縦書き、複雑な図表やインターフェイスが含まれる日本語の認識)- 日本独自のビジネスアプリケーションへの対応不足- 日本語での指示理解と実行精度の問題- 日本語環境でのCUA性能を適切に評価するベンチマークの不在
カラクリは、これらの課題を解決するために、日本市場に最適化された独自のCUAモデルの開発に着手しました。

■KARAKURI VLについて
KARAKURI VLはQwen2.5-VLをベースにして、日本語環境に特化したComputer Using Agent向けのVision Languageモデルです。AWS Trainiumを用いて開発された公開事例の中では世界初※4 のQwen-2.5-VL大規模Vision Languageモデルになります。

本モデルの開発は、日本のカスタマーサポート現場が直面する課題を解決することを目的としています。顧客からの問い合わせに対応しながら、複数のシステムを操作し、マニュアルを参照し、適切な回答を作成するという複雑な業務フローをAIが自動化できるよう設計されました。

デモ動画:

[動画: https://www.youtube.com/watch?v=sGji8XcDdYY ]
1080p以上での視聴をおすすめいたします。画質アイコン(歯車マーク)から選択できます。

【技術的特徴】
[表: https://prtimes.jp/data/corp/25663/table/122_1_c25fef52da4eddbcb1294a1d0fbb1585.jpg?v=202507091017 ]

【日本語画像読解タスクの性能評価】
国産で10B~30B帯のオープンモデルに加えて、ベースモデルとして使用したQwen2.5-VL-32B、10B~30B帯の代表的なモデルであるLlama3.2-11B、Gemma3-27Bを、以下3つのベンチマークで評価した結果一覧(2025年6月時点)
[画像2: https://prcdn.freetls.fastly.net/release_image/25663/122/25663-122-8a2847e6bf979e80b65cf5ae4f519472-1501x576.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]



【公開URL】
対話型モデルと推論モデルの2つを公開しております。

対話型モデル
https://huggingface.co/karakuri-ai/karakuri-vl-32b-instruct-2507

推論モデル
https://huggingface.co/karakuri-ai/karakuri-vl-32b-thinking-2507-exp

デモ環境
https://vl.karakuri.cc/
※デモは期間限定で予告なく閉じる場合がござます。予めご了承ください。
■独自ベンチマーク開発
開発にあたっては、国際標準ベンチマークOSWorldの日本語版(OSWorld-JP)を独自に作成いたしました。これは単なる翻訳作業ではなく、約400のタスクを日本の業務環境に合わせて改変し、日本語環境でのCUA評価の新たな基準を確立したものです。この成果は2025年5月に人工知能学会が主催する「JSAI2025」で発表し、オープンソース化しております。
JSAI2025の発表内容:https://confit.atlas.jp/guide/event/jsai2025/subject/3Win5-56/advanced
OSWorld-JP:https://github.com/karakuri-ai/OSWorld-JP

開発過程では、全社員が一丸となってOSWorldベンチマークの日本語化に取り組み、日本独自の業務環境を反映した評価基準を確立しました。この取り組みにより、日本語環境でのCUA性能を正確に測定し、改善していく基盤が整いました。
■今後の展望
現在のモデルでは、まだ実用面での課題が多いのも事実です。コンピュータの操作権限を与えることによる暴走リスク、プロンプト作成に専門知識が必要な点、各社独自ツールへの対応の困難さなどが浮き彫りになりました。カラクリは以下の技術革新により、これらの課題解決を進めます。

【技術】
オムニモーダル化による直感的インターフェース
現在の画像+テキストのみの対応から、音声も含むオムニモーダルモデルへと拡張します。これによりプロンプト入力の手間をなくし、インタラクティブでより直感的な体験を実現。特にカスタマーサポート領域では音声対応により適応可能な範囲が大幅に広がります。

強化学習による性能革新
今回公開したKARAKURI VLでも、DeepSeek R1やOpenAI Operatorなど、強化学習により飛躍的な性能向上を実現した事例を参考に強化学習を実施しております。今後はより大規模な強化学習を実施し、「OSWorld-JPベンチマークでの大幅なスコア向上」「企業環境での自律的な問題解決能力の獲得」を目指してまいります。


【実用化に向けたカスタマイズ】
ガードレール技術の高度化
生成AIの能力拡張では「できないこと」を明確に定義することが重要です。従来のテキスト処理では単純な入出力監視で十分でしたが、汎用的なツール使用権限を持つAIエージェント時代には対応しきれません。ルールベースでの行動制限と画像認識を使った監視を組み合わせ、生成AIの入出力を監視して行動をブロックしたりアラートを出す高度なガードレールの設置が必要です。

ベースモデルに企業固有の操作パターンを学習
ベースモデルは汎用的なコンピュータ操作を学習しただけのため、各企業で活用するには過去のオペレーター操作やAI自身の試行錯誤を通じて企業環境を深く学習することが必要になります。ツールのテスト環境での試行錯誤を繰り返し、ベテランオペレーターレベルに成長させます。
※1 カラクリ社調べ(2025年6月調査・オープンソースおよびインターネットで情報公開されている国産LLMとして)
※2 JDocQA (Acc)・JMMMU・Heron 3つのベンチマークを使用して2025年6月に日本語画像読解タスクを評価
※3 2025年7月3日時点のリーダーボードより引用 https://os-world.github.io/
※4 カラクリ社調べ(2025年6月時点・AWS Trainium上で学習した公開されている事例の大規模VLモデルとして)


▶ 会社概要
カラクリは「FriendlyTechnology」というビジョンを掲げ、大規模言語モデル(LLM)のカスタマーサポートへの実用化を目指すAIスタートアップです。2018年からはトランスフォーマーモデルであるBERTの研究を開始し、2022年からはGPTを含む大規模言語モデルの研究に取り組んでいます。また当社のSaaS事業で提供するカスタマーサポート向けAIシリーズは、高島屋、SBI証券、セブン-イレブン・ジャパン、星野リゾートなど、各業界のトップ企業に選ばれ続けています。

【主な実績】
・2018年  ICCサミット「スタートアップ・カタパルト」入賞
・2020年  Google for Startups Accelerator2020に採択
・2022年  Google for Startups Growth Academy Tech 2022に採択
・2023年 AWS LLM開発支援プログラムに採択
・2024年 生成AI実用化推進プログラムに認定
・2024年  Meta社 完全招待制の生成AI開発者会議に参加
・2024年 経産省「GENIAC」に採択

住所   : 〒104-0045 東京都中央区築地2-7-3 Camel 築地 II 5F
設立   : 2016年10月3日
代表者  : 代表取締役CEO 小田 志門
事業内容 : AIアルゴリズムの研究開発、カスタマーサポート特化型AI「KARAKURI」シリーズの開発・提供・運営など
URL   : https://about.karakuri.ai/

プレスリリース提供:PR TIMES

カラクリ、日本企業初のComputer-Using Agent「KARAKU

記事提供:PRTimes

記事引用:アメーバ?  ブックマーク: Google Bookmarks  Yahoo!ブックマークに登録  livedoor clip  Hatena ブックマーク  Buzzurl ブックマーク

ニュース画像

一覧

関連ニュース

とれまがマネー

とれまがマネー

IR動画

一覧

とれまがニュースは、時事通信社、カブ知恵、Digital PR Platform、BUSINESS WIRE、エコノミックニュース、News2u、@Press、ABNNewswire、済龍、DreamNews、NEWS ON、PR TIMES、LEAFHIDEから情報提供を受けています。当サイトに掲載されている情報は必ずしも完全なものではなく、正確性・安全性を保証するものではありません。当社は、当サイトにて配信される情報を用いて行う判断の一切について責任を負うものではありません。

とれまがニュースは以下の配信元にご支援頂いております。

時事通信社 IR Times カブ知恵 Digital PR Platform Business Wire エコノミックニュース News2u

@Press ABN Newswire 済龍 DreamNews NEWS ON PR TIMES LEAF HIDE

Copyright (C) 2006-2025 sitescope co.,ltd. All Rights Reserved.