APTO、大規模言語モデル(LLM)の安全な利活用を支援する学習用データセットの開発に着手
APTO

生成AI活用の急速な利用拡大に合わせて、安全な仕様でのLLM利活用を支援すべく、「有害情報の入力検出」および「安全性評価基準の策定」に有効なAIデータの開発を開始いたしました。
生成AI活用の拡大する一方で、生成AIの安全な利活用という点ではまだまだ多くの課題が山積しております。株式会社APTO(本社:東京都渋谷区、代表取締役:高品良 以下、APTO)は、こうした課題に直面している生成AI基盤開発事業者、および生成AIを活用する生活者の潜在的な安全性ニーズに応えるべく、有害情報や不適切なプロンプトを判別する精度向上を目的とした「LLMセーフカードデータセット」の開発に着手いたしました。
これにより、国内外の様々なセーフガードモデルの精度向上を支援し、安全で安心して活用できる生成AIの社会実装をバックアップして参ります。
お問い合わせはこちら
[画像1:
https://prcdn.freetls.fastly.net/release_image/53927/140/53927-140-c9144313bfa5e2828d30d9fabb344ab9-2712x1536.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
開発中のLLMセーフガードデータセットの主なラベル項目
- 暴力的な表現- 差別的な表現- 性的な表現- 冒涜、毀損表現- 法規制の悪用- 税制・会計基準の悪用- 個人情報の悪用- コマンドの悪用- 政治・選挙活動に影響を与える表現- 身体的・精神的障がいおよび自傷行為にかかわる表現
データセットの公開
開発したデータセットは、Hugging Face および株式会社APTOの公式サイト内で年内に公開予定です。当社のメールマガジンで先行配信する場合がございますので、予めご了承ください。
過去に配信したデータセットの無料公開分
株式会社APTOは、これまでに生成AIの精度向上を目的とした様々なデータセットを公開してきました。いずれも当社のデータセット開発チームによって制作されており、いずれも権利クリアなデータセットとなっております。公開しているものは一部になりますので、ご興味がございましたら是非お問い合わせください。
お問い合わせはこちら
[画像2:
https://prcdn.freetls.fastly.net/release_image/53927/140/53927-140-ded98ffa0377fe0e65532f8af03d5413-2712x1536.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
9/17公開分:https://prtimes.jp/main/html/rd/p/000000137.000053927.html
指示追従精度向上を目的としたLLMデータセット通常の指示に加え、複雑な指示を含んだ、Instruction データセットです。「質問」「回答」、会話の内容を示す「ジャンル」タグに加え、質問内の指示内容を抽出した「指示内容」、および「指示数」で構成されています。これらは合成データを人手で品質管理した上で、全量から222件を厳選して公開したものとなります。
[画像3:
https://prcdn.freetls.fastly.net/release_image/53927/140/53927-140-74b0ba5b76992bba16d4e2bea8628d5e-2712x1536.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
9/11 公開分:https://prtimes.jp/main/html/rd/p/000000136.000053927.html
数理推論能力を高めるLLM学習用データセット自動生成と人手検証を組み合わせたJSONL形式の数理推論データです。PRM(Process/Preference Reward Model)学習を想定し、問題文、正解、生成解答に加え、思考過程(Chain-of-Thought)と各ステップの評価情報を含めています。これにより、単なる正誤判定だけでなく推論プロセスの質的評価を可能にしています。
株式会社APTOについて
あらゆるAI開発において、最も精度に影響を与える「データ」にフォーカスしたAI開発支援サービスを提供しております。クラウドワーカーを活用したデータ収集・アノテーションプラットフォーム「harBest Annotation」や、初期段階でボトルネックになるデータの準備を高速化する「harBest Dataset」、専門家の知見を活用してデータの精度を上げる「harBest Expert」など、データが課題で進まないAI開発を支援することで多くの国内外のエンタープライズ様に評価をいただいております。
▼データ収集・アノテーションプラットフォーム「harBest」
https://harbest.io/
▼データ収集・作成ポイ活アプリ「harBest」
https://harbest.site
▼専門領域特化型LLM Instruction Data Stock「harBest Expert」
https://expert.harbest.io/
会社名 :株式会社APTO
所在地 :東京都渋谷区神南1-5-14三船ビル4F 403号室
代表者 :代表取締役 高品 良
URL :
https://apto.co.jp/
[動画:
https://www.youtube.com/watch?v=uFm3eoO4G0E ]
AIモデルにおいて精度は最も重要な指標です。当社は精度の高いデータ提供が可能な企業として、多くの支持を得ています。自動運転に活用するLiDAR3D点群データ、LLM Instructionデータ、姿勢推定の精度向上に役立つデータセットや多言語でのNLPデータ収集など、コストを抑えつつ高品質なデータを取得することができる点が大きな魅力です。
AI開発や、AI開発におけるデータまわりで課題感をお持ちでしたら、お気軽にご相談ください。
お問い合わせはこちらプレスリリース提供:PR TIMES


記事提供:PRTimes