その他 – とれまがニュース

経済や政治がわかる新聞社や通信社の時事ニュースなど配信

とれまが – 個人ブログがポータルサイトに!みんなでつくるポータルサイト。経済や政治がわかる新聞社や通信社の時事ニュースなど配信
RSS
製品 サービス 企業動向 業績報告 調査・報告 技術・開発 告知・募集 人事 その他
とれまが >  ニュース  > リリースニュース  > その他

フューチャー、ソフトウェア開発に関する世界最大規模の日本語インストラクションチューニングデータを公開

フューチャー株式会社

フューチャー、ソフトウェア開発に関する世界最大規模

大規模言語モデルとソフトウェア開発の研究に貢献


フューチャー株式会社(本社:東京都品川区、代表取締役会長兼社長 グループCEO 金丸恭文、以下フューチャー)は、大規模言語モデル(以下、LLM)と日本語によるソフトウェア開発領域の研究の発展を目的に、ソフトウェア開発に関するインストラクションチューニング(Instruction-Tuning)データを無償公開しました。公開したのは、シングルターン(※1)の日本語530万件、英語610万件、マルチターン(※1)の英語85万件のデータセットで、ソフトウェア開発に関する日本語インストラクションチューニングデータでは世界最大規模です。

◆公開URL◆
・シングルターン: https://huggingface.co/datasets/future-architect/Llama-3.3-Future-Code-Instructions
・マルチターン: https://huggingface.co/datasets/future-architect/Llama-3.3-Future-Code-Instructions-MT

LLMの開発には良質な学習データが不可欠です。特に、人がLLMに与える指示(Instruction)とそれに対する回答(Answer)のペアで構成されるインストラクションチューニングデータは非常に重要です。しかし、通常、これらのデータ構築には多額のコストが掛かるため、一般公開されている学習用データセットは少なく、かつ日本語に特化したソフトウェアに関するインストラクションチューニングデータも限られていることが同分野の研究開発における障害となっています。
当社は、2024年10月に経済産業省とNEDO(国立研究開発法人 新エネルギー・産業技術総合開発機構)が実施する国内生成AIの開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」(※2)に採択され「日本語とソフトウェア開発に特化した基盤モデル」の研究開発を行ってきました。今回公開したインストラクションチューニングデータは、本プロジェクトの研究過程においてベンチマークとしたLLMをもとに自動生成したものです。なお本インストラクションチューニングデータを活用し、GENIACのプロジェクトで開発した「Llama 3.1 Future Code Ja」(※3)は、様々なプログラミング言語において比較対象となるベースモデルに対し高い生成能力を実現し、特に日本語の指示によるソースコード補完能力に優れていることが確認できました。

フューチャーはテクノロジーをベースに、20社以上のグループ企業を展開するソーシャルデザインカンパニーとして、先端的なAIの学術研究・研究開発を強力に推し進めています。また、主要事業会社のフューチャーアーキテクト(本社:東京都品川区、代表取締役社長:谷口友彦)とともに、構想から実装まで一気通貫で支援するAI コンサルティングサービスを提供しています。
[画像1: https://prcdn.freetls.fastly.net/release_image/4374/789/4374-789-82a155da7c8b53b718416b4ec35fb8b9-1705x460.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


以下の出典をもとに当社作成
・Aratako/Synthetic-JP-EN-Coding-Dataset-801k https://huggingface.co/datasets/Aratako/Synthetic-JP-EN-Coding-Dataset-801k
・HachiML/alpaca_jp_python https://huggingface.co/datasets/HachiML/alpaca_jp_python


当社は世界最大規模のソフトウェア開発に関する日本語インストラクションチューニングデータを公開することで、日本語のソフトウェア開発の研究と発展に貢献していきます。今後も、「最先端のAI研究の推進」と「AI技術の社会実装」を強みに、AI利活用と社会実装のNo1 カンパニーを目指します。
[画像2: https://prcdn.freetls.fastly.net/release_image/4374/789/4374-789-85508774885671d8a62cf0d81d2ee481-1596x883.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


※1. シングルターンは質問と回答のペアで、一問一答形式となっているデータ。マルチターンは、 複数の質問応答のやり取りを含むデータ。
※2. GENIAC https://www.meti.go.jp/policy/mono_info_service/geniac/index.html
NEDO採択決定 https://www.nedo.go.jp/koubo/IT3_100331.html
<参考プレスリリース>GENIAC 採択「日本語とソフトウェア開発に特化した基盤モデル」を一般公開
https://www.future.co.jp/press_room/PDF/PressRelease_FC_GENIAC_20250609.pdf
※3. 「Llama 3.1 Future Code Ja」
https://huggingface.co/future-architect/Llama-3.1-Future-Code-Ja-8B

プレスリリース提供:PR TIMES

フューチャー、ソフトウェア開発に関する世界最大規模

記事提供:PRTimes

記事引用:アメーバ?  ブックマーク: Google Bookmarks  Yahoo!ブックマークに登録  livedoor clip  Hatena ブックマーク  Buzzurl ブックマーク

ニュース画像

一覧

関連ニュース

とれまがマネー

とれまがマネー

IR動画

一覧

とれまがニュースは、時事通信社、カブ知恵、Digital PR Platform、BUSINESS WIRE、エコノミックニュース、News2u、@Press、ABNNewswire、済龍、DreamNews、NEWS ON、PR TIMES、LEAFHIDEから情報提供を受けています。当サイトに掲載されている情報は必ずしも完全なものではなく、正確性・安全性を保証するものではありません。当社は、当サイトにて配信される情報を用いて行う判断の一切について責任を負うものではありません。

とれまがニュースは以下の配信元にご支援頂いております。

時事通信社 IR Times カブ知恵 Digital PR Platform Business Wire エコノミックニュース News2u

@Press ABN Newswire 済龍 DreamNews NEWS ON PR TIMES LEAF HIDE

Copyright (C) 2006-2025 sitescope co.,ltd. All Rights Reserved.