Qlean Dataset、「日本語・2話者・科学テーマトーク音声コーパスデータセット」を提供開始
Visual Bank株式会社

~GENIAC採択企業のVisual Bank、科学・技術領域の対話音声データでASR・対話理解・生成AI基盤開発を支援~
[画像1:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-ad58f1ed404bae1b1e8ba2b5639ecbd3-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・2話者・科学テーマトーク音声コーパスデータセット』の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』の新たな1ラインナップとして拡充されたもので、音声認識(ASR)や対話理解、自然言語処理(NLP)、生成AI基盤など、音声対話AI領域の研究・開発に活用できます。
収録されているのは、科学分野の概念や現象について、2者が質問や補足、比較、例示を交えながら語り合う日本語の対話音声です。発話の切り替わりや相互説明を含む構成となっており、一問一答型の発話にとどまらない、理解を前提とした対話構造が含まれています。
また、台本に依存せず自然な流れで会話が進行するため、発話の重なりや言い換え、説明の深掘りといった、実際の対話に近い要素を含んでいます。複数の科学テーマが連続して扱われる長時間の対話音声も収録されています。
こうしたリアルな対話シーンをもとに収録されていることから、実運用に近い条件でのモデル学習や精度検証に利用可能です。科学・技術分野における対話型AIや、専門知識を扱う説明支援AI、音声入力型の生成AIシステムなどにおいて、発話構造の把握や対話文脈の保持といった要件に対応します。
研究用途から商用利用を想定した開発まで、専門性を含む日本語対話音声を必要とする幅広いAI開発環境で活用できるデータセットです。
今回提供を開始する「日本語・2話者・科学テーマトーク音声コーパスデータセット」の概要
[表1:
https://prtimes.jp/data/corp/108024/table/118_1_d67ce475302b3903e2b69f89fb222a8d.jpg?v=202512170415 ]
「日本語・2話者・科学テーマトーク音声コーパスデータセット」のユースケースイメージ
- 科学分野における対話理解モデルの研究科学・技術テーマに関する2話者対話音声を用いて、発話交替や説明構造を含む対話理解モデルの学習および評価に活用できます。- 専門領域における音声言語処理研究専門用語や概念説明を含む日本語対話音声を用い、ASRやNLPモデルにおける専門領域対応性能の検証に利用できます。
- 対話型AI・音声アシスタントの高度化科学・技術分野の質問応答や説明対話を想定した音声対話AIの開発において、自然な対話構造を含む学習データとして利用できます。- 生成AIにおける音声入力インターフェース開発専門知識を含む対話音声を活用し、音声入力型の生成AIや知識提供システムにおける対話精度向上に寄与します。
- 教育向け音声対話教材・システム開発科学分野の説明や質疑応答を含む対話音声を活用し、教育支援向けの音声対話型システムや教材開発に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:
https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:
https://qleandataset.visual-bank.co.jp/lineup
[画像2:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-4b3746111819a98850bbfe56fc72e581-1813x1116.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像3:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-4b7b14a440dfb8715d598aec7a9fc217-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像4:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-be0a4c0bea5d81a186173ffa59cede3c-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像5:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-7d2f7d123b4039d4eb7ffbbd37482792-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
- すべての被写体から同意取得- 既存データは最短1日で納品可能- カスタム撮影・収録・収集による独自データ構築にも対応
お問い合わせ
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:
https://visual-bank.co.jp/
アマナイメージズ企業URL:
https://amanaimages.com/about/
【Translation】
[画像6:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-aa5143ea68049d0b793d82f4ab2d9b3a-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Qlean Dataset Launches a Japanese Two-Speaker Science-Themed Conversational Speech Corpus
Two-Person Japanese Dialogue Audio for ASR, Conversational AI, and Scientific NLP
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai; hereinafter “Visual Bank”) has launched the “Japanese Two-Speaker Science-Themed Conversational Speech Corpus Dataset” as part of its AI training data solution, Qlean Dataset, operated through its subsidiary Amana Images Inc.
This dataset is part of the “AI Data Recipe” lineup offered by Qlean Dataset and is intended for research and development in speech-based AI, including automatic speech recognition (ASR), dialogue understanding, natural language processing (NLP), and generative AI models.
It contains Japanese conversational speech in which two speakers discuss scientific concepts and phenomena through explanations, questions, comparisons, and examples. The dialogues feature natural turn-taking and explanatory exchanges that extend beyond basic question-and-answer formats.
All recordings are unscripted and reflect real conversational flow, including overlapping speech, paraphrasing, and in-depth explanations. The dataset also includes long-form dialogues covering multiple scientific topics in sequence.
These characteristics make the dataset suitable for training and evaluating models under conditions close to real-world use, supporting applications such as scientific and technical conversational AI, explanation-focused AI systems, and speech-input-based generative AI.
The dataset is applicable to a broad range of AI development settings, from academic research to commercial implementation, where Japanese domain-specific conversational speech is required.
Overview of the “Japanese Two-Speaker Science-Themed Conversational Speech Corpus Dataset”
[表2:
https://prtimes.jp/data/corp/108024/table/118_2_b8feb676558f2005153d79d6b05fb5f7.jpg?v=202512170415 ]
Use Case Examples
- Research on dialogue understanding models in scientific domainsUsing two-speaker conversational speech on scientific and technical topics, the dataset can be applied to training and evaluating dialogue understanding models that incorporate speaker turn-taking and explanatory structures.- Specialized speech and language processing researchBy leveraging Japanese conversational speech that includes technical terminology and conceptual explanations, the dataset can be used to evaluate ASR and NLP model performance in specialized domains.
- Advancement of conversational AI and voice assistantsThe dataset can be used as training data for developing speech-based conversational AI systems designed for question-answering and explanatory dialogue in scientific and technical fields.- Development of speech-based interfaces for generative AIBy utilizing conversational speech that includes domain-specific knowledge, the dataset contributes to improving dialogue accuracy in speech-input-based generative AI systems and knowledge delivery applications.
- Development of educational voice-based dialogue systemsThe dataset can be used to develop educational support systems and teaching materials that incorporate conversational speech featuring scientific explanations and question-and-answer interactions.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports a wide range of data types, including images, videos, audio, 3D assets, and text, enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continues to expand its specialized, industry-focused lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps organizations establish AI development environments that are both legally compliant and risk-free.
▶ Qlean Dataset:
https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe:
https://qleandataset.visual-bank.co.jp/en/lineup
[画像7:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-c41ab1b91a19d513e4748e13306bbd97-1813x1116.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像8:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-808c8511b30874bc77c23014d66f0549-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像9:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-3d97082f00d699e13a9d19af091406fb-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像10:
https://prcdn.freetls.fastly.net/release_image/108024/118/108024-118-ac7731f3e7401ec8290a675ce112d884-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Key Features of Qlean Dataset
- Existing datasets deliverable within one business day- Custom data collection and recording services available
Contact
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building Next-Generation Data infrastructure to enhance AI development capabilities under the mission “Unlocking Data Accessibility.”
The company operates THE PEN, an AI-assisted creative tool for manga artists and the Qlean Dataset service.
Its subsidiaries include Amana Images Inc., one of Japan’s largest photostock providers; Qlean Dataset, which leads research and development in AI data; and THE PEN Inc., an AI-assisted creative tool for manga artists.
CEO: Saneyuki Nagai
Address: 6F, C-Cube Minami Aoyama Building, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo 107-0062
Corporate Site:
https://visual-bank.co.jp/en
Amana Images:
https://qleandataset.visual-bank.co.jp/en/company-overviewプレスリリース提供:PR TIMES





記事提供:PRTimes