Qlean Dataset、「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」を提供開始
Visual Bank株式会社

~GENIAC採択企業のVisual Bank、スポーツ領域の対話音声データで音声認識・対話AI開発を支援~
[画像1:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-ecad7ce28ae1210fd4acaa554c2ff07a-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、ASR(自動音声認識)、NLP(自然言語処理)、LLMなどの音声・言語系AI開発に向けた「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』に新たに加わるもので、スポーツや競技をテーマに、日本人の男女2名が対話形式で語り合う日本語音声と、その発話内容を忠実に書き起こしたトランスクリプトを収録しています。競技経験の共有や試合の振り返り、戦術や記録に関する意見交換、観戦時の感想など、スポーツ領域における多様な話題が自然な会話として展開されます。
収録は台本による制御を行わず、話者同士が自由なテンポで意見や体験を交わす対話を前提としています。これにより、話者交替や相づち、発話の重なりを含む実際の会話構造を反映した音声データとなっており、音声認識や対話処理など、実運用を想定した音声・言語系AIの研究・開発用途での利用を想定しています。
Qlean Datasetでは、研究用途から商用開発までを見据え、権利処理や利用条件を整理したAI開発用データを提供しています。本データセットもその一環として、スポーツ領域に即した日本語対話データを用いた検証環境の整備を目的に提供されます。
今回提供を開始する「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」の概要
[表1:
https://prtimes.jp/data/corp/108024/table/128_1_2571b223ecc5e9a99ffad1af69500801.jpg?v=202601161215 ]
「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」のユースケースイメージ
- 対話型音声認識モデルの評価・分析日本語ASR研究において、2話者による自然対話音声を用い、話者交替や発話の重なりを含む条件下での認識精度や誤り傾向の分析に利用できます。- 対話理解・談話構造研究スポーツに関する意見交換や説明が連続する対話データを用い、発話意図推定や談話構造解析、対話単位の区切りに関する研究に活用できます。
- 音声入力型対話AI・ボイスアシスタント開発スポーツ情報提供やユーザー対話を想定した音声インターフェースにおいて、実際の会話に近い対話音声を用いた認識・応答モデルの検証に利用できます。- コールセンター・対話ログ解析技術の検証2話者間で自然に進行する会話構造を活用し、発話分離や話者ターン検出など、音声対話解析技術の事前検証に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:
https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:
https://qleandataset.visual-bank.co.jp/lineup
[画像2:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-39343816c7af5fca86ea15012b473f2e-1813x1116.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像3:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-7dce3c35ed829ed15b4afcc86d94c7e8-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像4:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-1ab63c8216c4ca355e146c0e1f31da21-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像5:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-06adc6c7f13612b978862f8b8ac69738-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
- すべての被写体から同意取得- 既存データは最短1日で納品可能- カスタム撮影・収録・収集による独自データ構築にも対応
お問い合せ
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:
https://visual-bank.co.jp/
アマナイメージズ企業URL:
https://amanaimages.com/about/
【Translation】
[画像6:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-cd401cf99172fc2a5bc98ecd93aef107-1532x796.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Qlean Dataset Launches a Japanese Two-Speaker Sports Dialogue Audio Dataset
Natural Conversational Speech for ASR Evaluation and Dialogue Modeling
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai) has launched a new dataset through Qlean Dataset, its AI training data solution operated via its subsidiary Amana Images Inc. The newly released dataset, titled Japanese Two-Speaker Sports Dialogue Audio Corpus with Transcripts, is designed for the development and evaluation of speech- and language-based AI technologies, including ASR (Automatic Speech Recognition), NLP (Natural Language Processing), and LLM-driven applications.
This dataset is part of Qlean Dataset’s machine learning lineup, AI Data Recipe. It features Japanese audio recordings of two speakers engaging in natural, unscripted conversations focused on sports topics, with each recording paired with accurate transcripts.
The conversations include discussions of sports experiences, match reviews, and opinions on tactics and performance, reflecting how sports-related dialogue occurs in real-world settings. All recordings are conducted without scripts, capturing natural conversational patterns such as speaker turn-taking and overlapping speech.
These characteristics make the dataset suitable for research and development in speech recognition, dialogue processing, and spoken language understanding. As with all Qlean Dataset offerings, the data is provided for both research and commercial use, with rights clearance and usage conditions carefully organized.
Dataset Overview: “Japanese Two-Speaker Sports Dialogue Audio Corpus with Transcripts”
[表2:
https://prtimes.jp/data/corp/108024/table/128_2_e09456ee5845592aed1b626154c767eb.jpg?v=202601161215 ]
Use Case Examples for the "Japanese Two-Speaker Sports Dialogue Audio Corpus with Transcripts"
- Evaluation and Analysis of Conversational ASR ModelsIn Japanese ASR research, this dataset can be used to analyze recognition accuracy and error patterns under conditions that include speaker turn-taking and overlapping speech, using natural two-speaker dialogue audio.- Dialogue Understanding and Discourse Structure ResearchThe dataset supports research on intent estimation, discourse structure analysis, and dialogue segmentation by providing continuous conversational exchanges involving explanations and opinions about sports.
- Development of Voice-Based Conversational AI and AssistantsFor voice interfaces designed to deliver sports information or interact with users, the dataset enables validation of recognition and response models using dialogue audio that closely reflects real conversational behavior.- Validation of Conversation Log Analysis TechnologiesBy leveraging naturally progressing two-speaker conversations, the dataset can be used for preliminary validation of technologies such as speech separation and speaker turn detection in dialogue analysis systems.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports a wide range of data types, including images, videos, audio, 3D assets, and text, enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continues to expand its specialized, industry-focused lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps organizations establish AI development environments that are both legally compliant and risk-free.
▶ Qlean Dataset:
https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe:
https://qleandataset.visual-bank.co.jp/en/lineup
[画像7:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-5b47dc759323fb8d1874a39a185a14f3-1813x1116.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像8:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-4809f6099dd3bdb63124e891f06ed2b3-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像9:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-8375c51ce9afa83bdf6fa53cdf730ba8-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像10:
https://prcdn.freetls.fastly.net/release_image/108024/128/108024-128-c7b55a191ea57cc10180a82c33fbc18d-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Key Features of Qlean Dataset
- Existing datasets deliverable within one business day- Custom data collection and recording services available
Contact
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building Next-Generation Data infrastructure to enhance AI development capabilities under the mission “Unlocking Data Accessibility.”
The company operates THE PEN, an AI-assisted creative tool for manga artists and the Qlean Dataset service.
Its subsidiaries include Amana Images Inc., one of Japan’s largest photostock providers; Qlean Dataset, which leads research and development in AI data; and THE PEN Inc., an AI-assisted creative tool for manga artists.
CEO: Saneyuki Nagai
Address: 6F, C-Cube Minami Aoyama Building, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo
Corporate Site:
https://visual-bank.co.jp/en
Amana Images:
https://qleandataset.visual-bank.co.jp/en/company-overviewプレスリリース提供:PR TIMES





記事提供:PRTimes