Qlean Dataset、「日本語・2話者のリアルな日常会話音声コーパスデータセット」を提供開始
Visual Bank株式会社

~GENIAC採択企業のVisual Bank、日本語による日常会話を収録し、音声認識AI・自然言語処理・対話AIの研究開発を支援~
[画像1:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-f358d678a39703906481e79d9063c8bd-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・2話者・日常会話音声コーパスデータセット』の提供を開始しました。
本データセットは、日本人の2者(家族や友人、職場の同僚など様々なシチュエーション)による実際の日常会話を収録した音声データセットです。収録音声は、自然なテンポや相づち、被り発話を含む構成で、ステレオLR収録(左右チャンネルに話者を割り当て)した高品質なWAV形式で提供します。
恋愛相談、ペット、地域、食べ物などに関する雑談をはじめとする多様な話題を含み、音声認識(Automatic Speech Recognition、以下ASR)や自然言語処理(Natural Language Processing、以下NLP)、会話理解モデルの学習データとして幅広くご活用いただけます。
また、音声入力を含む生成AI基盤(マルチモーダルAI・音声LLMなど)の学習・検証データとしても有効にご利用いただけます。
今回提供を開始する「日本語・2話者・日常会話音声コーパスデータセット」の概要
[表:
https://prtimes.jp/data/corp/108024/table/103_1_1b1ad15d4693a0303a6e51eaee7d07dd.jpg?v=202511120516 ]
「日本語・2話者・日常会話音声コーパスデータセット」ユースケースイメージ
- 自然発話に対応した音声認識モデルの学習被り発話や相づち、イントネーションの揺れを含む自然な日常会話音声を用いることで、実環境に近い条件での音声認識(ASR)モデルの精度向上にご活用いただけます。スマートデバイスや音声アシスタントなど、実利用を前提とした会話音声認識の性能評価にも適しています。- 会話文脈理解・発話意図推定AIの開発台本なしのリアルな対話データをもとに、話題転換や省略表現を含む文脈理解モデルの検証が可能です。自然言語処理(NLP)領域での対話要約・会話要素抽出・発話意図推定などの研究に有効です。
- 感情認識・発話行動分析発話速度・抑揚・沈黙などの特徴を保持しており、感情推定や心理状態の分類を目的とした感情理解AIの研究に活用できます。また、笑い声や相づちのタイミングなど、人間的な会話の間合いを解析するコミュニケーション分析にも利用可能です。- 会話スキル評価・対話教育への応用発話内容と応答の流れを解析することで、対話能力評価やスピーキング教育AIなど、言語学習支援システムの開発にも活用いただけます。
- 会話要約・自動議事録生成AIの検証家庭・職場・友人など多様な会話内容を含むため、対話の要約・構造化・情報抽出を行うモデルの検証データとして利用可能です。カスタマーサポートやコールログ解析などの業務AIにも応用いただけます。- ヒューマン・インタラクション研究発話タイミングや応答傾向を分析し、人間同士の会話特性を再現するインタラクションモデルの開発に活用できます。ソーシャルロボティクスや教育支援AIなど、人とAIの自然な対話設計にも有用です。
『Qlean Dateset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ「AIデータレシピ」を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:
https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:
https://qleandataset.visual-bank.co.jp/lineup
[画像2:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-b5075c3c8aa1c78aeacc02ba276d7bcd-720x378.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像3:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-c5c82016339b1bba4bafa13cfdf7f211-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像4:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-c275fb11314587b421a3bf434f5a617a-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像5:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-93e72eba02e15b21b335f817c53cc590-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Qlean Datasetの特長
- すべての被写体から同意取得・国際法規(GDPR/CCPA)準拠 - 既存データは最短1日で納品可能 - カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:
https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:
https://visual-bank.co.jp/
アマナイメージズ企業URL:
https://amanaimages.com/about/
Qlean Dataset Launches Japanese Two-Speaker Daily Conversation Audio Corpus
Real-world Japanese speech data for ASR, Conversational AI, and Multimodal LLM research
[画像6:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-ffecb2f3ac91b21617d299950160c420-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai) has announced that its subsidiary, Amana Images Inc., has released a new dataset within its AI training data solution Qlean Dataset: the “Japanese Two-Speaker Daily Conversation Audio Corpus.”
This dataset contains recordings of real Japanese daily conversations between two speakers-such as family members, friends, and colleagues-in various natural settings. Each conversation is recorded in high-quality WAV format, using stereo L/R channels to separate the speakers, and includes natural pacing, backchanneling, and overlapping speech.
The dataset features diverse topics such as relationships, pets, local culture, and food. It is ideal for training models in Automatic Speech Recognition (ASR), Natural Language Processing (NLP), and Conversational AI applications.
Additionally, it can be effectively used as training and validation data for multimodal AI and voice-based large language models (LLMs) that incorporate speech input.
Overview of the “Japanese Two-Speaker Daily Conversation Audio Corpus”
- Speaker Attributes:Men and women in their 20s-40s- Data Format:WAV- Total Duration:Several hundred hours- Audio Specifications:Stereo (L/R channel separation)- Scenes Covered:Natural daily conversations between family, friends, and colleagues (unscripted)- Main Topics:Love advice, pet care, food, and regional culture- Sample:
https://qleandataset.visual-bank.co.jp/en/lineup/pn-022
Use Case Examples of the Dataset
- Speech Recognition for Natural ConversationsBy utilizing unscripted Japanese dialogue featuring backchanneling, overlaps, and intonation variations, this dataset helps improve ASR model accuracy under realistic conditions.It is also suitable for evaluating conversational ASR systems used in smart devices and voice assistants.- Context and Intent UnderstandingUsing spontaneous dialogue data enables testing models that interpret topic shifts and ellipsis.It is valuable for dialogue summarization, utterance classification, and intent estimation in the NLP domain.
- Emotion Recognition and Behavioral AnalysisThe dataset preserves features such as speech rate, prosody, and pauses, enabling emotion estimation and psychological state classification.It also supports communication analysis by studying laughter, timing of responses, and conversational rhythm.- Conversational Skill Evaluation and Educational ApplicationsBy analyzing speech flow and response structures, the dataset can be used in AI systems for dialogue ability assessment, language learning, and speaking education.
- Conversation Summarization and Meeting Minutes GenerationSince it includes conversations from home, work, and daily life, it is suitable for testing dialogue summarization, structuring, and information extraction models.It can also be applied in customer support automation and call log analysis.- Human Interaction ResearchBy analyzing speech timing and response tendencies, researchers can develop interaction models that simulate human-like dialogue.It is useful for social robotics, educational AI, and other human-AI interaction design studies.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports diverse data types including images, videos, audio, 3D, and text-enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continuously expands its specialized, industry-relevant lineup known as the “AI Data Recipes.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps build legally compliant and risk-free AI development environments.
▶ Qlean Dataset:
https://qleandataset.visual-bank.co.jp/en/
▶ AI Data Recipes:
https://qleandataset.visual-bank.co.jp/en/lineup
[画像7:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-c9f103d8538f7e40bd348a28ef3c3402-2964x1824.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像8:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-5c48be8c8f409cc7b2cc0cb119cd54b7-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像9:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-c2babd15b2289694d64df76c0610b11b-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像10:
https://prcdn.freetls.fastly.net/release_image/108024/103/108024-103-8d7cff61d5fba1e8c7786339ae2b657a-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Key Features of Qlean Dataset
- Full consent obtained from all subjects; compliant with GDPR and CCPA- Existing datasets deliverable within one business day- Custom data collection and recording available
▶ Contact:
https://qleandataset.visual-bank.co.jp/en/contact
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building next-generation data infrastructure to maximize AI development capabilities under the mission, “Unlock the potential of all data.”
The company operates THE PEN, an AI-assisted creative tool for manga artists, and wholly owns Amana Images Inc., which provides the Qlean Dataset service.
CEO: Saneyuki Nagai
Address: C-Cube Minami Aoyama Building 6F, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo 107-0062
Corporate Site:
https://visual-bank.co.jp/en/
Amana Images:
https://qleandataset.visual-bank.co.jp/en/company-overviewプレスリリース提供:PR TIMES





記事提供:PRTimes