その他 – とれまがニュース

経済や政治がわかる新聞社や通信社の時事ニュースなど配信

とれまが – 個人ブログがポータルサイトに!みんなでつくるポータルサイト。経済や政治がわかる新聞社や通信社の時事ニュースなど配信
RSS
製品 サービス 企業動向 業績報告 調査・報告 技術・開発 告知・募集 人事 その他
とれまが >  ニュース  > リリースニュース  > その他

音声認識AIの教師データ「audioコーパス データセット」にて、新しい会話区分『職業面談』のデータセットの先行販売を開始

audioコーパス株式会社

音声認識AIの教師データ「audioコーパス データセット

音声認識AIの教師データを販売するaudioコーパス株式会社(本社:東京都豊島区、代表取締役:森井 直哉)は、8月22日(木)より新たなデータセットをリリースします。


[画像1: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-0a32d16b57c528b6d6d923373a9f8d6a-989x665.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
これにより、データセットの提供時間数は150時間を超えますので、AIに学習させるデータをゼロから作成する手間が省け、必要な会話区分に沿ったAI開発をスピーディーに進めることができるようになります。

audioコーパス データセットとは
audioコーパス データセットは、音声とテキストをセットにした発話データとなります。
AI学習の要件に合わせ、既にタグなどを付与した整形データのため、そのまま開発にご利用いただけるデータ構造となっています。
[画像2: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-598c3b727333e24f65a792c331c08870-689x612.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
※音声データ:wavファイル/テキストデータ:csvファイル、txtファイル、eafファイル にてご提供します

<音声データ 仕様>
- 会話区分(営業商談、コールセンター、対談、面談など)によるリアルな会話を収録- 一対一の会話において、RとLでチャンネルを分けたステレオ収録- 著作権や個人情報などの人の声に関する権利関係を整理(※本人の許諾なく声を使用することは固く禁じられています)
■audioコーパス データセットの3つの強み
[画像3: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-5079dada9352d09cb55ad502896c67aa-1469x621.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


<テキストデータ 仕様>
- 相づちやどもり なども、忠実にすべて書き起こし- フィラー、言い間違いなどの抽出に、6つのタグを付与- 発話ごとに区間を区切り、細かく発話を利用・分析することが可能
[画像4: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-569d38399b9b32a2445cb86eea07ca38-860x532.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


■「日本語話し言葉コーパス」(CSJ)の仕様に準じたタグ付与
[画像5: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-05fbae3fb3295e72098dc0ae2aead2f1-775x525.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]



■「記者ハンドブック」(共同通信社発刊)の仕様に準じた日本語表記
日本語文章は、表記ゆれ、誤字脱字、聞き間違いなど気にすべき点が多数あります。
audioコーパスでは「記者ハンドブック」(共同通信社発刊)を採用し、表記ルールを徹底しています。
[画像6: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-7d91945d3ff045f4491f9730368fc825-669x613.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


【リリースの背景】
発話データは権利フリーのものが市場にほとんど存在しません。
理由として、人の声というのは「個人情報」としても扱われ、許諾なく使用することができないことが挙げられます。
そのため、システム開発において発話データが必要になった際は、音声データを自前で調達し、またそれを一から書き起こさなければなりません。

一方で、発話データを学習させる際は「表記のゆらぎ」など気にかけなければいけないことも多く、品質を高めるためには手間と時間がかかります。

そんな課題を解決するため、発話データの製作所として、ニーズを調査し、必要なデータセットを販売しているのがaudioコーパス株式会社です。
今回リリースする『面談』のデータセットは、自然発話が多く、汎用性も高くて扱いやすいデータとなっています。
【こんな方におすすめ】
- 音声認識AIシステムを開発していて、学習用データが必要な方- システムの提供先(利用目的)に変化が生じ、別の会話カテゴリが必要になった方- 人の声のデータを探している方- コーパスデータを探している方- 自然発話を分析・研究されている方
【購入の流れ】
[画像7: https://prcdn.freetls.fastly.net/release_image/148224/1/148224-1-9163daae38d4268f4cbbea9773544d88-3421x1923.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
※会話テーマにより、お好きなカテゴリをお選びいただけます

商品はすべてサンプルをご提供できますので、ご興味をお持ちの方は「お問い合わせ」画面より、
お申し付けいただければ幸いです。

audioコーパス株式会社では、音声認識AIのさらなる利便性向上に取り組みます。
企業概要
audioコーパス株式会社
代表者:森井直哉
所在地:東京都豊島区西池袋2-37-4 IKE・Biz 4F
事業内容:アノテーションデータ製作ならび販売、請負作成、作成支援

企業Webサイト:https://www.otocorpus.com/

■取材のお申し込み
本リリースに関する取材のお申し込み、また製品・サービスに関するお問い合わせは下記までご連絡ください。
お問い合わせフォーム : こちらからお問い合わせください
Email:contact@otocorpus.com

プレスリリース提供:PR TIMES

音声認識AIの教師データ「audioコーパス データセット音声認識AIの教師データ「audioコーパス データセット音声認識AIの教師データ「audioコーパス データセット音声認識AIの教師データ「audioコーパス データセット音声認識AIの教師データ「audioコーパス データセット

記事提供:PRTimes

記事引用:アメーバ?  ブックマーク: Google Bookmarks  Yahoo!ブックマークに登録  livedoor clip  Hatena ブックマーク  Buzzurl ブックマーク

ニュース画像

一覧

関連ニュース

とれまがマネー

とれまがマネー

IR動画

一覧

とれまがニュースは、時事通信社、カブ知恵、Digital PR Platform、BUSINESS WIRE、エコノミックニュース、News2u、@Press、ABNNewswire、済龍、DreamNews、NEWS ON、PR TIMES、LEAFHIDEから情報提供を受けています。当サイトに掲載されている情報は必ずしも完全なものではなく、正確性・安全性を保証するものではありません。当社は、当サイトにて配信される情報を用いて行う判断の一切について責任を負うものではありません。

とれまがニュースは以下の配信元にご支援頂いております。

時事通信社 IR Times カブ知恵 Digital PR Platform Business Wire エコノミックニュース News2u

@Press ABN Newswire 済龍 DreamNews NEWS ON PR TIMES LEAF HIDE

Copyright (C) 2006-2025 sitescope co.,ltd. All Rights Reserved.