Qlean Dataset、「様々なドキュメント・帳票データセット」を提供開始
Visual Bank株式会社

~GENIAC採択企業のVisual Bank、業務文書領域のドキュメントや帳票データでLLM・OCR・マルチモーダルAI開発を支援~
[画像1:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-8c1753bb1186284ab95ee4d5a8a0f2f4-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)が運営するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、LLM(大規模言語モデル)、OCR(光学文字認識)、およびマルチモーダルAIの開発・研究に活用される「様々なドキュメント・帳票データセット」の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』の新たなラインナップとして提供するもので、履歴書、職務経歴書、領収書、申込書、アンケートなど、実際の業務プロセスで日常的に扱われる書類を対象としたドキュメントデータで構成されています。
PDFや画像形式で保存された書類を含み、レイアウト構造、文字情報、記載項目のばらつきといった実務文書特有の要素を備えているため、単純なテキストデータでは再現しにくい業務現場の入力条件を反映しています。
近年、生成AIや業務自動化AIの実装が進む中で、企業内に蓄積された非構造な文書データをどのように理解・処理させるかが、AI開発における重要な論点となっています。一方で、業務文書は個人情報や契約情報を含むことが多く、学習データとしての利用には権利や取り扱いに対する慎重な設計が求められます。
本データセットは、AI開発用途を前提とした形で整理された業務ドキュメントや帳票ご用意しており、文書理解モデルや情報抽出モデルの学習・評価において、実運用を想定した検証を行うことが可能です。Visual Bankは、GENIAC採択企業として培ってきたAI学習データ提供の知見をもとに、研究用途から商用開発までを見据えたデータ整備を進めてまいります。
今回提供を開始する「様々なドキュメント・帳票データセット」の概要
[表1:
https://prtimes.jp/data/corp/108024/table/125_1_ea98130058b6e15c27d3b0e70958386f.jpg?v=202601080615 ]
[画像2:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-678768b8ef58238aede254cb6345c70a-1909x2700.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像3:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-3f3026d062c55f1a1ed4949ea2600fac-1454x2036.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
「様々なドキュメント・帳票データセット」のユースケースイメージ
- 文書理解モデルの構造解析研究業務文書に含まれる項目配置やレイアウト構造を対象に、文書構造解析モデルやレイアウト理解モデルの研究・評価に利用できます。- 情報抽出・質問応答モデルの検証履歴書や申込書などから特定情報を抽出するタスクを通じて、NLPおよびLLMを用いた情報抽出・質問応答モデルの精度検証に活用できます。
- 業務書類処理AI(OCR・IDP)の開発領収書や申請書を対象としたOCRおよびIDP(Intelligent Document Processing)システムにおいて、文字認識から項目抽出までの一連の処理モデルの開発・検証に利用できます。- 社内向けLLMの文書理解性能評価社内文書検索AIや業務支援チャットボットにおいて、業務文書を入力とした際の理解精度や回答生成の妥当性を評価するための検証データとして利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:
https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:
https://qleandataset.visual-bank.co.jp/lineup
[画像4:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-4f7eda945b20f92d43736392988113ad-1813x1116.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像5:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-e08a40c49e59c70537d9fa1046d12c27-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像6:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-5b492e8b4648d21ea549d1ebee2ae10e-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像7:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-552f82d5d97159fe33d280f3620e6dd5-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
- すべての被写体から同意取得- 既存データは最短1日で納品可能- カスタム撮影・収録・収集による独自データ構築にも対応
お問い合わせ
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:
https://visual-bank.co.jp/
アマナイメージズ企業URL:
https://amanaimages.com/about/
【Translation】
[画像8:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-cf870e982e1ee02df536e8523d12719d-1200x630.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Qlean Dataset Launches a Japanese Business Document & Form Dataset for AI Development
Supporting Document Understanding, OCR, and Intelligent Document Processing
Qlean Dataset, an AI training data solution operated by Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai), has launched a new collection of business document and form datasets designed for the development and research of large language models (LLMs), optical character recognition (OCR), and multimodal AI systems.
This dataset is provided as a new addition to Qlean Dataset’s machine learning dataset lineup, AI Data Recipe. It consists of document data commonly used in real-world business processes, including resumes, CVs, receipts, application forms, and questionnaires.
The dataset includes documents stored in PDF and image formats and incorporates practical characteristics unique to business documents, such as diverse layout structures, textual information, and variations in field placement and formatting. These elements reflect real-world input conditions that are difficult to reproduce using plain text data alone.
As generative AI and workflow automation continue to be implemented across industries, understanding and processing unstructured documents accumulated within organizations has become a critical challenge in AI development. At the same time, business documents often contain personal or contractual information, requiring careful consideration of data rights and handling when used as training data.
This dataset provides business documents and forms that have been organized specifically for AI development purposes, enabling realistic training and evaluation of document understanding and information extraction models. Drawing on its experience in providing AI training data, Visual Bank continues to prepare datasets suitable for both research and commercial development.
Overview of the Business Document & Form Dataset
[表2:
https://prtimes.jp/data/corp/108024/table/125_2_3f8dd046874eb0ae09195281f6a11809.jpg?v=202601080615 ]
[画像9:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-757bdaa23a0fdffa0c06c4c53fea3a83-1909x2700.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像10:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-268a98adba3258df78948330e6701b7d-1454x2036.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Use Case Examples for the Business Document & Form Dataset
- Document Structure and Layout AnalysisThe dataset can be used to research and evaluate document structure analysis and layout understanding models by focusing on field placement and layout patterns commonly found in business documents.- Validation of Information Extraction and Question Answering ModelsThrough tasks such as extracting specific information from resumes or application forms, the dataset supports accuracy evaluation of information extraction and question answering models based on NLP and LLM technologies.
- Development of Document Processing AI (OCR / IDP)The dataset can be used in the development and validation of OCR and Intelligent Document Processing (IDP) systems, covering end-to-end processes from text recognition to structured field extraction for receipts and application forms.- Evaluation of Document Understanding in Internal LLM SystemsIt can serve as evaluation data for assessing comprehension accuracy and response validity when business documents are used as inputs in internal document search systems or AI-powered business support chatbots.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports a wide range of data types, including images, videos, audio, 3D assets, and text, enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continues to expand its specialized, industry-focused lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps organizations establish AI development environments that are both legally compliant and risk-free.
▶ Qlean Dataset:
https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe:
https://qleandataset.visual-bank.co.jp/en/lineup
[画像11:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-433c6a20e9e6e4bed5e40c42cba00ec3-1813x1116.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像12:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-1dc10fccef05ec89f33b8134bf7311b6-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像13:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-2e028da26c398d3df0df9a43accdf385-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
[画像14:
https://prcdn.freetls.fastly.net/release_image/108024/125/108024-125-18bafb984f7dee477e3d78f852534661-960x540.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
Key Features of Qlean Dataset
- Existing datasets deliverable within one business day- Custom data collection and recording services available
Contact
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building Next-Generation Data infrastructure to enhance AI development capabilities under the mission “Unlocking Data Accessibility.”
The company operates THE PEN, an AI-assisted creative tool for manga artists and the Qlean Dataset service.
Its subsidiaries include Amana Images Inc., one of Japan’s largest photostock providers; Qlean Dataset, which leads research and development in AI data; and THE PEN Inc., an AI-assisted creative tool for manga artists.
CEO: Saneyuki Nagai
Address: 6F, C-Cube Minami Aoyama Building, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo
Corporate Site:
https://visual-bank.co.jp/en
Amana Images:
https://qleandataset.visual-bank.co.jp/en/company-overviewプレスリリース提供:PR TIMES





記事提供:PRTimes