PIXTA、機械学習用「日本語キャプション付き　日本人日常シーン画像データセット」販売開始

ピクスタ

PIXTA、機械学習用「日本語キャプション付き　日本人

日本語VLMの開発・性能向上に貢献

ピクスタ株式会社（東京都渋谷区　代表取締役社長：古俣大介、東証グロース：3416）が運営する写真・イラスト・動画・音楽素材のマーケットプレイス「PIXTA（ピクスタ）」は、「機械学習用画像・動画データ提供サービス」として、「日本語キャプション付き　日本人日常シーン画像データセット」を販売いたします。

◆ PIXTA機械学習用画像・動画データ提供サービス：https://pixta.jp/machinelearning-dataset
[画像1: https://prcdn.freetls.fastly.net/release_image/8963/328/8963-328-a0af28f8cd49037e39a1b616441f09e2-1200x670.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

■ 日本語キャプション付き　日本人日常シーン画像データセット概要

[表: https://prtimes.jp/data/corp/8963/table/328_1_6b426072e9bb776c0563eab4f59bb76e.jpg?v=202510090216 ]
＜画像サンプル＞
[画像2: https://prcdn.freetls.fastly.net/release_image/8963/328/8963-328-4907446e2ec15115baf2ab661e988443-1650x660.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

＜想定用途＞
生活シーン検索・整理
家庭・学校・地域などの日常風景を日本語で正確に検索・分類できるAIの開発。
例: 「ランドセルを背負って登校する子ども」と入力すると、関連する登下校シーン画像を自動で検索できる。

教育・福祉支援
日常シーンの写真をやさしい日本語で説明することで、誰でも理解できる情報支援を実現。
例: 視覚障害者向けAIが「食卓で家族がカレーを食べている」と説明し、生活の様子を言葉で伝える。

広告・マーケティング
日本人のライフスタイルを題材にした自然なクリエイティブ制作を支援。
例: 「スーパーで買い物をする母子」という日常シーンを基に、販促用キャッチコピーを自動生成。

日本語VLM（Vision-Language Model）の汎用性能向上
日常生活に即したシーンを含むことで、AIが「生活の文脈を理解しながら日本語で説明できる」能力を強化。
例: 「リビングで宿題をする小学生」といった具体的な日常シーンを自然な日本語で表現できるようになる。

■ 提供背景

近年、テキストと画像を統合的に処理する VLM（Vision-Language Model）の研究開発が世界的に進んでいます。従来のAIは「画像のみ」「テキストのみ」の処理が主流でしたが、現実世界の情報は視覚と言語が結びついて存在しており、その両方を同時に理解できるVLMは検索、生成、説明など多様な分野で必要とされています。

しかし、その基盤となる学習データには偏りがあり、既存の代表的な画像キャプションデータセット（LAION、COCO、Conceptual Captions、CC12M など）はいずれも英語中心に構築されています。
加えて、商用利用を見据えると、海外のオープンデータには権利処理の不透明さが残るため、日本語VLMを安心して開発・運用できる状況ではありません。結果として、日本語キャプション付き画像データの不足は、国内の研究者や企業にとって課題の一つとなっています。

このような背景から、PIXTAは「日本人の日常シーンを撮影した画像に日本語キャプションを付与したデータセット」を開発し、日本語VLMの研究・開発・商用化を支援する基盤を提供します。

■ PIXTA機械学習用画像・動画データ提供サービスについて

PIXTAの「機械学習用画像・動画データ提供サービス」は、国内最大級のストックフォトサイトである強みを活かし、1億点以上の商用利用できる画像・動画・音声データを機械学習の用途・要件に合わせて提供するものです。
オープンデータだけでは入手しづらい豊富な日本人画像ライブラリと、機械学習専任チームによる高度なアノテーション技術で、一気通貫でAI開発者のデータ収集を支援。画像認識AI・物体検知AI等の開発に注力する自動車・製造業界大手はじめ様々な企業から高い支持を得ています。
ストックデータでは要件の合わない場合は、新規撮影も可能。創業20年の豊富な撮影経験を活かし、学習要件に合わせたデータを撮影いたします。
[画像3: https://prcdn.freetls.fastly.net/release_image/8963/328/8963-328-0c246bb2d99d863f64208c8ee686334c-1600x908.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

◆ PIXTA機械学習用画像・動画データ提供サービス：https://pixta.jp/machinelearning-dataset
　・ note（PIXTA機械学習データサービス）：https://note.com/pixta_ml/

◆ PIXTAの撮影サービス
　・全国出張料無料のカメラマン手配「PIXTAオンデマンド」：https://od.pixta.jp/
　・完全オーダーメイドビジュアル制作「PIXTAカスタム」：https://pixta.jp/custom
[画像4: https://prcdn.freetls.fastly.net/release_image/8963/328/8963-328-8e345dc6ffceea6796f6f748c49382fe-1280x412.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

【会社概要】
社　名：ピクスタ株式会社（東証グロース：3416）
設　立：2005年8月25日
所在地：東京都渋谷区渋谷2丁目21−1 渋谷ヒカリエ 33階 JustCo Shibuya Hikarie
TEL：03-5774-2692
資本金：332,437千円（2025年06月末時点）
代表取締役社長：古俣大介
URL：https://pixta.co.jp/
事業内容：デジタル素材のオンラインマーケットプレイス「PIXTA」、
　　　　　法人向け出張撮影・カメラマンサービス「PIXTAオンデマンド」、
　　　　　出張撮影プラットフォーム「fotowa」の運営
子会社：PIXTA ASIA PTE. LTD.
　　　　PIXTA VIETNAM CO., LTD.

プレスリリース提供：PR TIMES

PIXTA、機械学習用「日本語キャプション付き　日本人

記事提供：PRTimes

その他 – とれまがニュース

経済や政治がわかる新聞社や通信社の時事ニュースなど配信