ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は、同所研究員が研究において使用している大規模データセット「Shift15M」および実装基盤をオープンソースとして公開した。
「Shift15M」は、ファッションアプリ「IQON」(2020年4月にサービス終了)に投稿されたコーディネートを基に構成された大規模データセット。
IQONのサービス提供期間である2010年から2020年までに投稿されたコーディネート約255万件のほか、これらのコーディネートを構成する約1,500万件のアイテムに関する特徴量、アイテムカテゴリーに関するデータやコーディネート投稿への「いいね」数などの関連データを含む。
併せて公開された実装基盤では、コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認することが可能。これによって、年々変化するファッションの流行をより正確にとらえ、研究のさらなる発展に役立てることができる。
また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとでさまざまなタスクを検証するためのコードが整備されている。
同研究所では、ファッションの流行が変化しても、継続的に認識精度を高く保つことができるAI技術の実現を目的とした研究を進めている。
ファッションに関連するデータは、流行の変化による影響を受け、分布シフトと呼ばれる数理的現象が生じると考えられている。この分布シフトによって、AIの認識精度が低下することで近年注目を集める。また、分布シフトは流行や時間等の変化にともなって入力データの分布が変化することで生じ、ファッションに限らず多くの分野に共通して現れる現象とされている。
分布シフトの検証は、AI技術の実用性に関わる重要なテーマである一方で、検証に用いる実用的なデータセットの不足により、学術界における当該分野の研究の進展はこれまで制限されてきた。そこで、分布シフト研究の発展を支える新たな研究基盤として、今回の公開を決定した。
同データセットと実装基盤はファッションに限らず幅広い分野での活用が可能。分布シフトの再現実験と典型的なタスクにおける効果検証や比較検証など、目的に合わせてご使用できる。
データセットの詳細
1アイテムの特徴量
2コーディネートに含まれるアイテムの情報
3アイテムやコーディネートの付加情報
3-1投稿日時
3-2「いいね」の数
3-3ジャンル・カテゴリー
3-4統計情報人間が付与したラベル(学習のための教師信号など)