機械学習に必要となるデータセットについて

 2021.01.19  ヤマトクレジットファイナンス株式会社

データセットは機械学習において最も重要な存在だとされており、一般的には以下の3種類があります。

トレーニングセット

最初に利用され、かつ最も規模が大きいデータセットです。機械学習アルゴリズムを与えることで、開発モデルのトレーニングに使用できます。

バリデーションセット

トレーニングセットで訓練後に、分類器のハイパーパラメーター(機械学習アルゴリズムの動きを制御するパラメーター)をチューニングするために用います。さまざまなハイパーパラメーターを同様のトレーニングセットによって訓練した後に、バリデーションセットを使ってパフォーマンスが最も優れているものを採用します。

テストセット

最終段階にのみ使われ、モデルの精度を確認するためのデータセットです。バリでーションセットと混同されることもありますが、パフォーマンステストをするためだけに用いられるのがテストセットです。

データセットを簡単に取得できるサイト・サービス

では、機械学習に必要なデータセットを入手するにはどうすればよいのでしょうか?ここではさまざまなデータセットをまとめているサイト・サービスをご紹介します。

1. Kaggle

データの量、知名度ともに有名な予測モデル/分析を行っているプラットフォームです。英語のみですが、企業や研究機関がさまざまなデータを公開しています。

参考情報:https://www.kaggle.com/

2. AWSパブリックデータセット

AWS(アマゾンウェブサービス)が公開している誰もが利用可能なパブリックデータセットです。地理空間や衛星写真、ゲノムデータなど多種多様なデータセットが提供されています。

参考情報:https://aws.amazon.com/jp/public-datasets/

3. 国立情報学研究所

日本国内のデータセットを提供し、Yahooや楽天のレビューに関するデータセットもあります。原則として研究者かNTCIR参加者である必要があります。

参考情報:http://www.nii.ac.jp/dsc/idr/datalist.html

4. Harvard Dataverse

米ハーバード大学が公開しているデータセットであり、オープンソースのデータリポジトリソフトウェア「Dataverse」が必要になります。

参考情報:https://dataverse.harvard.edu/

5. YouTube-8M

Googleの研究チームが公開しており、700万件の動画が4,800件のナレッジタグのエンティティでタグ付けされています。

データセット:https://research.google.com/youtube8m/

6. YouTube-BoundingBoxes

動画のBouding Boxがラベリングされているデータセットです。

データセット:https://research.google.com/youtube-bb/

7. Kinetics

グーグル子会社のDeepMindが公開しているデータセットです。約30万件のどうがに、400種に分類された人間アクションがラベリングされています。

参考情報:https://deepmind.com/research/open-source/open-source-datasets/kinetics/

8. MNIST

手書きの文字(0~9)に正解ラベルが付与されており、データサイズが小さいため気軽に利用できます。

参考情報:http://yann.lecun.com/exdb/mnist/

9. CIFAR-10

トロント大学が公開してるデータセットであり、6万件の32×32画像に10個のクラスがラベリングされています。

参考情報:http://www.cs.toronto.edu/~kriz/cifar.html

10. Fashion-MNIST

6万種のトレーニングセットと1万種のテストセットで構成されており、ファッション画像が10のクラスでラベリングされています。

参考情報:https://github.com/zalandoresearch/fashion-mnist/blob/master/README.md

11. MegaFace

ワシントン大学が開催している顔認識アルゴリズムの公開競争です。ノイズデータを混ぜた顔認識、大規模データセットの認識モデルの2つのチャレンジが行われています。

参考情報:http://megaface.cs.washington.edu/

12. CelebA

香港中文大学が提供する20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットです。

データセット:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

13. VGGFace2

331万件もの大規模データになっており、9,131名の画像が含まれています。1名あたり362.6イメージがあります。

データセット:https://www.robots.ox.ac.uk/~vgg/data/vgg_face/

14. Coinmarketcap.com

日本でもメジャーなビットコインやイーサリアム、アルトコインなどのデータセットを提供しています。

参考情報:https://coinmarketcap.com/

15. Gaincapital.com

2000年から最新までの1週間ごとの為替レートのダウンロードが可能になっています。

参考情報:https://www.gaincapital.com/

いかがでしょうか?機械学習の開発に取り組む際は、ぜひ以上のデータセットを利活用してみてください。

新規CTA

EC業界のトレンド7選
クロネコ掛け払いご紹介資料

RELATED POST関連記事


RECENT POST「ノウハウ」の最新記事


機械学習に必要となるデータセットについて
New Call-to-action
New Call-to-action

RANKING人気記事ランキング

RECENT POST 最新記事

ブログ購読のお申込み
ヤマトフィナンシャル