機械学習に必要となるデータセットについて
2021.01.19 ヤマトクレジットファイナンス株式会社
2021.01.19 ヤマトクレジットファイナンス株式会社
データセットは機械学習において最も重要な存在だとされており、一般的には以下の3種類があります。
最初に利用され、かつ最も規模が大きいデータセットです。機械学習アルゴリズムを与えることで、開発モデルのトレーニングに使用できます。
トレーニングセットで訓練後に、分類器のハイパーパラメーター(機械学習アルゴリズムの動きを制御するパラメーター)をチューニングするために用います。さまざまなハイパーパラメーターを同様のトレーニングセットによって訓練した後に、バリデーションセットを使ってパフォーマンスが最も優れているものを採用します。
最終段階にのみ使われ、モデルの精度を確認するためのデータセットです。バリでーションセットと混同されることもありますが、パフォーマンステストをするためだけに用いられるのがテストセットです。
では、機械学習に必要なデータセットを入手するにはどうすればよいのでしょうか?ここではさまざまなデータセットをまとめているサイト・サービスをご紹介します。
データの量、知名度ともに有名な予測モデル/分析を行っているプラットフォームです。英語のみですが、企業や研究機関がさまざまなデータを公開しています。
AWS(アマゾンウェブサービス)が公開している誰もが利用可能なパブリックデータセットです。地理空間や衛星写真、ゲノムデータなど多種多様なデータセットが提供されています。
参考情報:https://aws.amazon.com/jp/public-datasets/
日本国内のデータセットを提供し、Yahooや楽天のレビューに関するデータセットもあります。原則として研究者かNTCIR参加者である必要があります。
参考情報:http://www.nii.ac.jp/dsc/idr/datalist.html
米ハーバード大学が公開しているデータセットであり、オープンソースのデータリポジトリソフトウェア「Dataverse」が必要になります。
参考情報:https://dataverse.harvard.edu/
Googleの研究チームが公開しており、700万件の動画が4,800件のナレッジタグのエンティティでタグ付けされています。
データセット:https://research.google.com/youtube8m/
動画のBouding Boxがラベリングされているデータセットです。
データセット:https://research.google.com/youtube-bb/
グーグル子会社のDeepMindが公開しているデータセットです。約30万件のどうがに、400種に分類された人間アクションがラベリングされています。
参考情報:https://deepmind.com/research/open-source/open-source-datasets/kinetics/
手書きの文字(0~9)に正解ラベルが付与されており、データサイズが小さいため気軽に利用できます。
参考情報:http://yann.lecun.com/exdb/mnist/
トロント大学が公開してるデータセットであり、6万件の32×32画像に10個のクラスがラベリングされています。
参考情報:http://www.cs.toronto.edu/~kriz/cifar.html
6万種のトレーニングセットと1万種のテストセットで構成されており、ファッション画像が10のクラスでラベリングされています。
参考情報:https://github.com/zalandoresearch/fashion-mnist/blob/master/README.md
ワシントン大学が開催している顔認識アルゴリズムの公開競争です。ノイズデータを混ぜた顔認識、大規模データセットの認識モデルの2つのチャレンジが行われています。
参考情報:http://megaface.cs.washington.edu/
香港中文大学が提供する20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットです。
データセット:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
331万件もの大規模データになっており、9,131名の画像が含まれています。1名あたり362.6イメージがあります。
データセット:https://www.robots.ox.ac.uk/~vgg/data/vgg_face/
日本でもメジャーなビットコインやイーサリアム、アルトコインなどのデータセットを提供しています。
参考情報:https://coinmarketcap.com/
2000年から最新までの1週間ごとの為替レートのダウンロードが可能になっています。
参考情報:https://www.gaincapital.com/
いかがでしょうか?機械学習の開発に取り組む際は、ぜひ以上のデータセットを利活用してみてください。