データセット
ImageNet
画像認識、物体分類
数百万枚の高解像度画像から構成され、20,000以上のカテゴリーに分類されている大規模な画像データセット。
MNIST
手書き数字の認識
0から9までの手書き数字を含むデータセット。28x28ピクセルのグレースケール画像で、トレーニング用に60,000枚、テスト用に10,000枚が用意されている。
CIFAR-10
画像認識
10種類のクラス(飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラック)の32x32ピクセルの小さなカラー画像で構成されているデータセット。各クラスに6,000枚の画像が含まれており、合計60,000枚の画像が提供されている。
COCO
物体検出、セグメンテーション、キャプション生成
日常的なシーンに含まれる80種類の物体の画像が含まれているデータセット。物体ごとのバウンディングボックスや、画像に対するテキストキャプションも提供されている。
Pascal VOC
物体検出、セグメンテーション
20種類のオブジェクト(人、自動車、動物など)が含まれた画像データセットで、物体検出やセグメンテーションの評価に使われる。
SQuAD
質問応答
Wikipediaの文章をベースにした質問応答データセットで、文中の特定の箇所から答えを見つける形式。10万以上の質問と回答が含まれている。
Kaggle Datasets
機械学習全般
Kaggleプラットフォーム上で提供されている様々なデータセット。データ分析や予測モデルの競技会が開催されており、初心者から上級者まで幅広く利用されている。
UCI Machine Learning Repository
分類、回帰など
多くの種類のデータセットを収集しているリポジトリで、がんの診断(Breast Cancer Wisconsin dataset)や、ワインの品質評価、住宅価格の予測など、様々なデータセットが提供されている。
LFW
顔認識
13,000以上の顔画像を含むデータセットで、有名人や日常生活での顔を使用しており、2つの顔が同じ人物かどうかを判断するタスクに使われる。
TIMIT
音声認識
8,000以上の音声データとそのテキストの対応を含むデータセット。発音された単語と音声波形が対応しており、音声認識モデルのトレーニングに使用される。
LibriSpeech
音声認識
オーディオブックの録音データから作成された英語音声データセットで、1,000時間以上の読み上げ音声を含みます。音声ファイルは16kHzにサンプリングされており、対応する書き起こし(テキスト)が提供されています。
FashionMNIST
画像認識、ファッションアイテムの分類
28x28ピクセルのグレースケール画像で、10種類のファッションアイテム(Tシャツ、スニーカー、バッグ、ドレスなど)が含まれています。各カテゴリにはトレーニング用に6,000枚、テスト用に1,000枚の画像があり、全体で70,000枚の画像が提供されています。MNISTと同じフォーマット(28x28ピクセルのグレースケール画像、10クラス)を持ち、直接置き換えて使用できるように設計されています。そのため、既存のMNIST用のコードやモデルをほぼそのまま使用できます。