失眠网 > 机器学习数据集！CV NLP 一应俱全

机器学习数据集！CV NLP 一应俱全

时间：2019-10-22 06:44:45

相关推荐

机器学习数据集！CV NLP 一应俱全

本文介绍一个机器学习大型数据集的汇总网站，网站目前提供约 70 个最新数据集，涵盖了计算机视觉、自然语言理解和音频三大领域。

还在愁到哪里找到需要的机器学习数据集吗？

每年都有很多大型、高质量的数据集发布，其中大多数数据集都发布在各自的网站上，通过谷歌搜索很难找到所有这些数据集。

现在，一位名叫Nikola Pleša的开发人员做了一个项目，将所有机器学习的大型数据集收集在一个网站上，方便大家取用。

网站一经发布，好评如潮。网站目前提供约70个数据集，涵盖了计算机视觉、自然语言理解和音频三大领域，包括每个数据集的链接、简介、许可类型、论文等，并且作者表示将继续增加数据集数量。

数据集网站：/

下面，简要介绍一部分CV、NLP的数据集信息。

计算机视觉数据

1. IBM人脸多样性数据集

IBM的人脸多样性(DiF)数据集是一个庞大而多样化的数据集，旨在促进人脸识别技术中公平性和准确性的研究。DiF是第一个此类数据集，包含100万张带注释的人脸图像。

2. GQA

GQA数据集包含2200万个关于各种日常图像的问题。每个图像都与图像的对象、属性和关系的场景图相关联，这是一个基于Visual Genome的新的清晰版本数据集。

3. NVIDIA Flickr-Faces-HQ数据集

该数据集由70000张分辨率为1024×1024的高质量PNG图像组成，并且在人物的年龄、种族和图像背景方面差异很大。数据集也很好地覆盖了人脸的附件，如眼镜，太阳镜，帽子等。

4. Google Open Images V4

Open Images是一个包含约900万个URL图像的数据集，这些图像具有包含数千个类别的图像级标签和边界框注释。

5. Youtube-8M

YouTube- 8M是一个大型的带标签的视频数据集，由数百万个YouTube视频ID和来自4700多个视觉实体的不同词汇表的相关标签组成，包含大量的视频画面信息、音频信息、标签信息。

6. Berkeley Deep Drive (BDD100K)

该数据集包含超过100k个驾驶体验视频，每个视频长度为40秒，帧数为每秒30帧。总图像数比百度ApolloScape(3月发布)大800倍，比Mapillary大4800倍，比KITTI大8000倍。

7. ApolloScape

ApolloScape是一个此前的类似数据集如KITTI和CityScapes更大、更复杂的数据集。ApolloScape提供了高分辨率高10倍以上的图像，并逐像素标注，包括26种不同的可识别对象，如汽车、自行车、行人和建筑物。随着行人和车辆数量的增加，数据集提供了多个级别的场景复杂性，在给定场景中最多多达100辆车辆，以及更广泛的具有挑战性的环境，如恶劣天气或极端光照条件。

8. Tencent ML - Images

腾讯发布的Tencent ML - Images是目前最大的开源多标签图像数据集，包括17,609,752个训练图像和88739个验证图像URL，注释多达11,166个类别。

9. Fashion MNIST

Fashion-MNIST是Zalando文章图像的一个数据集，包括60,000个示例的训练集和10,000个示例的测试集。每个示例都是一个28x28的灰度图像，与10个类别的标签相关联。

10. MegaFace

MF2训练数据集是身份数量上最大的公开可用的面部识别数据集，有470万张面部图像，672K个身份，以及各自的边界框。所有图片均来自Flickr，并在知识共享协议下许可。

自自然语言数据

1. 斯坦福问答数据集(SQuAD)

斯坦福问答数据集(Stanford Question answer Dataset, SQuAD)是一个全新的阅读理解数据集，由众包工作者根据维基百科文章提出的问题组成，其中每个问题的答案都对应阅读文章的一段文本。SQuAD包含500多篇文章的10万对以上的问答对，因此规模明显大于之前的阅读理解数据集。SQuAD2.0将SQuAD1.1中的10万个问题与5万多个新的、无法回答的问题(由众包工作者提出)结合起来，使之看起来与可回答的问题相似。

2. MultiNLI

多体裁自然语言推理语料库(Multi-Genre Natural Language Inference, MultiNLI)是一个由433k个句子对组成的源文本集合语料库，这些句子对都带有文本蕴涵信息。MultiNLI语料库是在SNLI语料库的基础上建立的，但不同之处在于它涵盖了一系列口语和书面文本的体裁，并支持独特的跨体裁评估。

3. CoQA

CoQA是一个用于构建会话问答系统的大型数据集。CoQA包含127k个问题和答案，来自7个不同领域的8k个文本段落的对话。

4. Spider 1.0

Spider是一个大型复杂的跨域语义分析和text-to-SQL的数据集。Spider由10181个问题和5693个独特的复杂SQL查询组成，这些查询来自200个数据库，覆盖138个不同的域。

5. HotpotQA

HotpotQA是一个以自然的、multi-hop的问题为特征的问答数据集，具有强大的支持事实的监督，以实现更易于解释的问答系统。该数据集由113,000对基于Wikipedia的QA对组成。

6. Question Pairs (Quora)

包含超过400,000行潜在的问题对。

7. Yelp open dataset

Yelp数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可在JSON和SQL文件中使用。

8. Facebook bAbI

一个用于自动文本理解和推理的数据集。