28

力荐 50 个最实用的免费机器学习数据集

 4 years ago
source link: https://www.infoq.cn/article/zCGdpvyxJJl7*ja4RQAZ?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

首先,在搜索数据集时要记住这几点:

  • 数据集不应该是混乱的,因为你不希望花费大量时间来清理数据。
  • 数据集不应包含太多行或列,要很容易使用。
  • 数据越干净越好,因为清理大型数据集可能非常耗时。
  • 这个数据集应该可以回答一个非常有趣的问题。

话不多说,开始吧!

数据集查找器

Kaggle:一个包含各种外部贡献数据集的数据科学网站。你可以在其主列表中找到各种合适的数据集,从拉面评级到篮球数据,甚至是西雅图宠物许可证,应有尽有。

https://www.kaggle.com/

UCI 机器学习库:网络上最古老的数据集源之一,是寻找有趣的数据集的第一站。虽然这里的数据集是用户贡献的,因此清洁度不一,但绝大多数都是干净的。你可以直接从 UCI 机器学习库下载数据,无需注册。

http://mlr.cs.umass.edu/ml/

一般数据集

政府公开数据集

Data.gov :该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校绩效分数。但请注意:大部分数据有待进一步研究。

https://www.data.gov/

食物环境地图集:包含当地食物选择如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务:对美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据:美国各地区慢性病指标数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心:来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国数据服务:英国最大的社会、经济和人口数据集。

https://www.ukdataservice.ac.uk/

Data USA:美国公共数据的全面可视化。

http://datausa.io/

金融与经济

Quandl:经济和金融数据很好的数据源,有助于建立预测经济指标或股票价格模型。

https://www.quandl.com/

世界银行开放数据:涵盖全球人口统计数据和大量经济和发展指标的数据集。

https://data.worldbank.org/

国际货币基金组织数据:国际货币基金组织公布的有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

https://www.imf.org/en/Data

金融时报市场数据:来自世界各地的金融市场最新信息,包括股票价格指数、商品和外汇。

https://markets.ft.com/data/

谷歌趋势:检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。

https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0

美国经济协会(AEA):寻找美国宏观经济数据的良好来源。

https://www.aeaweb.org/resources/data/us-macro-regional

机器学习数据集

图像

Labelme:带图像标注的大型数据集。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet:业界最新算法图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点由数百和数千个图像描述。

http://image-net.org/

LSUN:有众多辅助任务的场景理解(房间布局估计、特点预测等)

http://lsun.cs.princeton.edu/2016/

MS COCO:通用图像理解和字幕。

http://mscoco.org/

COIL100:100 个不同的物体,在 360 度旋转的每个角度成像。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组:非常详细的视觉知识库,带有~100K 图像的字幕。

http://visualgenome.org/

谷歌的开放图像:在知识共享版权下的 900 万个图像网址集合,“超过 6000 个类别标签注释”。

https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild:13,000 张人脸标记图像,用于开发人脸识别应用程序。

http://vis-www.cs.umass.edu/lfw/

斯坦福狗数据集:包含 20,580 张图片和 120 种不同的狗品种。

http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别:一种非常特殊的数据集,因为大多数场景识别模型都最好建立在“室外”,这个数据集非常实用。包含 67 个室内类别,总共 15620 张图像。

http://web.mit.edu/torralba/www/indoor.html

情绪分析

多域情绪分析数据集:一个有点老旧的数据集,其中包含来自亚马逊的产品评论。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB 评论:一个较旧的,相对较小的二元情绪分类数据集,包含 25,000 个电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情绪树库:带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

Sentiment140:一个流行的数据集,使用 160,000 条预先删除表情符号的推文。

http://help.sentiment140.com/for-students/

Twitter 美国航空公司情绪:2015 年 2 月美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

安然数据集:来自安然高级管理层的电子邮件数据,以文件夹形式分类存放。

https://www.cs.cmu.edu/~./enron/

亚马逊评论:包含亚马逊 18 年来约 3500 万条评论。数据包括产品和用户信息、评级和明文审核。

https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngrams:Google 图书中的一系列文字。

https://aws.amazon.com/datasets/google-books-ngrams/

Blogger Corpus:收集了来自 blogger.com 的 681288 篇博文。每个博客至少包含 200 个常用英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据:维基百科全文。该数据集包含来自 400 多万篇文章的近 19 亿个单词。你可以按段落、短语或段落本身的一部分进行搜索。

https://code.google.com/archive/p/wiki-links/downloads

Gutenberg 电子书列表:Project Gutenberg 的电子书注释列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

加拿大议会议事录:来自第 36 届加拿大议会记录的 130 万对文本。

http://www.isi.edu/natural-language/download/hansard/

Jeopardy:来自有奖竞猜节目 Jeopardy 的超过 200,000 个问题归档。

https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

英语短信垃圾邮件集:由 5574 条英文短信垃圾邮件组成的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp 评论:Yelp 发布的一个开放数据集,包含超过 500 万条评论。

https://www.yelp.com/dataset

UCI 垃圾邮件集:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。

https://archive.ics.uci.edu/ml/datasets/Spambase

更详细列表:

https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

自动驾驶

Berkeley DeepDrive BDD100k:目前是自动驾驶 AI 的最大数据集。包含超过 100000 个视频,包括一天中不同时段和天气条件下超过 1100 小时的驾驶体验。带注释的图像来自纽约和旧金山地区。

http://bdd-data.berkeley.edu/

百度 Apolloscapes:大型数据集,定义了 26 种不同的语义项目,如汽车、自行车、行人、建筑物、路灯等。

http://apolloscape.auto/

Comma.ai :超过 7 小时的高速公路驾驶数据。细节包括汽车的速度、加速度、转向角和 GPS 坐标。

https://archive.org/details/comma-dataset

牛津的机器人汽车:在英国牛津的同一条路线重复行驶 100 多次、耗时一年多收集的数据集。该数据集包含天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。

http://robotcar-dataset.robots.ox.ac.uk/

城市景观数据集:一个大型数据集,记录 50 个不同城市的城市街景。

https://www.cityscapes-dataset.com/

CSSAD 数据集:此数据集对于自动驾驶车辆的感知和导航非常有用。但该数据集严重偏向发达国家的道路情况。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

KUL 比利时交通标志数据集:比利时法兰德斯地区数以千计的物理交通标志,有超过 10000 多个交通标志注释。

http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

麻省理工学院实验室:在 AgeLab 收集的 1000 多个小时多传感器驾驶数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志、车辆检测、交通信号灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK