摘要: 实践数据科学的最佳方法是尝试不同类型的项目。如果您打算开始数据科学的职业生涯,那么需要熟悉其基本构建模块,即数据。它通常存储在数据集中,可以使用和操作该数据集来获得见解或练习技能。 数据集有 2 种文件格式: .xlsx:众所周知的 Excel 文件扩展名...
实践数据科学的最佳方法是尝试不同类型的项目。如果您打算开始数据科学的职业生涯,那么需要熟悉其基本构建模块,即数据。它通常存储在数据集中,可以使用和操作该数据集来获得见解或练习技能。
数据集有 2 种文件格式:
.xlsx
:众所周知的 Excel 文件扩展名.csv
:逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值)
当然,还有很多其他的,但这些是在公共资源扫描期间更有可能遇到的。要成为一名成功的数据专业人员,首先必须能够为工作找到正确的数据集。这不是一件容易的事情,特别是如果是初学者或入门级的。在本文中,我们将帮助您找到适合自己项目的产品 - 全部免费。话不多说,让我们来看看公共数据集的10大在线资源。
1.Kaggle
Kaggle 是最流行的数据科学平台之一。它举办竞赛,并拥有机器学习和人工智能等多个行业领域的课程目录。Kaggle 最佳特点是它提供了数千个大大小小的数据集,可以免费下载。其中大多数格式为 .cvs
文件。
在该网站上,您会发现许多有趣的数据集,这些数据集最初是数据科学爱好者竞赛的一部分。其中一个示例是著名的泰坦尼克号数据集,可以在该数据集上练习构建机器学习模型来预测哪些乘客在海难中幸存。此外,还可以与 Kaggle 社区分享结果并交流知识。
因此,如果您正在寻找一种用于学习、练习和竞争的一体化解决方案,那么 Kaggle 是正确的起点。
链接地址:https://www.kaggle.com/datasets
2.Google Dataset Search
Google 数据集搜索计划于 2018 年推出,它使访问和下载免费公共数据集成为可能。可选择各种主题和格式,包括 .pdf
、.csv
、.jpg
、.txt
等。
使用它就像运行常规的 Google 搜索一样简单,只需在栏中写下要查找的名称或主题即可。当输入时,它会不断建议具有正在寻找的特定关键字的数据集,因此可能会发现一些全新且令人兴奋的东西。
链接地址:https://datasetsearch.research.google.com/
3.GitHub
除了成为开发人员最好的朋友之外,GitHub 还提供数千个小型和大型数据集来满足数据分析需求。在左侧,可按“语言”和“关键字”过滤结果,这可以选择您感兴趣的主题,以便根据兴趣来策划内容。
此外,在 GitHub 上,还可以与世界分享您的工作,这使其成为构建数据科学作品集的绝佳机会。
链接地址:https://github.com/search?q=datasets
4.World Bank Open Data
World Bank Open Data :世界银行开放数据,被认为是最丰富、最多样化的统计事实和公共数据集资源之一。可按“国家/地区”或“指标”等类别进行搜索,以查找人口统计信息,例如:
- 人口
- 收入水平
- 医疗状况
- 教育
- 经济
世界银行网站真正有趣的是,它为公众提供免费资源和工具,例如数据库,一种分析和可视化大型数据集的有用工具。
链接地址:https://data.worldbank.org/
5.Data.world
通过 data.world,可以访问免费数据集,也可以直接在网站上处理某些数据集。所要做的就是创建一个免费帐户,之后就可以从事 3 个免费项目。或者,如果需要升级到更大的存储空间,也可以制定定价计划。
通过使用搜索栏,可以查找关键字、资源、组织或人员。如果想更具体,可以单击“创建高级过滤器”按钮来准确找到所要查找的内容。
链接地址:https://data.world/search
6.DataHub
DataHub 是 Datopian 的 SAAS 数据发布平台,可在其中浏览按主题组织的最多样化的公共数据集集合。该平台还设有一个博客,可以在其中欣赏有关各种数据科学主题的文章。
DataHub 的令人兴奋之处在于,它提供了有关如何使用该平台的文档部分,以及有关如何使用其功能构建可视化和在线管理大型数据集的有用教程。
链接地址:https://datahub.io/collections
7.Humanitarian Data Exchange
如果正在寻找一个可以在一个地方下载、上传、使用和共享数据的平台,那么 Humanitarian Data Exchange 是必去的地方,可搜索免费数据集并按位置、格式、组织和许可证过滤结果。
该资源如此独特的原因在于,在主页上,您会找到一个名为“Dataviz”的选项。在那里,可探索如相关的 COVID-19 数据,并在图库中发现由数据可视化的强大力量讲述的富有洞察力的故事。
链接地址:https://data.humdata.org/dataset
8.FiveThirtyEight
毫无疑问,FiveThirtyEight 是最佳的数据新闻网站。然而,它与以前的资源有点不同,这就是它脱颖而出的原因。
这个伟大的平台发布体育、政治和科学领域的内容,提供创建内容时使用的代码和数据。其中亮点是它都是公开的。只需使用电子邮件注册,就会收到直接发送到收件箱的新闻通讯。
现在是令人兴奋的部分是它的数据集。FiveThirtyEight 有大量数据可供选择,并定期更新其资源,当前正在更新的数据集旁边的橙色点就是证明。
链接地址:https://data.fivethirtyeight.com/
9.UCI 机器学习存储库
这可能是迄今为止涵盖的最不丰富的资源,但如果想要构建机器学习模型,UCI 机器学习存储库仍然非常有帮助。
尽管不像其他数据集库那么丰富,但 UCI 是互联网上发布的最古老的数据源之一。实际上网上有一个数据集可以追溯到 1987 年!
用户界面非常简单且有条理,可以按默认任务、属性类型、数据类型和专业领域进行浏览。但如果喜欢更优雅和现代的网页设计,那么您很幸运 - 该存储库目前正在测试具有全新外观的测试版:
链接地址:https://archive.ics.uci.edu/datasets.php
10.Academic Torrents Data
如果您是一名学者或正在撰写研究论文或硕士学位论文,那么 Academic Torrents Data 是理想的学习伙伴。该平台包含来自科学论文的各种大型数据集,其中一些数据集大小达到 2 TB。
使用学术种子非常简单:只需搜索数据集、论文、课程和集合即可。您还可以上传自己的内容,以便其他人可以进行试验。
数据集本身是免费的,但是要下载数据集,需要在系统上安装一个 torrent 客户端。