超大规模数据集(TB级别以上)调研

2020/06/18 12:00:00 2020/06/18 12:00:00 survey dataset extreme-large

本调研总结了TB级别以上数据集的简单说明与地址,不限数据类型。其中包含了一些压缩后不足1TB的数据集,他们的原始文件大小均为1TB以上。

文本数据

视频/图像数据

其他数据集

这些数据集无法准确的列出大小或下载地址,但都是公开的数据集,其大小参考了一些已发表论文中的描述

  • Sloan Digital Sky Survey (SDSS) dataset: one of the largest astronomical catalogs publicly accessible (more than 3.4TB).
    • download: https://www.sdss.org/dr13/
    • paper: Dawson, K. S., Kneib, J. P., Percival, W. J., Alam, S., Albareti, F. D., Anderson, S. F., … & Zou, H. (2016). The SDSS-IV extended Baryon Oscillation Spectroscopic Survey: overview and early data. The Astronomical Journal, 151(2), 44.
    • find this dataset in: Yan, Y., Cao, L., Kulhman, C., & Rundensteiner, E. (2017, August). Distributed local outlier detection in big data. In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1225-1234).