超大规模数据集(TB级别以上)调研

本调研总结了TB级别以上数据集的简单说明与地址,不限数据类型。其中包含了一些压缩后不足1TB的数据集,他们的原始文件大小均为1TB以上。

调研:美国COVID19感染/死亡、历史流感感染/死亡

2020/06/11 12:00:00 survey dataset covid19

以下数据均来源于美国疾病控制与预防中心(CDC)。

Time series similarity learning

调研

  • NIPS19 - Learning Representations for Time Series Clustering

流程

  1. 本质上是在隐空间内学习一个利于分簇的表征,然后利用该表征结合传统的聚类方法,做聚类任务
    1. 使用auto-encoder的结构,求得时间序列在隐空间中的表达
    2. 为了使得encoder出的结果更适合于执行聚类任务,使用k-means建模了隐空间中的数据(本质上是无监督的优化类间距离与类内距离),这个过程中使用了可微分的k-means loss
    3. 为了使得encoder更具有表征能力,添加了一项任务,即分类任务,使用一个子网络来分类encoder编码的真实数据与假数据。
  2. 使用UCR聚类任务评估效果

我认为的缺点

  1. K-means的隐空间建模能力远弱与GMM

激活函数

(有待整理)

哦哦哦,也就是可以用激活函数实现一些数学操作的意思,把特定范围的值(小于零得值)映射到另一个特定的值(0)。【我倒有看到一个用relu把特定的值变为0的,比如gcn自动学习临接矩阵的时候,把小的项变为0】

Other Outstanding Papers

2019/12/31 00:00:00 paper list

KDD2019

  • Robust High Dimensional Stream Classification with Novel Class Detection

    Zhuoyi WANG (University of Texas at Dallas)*; Zelun Kong (University of Texas at Dallas); Swarup Chandra (University of Texas at Dallas); Hemeng Tao (The University of Texas at Dallas); Latifur Khan (The university of Texas at Dallas)

  • TARDIS: Distributed Indexing Framework for Big Time Series Data

    liang zhang (WPI)*; Noura S Alghamdi (WPI); Mohamed Y. Eltabakh (Worcester Polytechnic Institute); Elke Rundensteiner (WPI)