本调研总结了TB级别以上数据集的简单说明与地址,不限数据类型。其中包含了一些压缩后不足1TB的数据集,他们的原始文件大小均为1TB以上。
Time series similarity learning
调研
- NIPS19 - Learning Representations for Time Series Clustering
流程
- 本质上是在隐空间内学习一个利于分簇的表征,然后利用该表征结合传统的聚类方法,做聚类任务
- 使用auto-encoder的结构,求得时间序列在隐空间中的表达
- 为了使得encoder出的结果更适合于执行聚类任务,使用k-means建模了隐空间中的数据(本质上是无监督的优化类间距离与类内距离),这个过程中使用了可微分的k-means loss
- 为了使得encoder更具有表征能力,添加了一项任务,即分类任务,使用一个子网络来分类encoder编码的真实数据与假数据。
- 使用UCR聚类任务评估效果
我认为的缺点
- K-means的隐空间建模能力远弱与GMM
(有待整理)
哦哦哦,也就是可以用激活函数实现一些数学操作的意思,把特定范围的值(小于零得值)映射到另一个特定的值(0)。【我倒有看到一个用relu把特定的值变为0的,比如gcn自动学习临接矩阵的时候,把小的项变为0】
KDD2019
Robust High Dimensional Stream Classification with Novel Class Detection
Zhuoyi WANG (University of Texas at Dallas)*; Zelun Kong (University of Texas at Dallas); Swarup Chandra (University of Texas at Dallas); Hemeng Tao (The University of Texas at Dallas); Latifur Khan (The university of Texas at Dallas)
TARDIS: Distributed Indexing Framework for Big Time Series Data
liang zhang (WPI)*; Noura S Alghamdi (WPI); Mohamed Y. Eltabakh (Worcester Polytechnic Institute); Elke Rundensteiner (WPI)