通知公告 - 智能信息处理中心

2025年08月01日：Timer: Generative Pre-trained Transformers Are Large Time Series Models

【报告内容】

汇报人：翁紫阳

汇报单位：河海大学

主题：《Timer: Generative Pre-trained Transformers Are Large Time Series Models》

1、Introduction

2、Method

3、Experiment

4、Conclusion

【报告总结】

1.待解决的问题描述

（1）数据稀缺与模型泛化能力差：在许多现实场景中，特定任务的训练数据非常有限。传统的深度学习模型在这些数据稀缺的情况下性能会急剧下降，缺乏在不同任务和数据集之间泛化的能力。

（2）数据的极端异构性：真实世界的时间序列数据来源各异，在变量数量、数值范围、采样频率和统计特性上都存在巨大差异，这使得用一个统一的模型来处理它们变得极为困难。

（3）缺乏系统性的大模型开发框架：想要构建像大型语言模型（LLM）一样强大的大型时间序列模型（LTSM），必须解决三个基础性问题：

（4）数据设施滞后：缺少一个大规模、高质量、多样化的、用于预训练的公共数据集。

（5）架构探索不足：哪种神经网络架构最适合大规模时间序列预训练，并具有良好的可扩展性，尚不明确。

（6）任务通用性有限：现有模型大多专用于单一任务（如预测），无法用一个统一的模型解决多种问题。

2.相关创新方案

（1）构建大规模预训练数据集（UTSD）：研究者精心筛选并构建了一个包含高达120亿个时间点的、具有层级结构的统一时间序列数据集（UTSD）。数据集的质量和难度分级是基于平稳性（ADF检验）和可预测性（频谱熵）这两个量化指标来保证的。

（2）提出统一序列格式（S3）：为了处理异构数据，论文提出了一种单序列序列（S3）格式。该方法通过将多变量序列拆分为单变量序列、进行归一化、合并入池、再进行窗口化采样，将所有不同来源的数据转换为模型可以处理的统一格式。

（3）提出了一个名为Timer的生成式预训练、仅解码器Transformer模型。

3.实验总结

（1）少样本能力卓越：预训练后的Timer模型在数据稀缺的下游任务上表现出色。仅用1%-5%的训练数据，其性能就能媲美甚至超越使用100%数据训练的SOTA模型。

（1）任务通用性强：同一个Timer模型在预测、插补和异常检测三个不同的任务上都取得了领先的性能，证明了其统一生成式框架的成功。

（3）可扩展性得到验证：实验证明，Timer的性能随着模型参数量的增加和预训练数据规模的扩大而稳定提升，完全符合大型模型（LTSM）的“规模效应”预期。

（4）零样本性能领先：在与多个同期主流LTSM的零样本预测基准测试中，Timer的综合平均排名位列第一，展示了其强大的泛化能力。

4.未来工作

（1）持续扩展数据基础设施：继续构建更大规模、更高质量、更多样化的时间序列预训练数据集。

（2）扩展任务范围：将更多的下游任务（如时间序列分类）纳入统一的生成式框架中。

报告时间：2025年08月01日19:30

腾讯会议：311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)