智能AI morning

时间序列作为语言:通用时间序列基础模型的通用分词器

2026-06-10 1 阅读 Yunhao Zhang, Ruiying Qi, Jiale Zheng, Jianfeng Zhang, Lujia Pan, Junchi Yan
arXiv:2606.09861v1 公告类型:新 摘要:虽然 Next-Token Prediction (NTP) 已统一 LLM 预训练,但其对无界、连续时间序列 (TS) 的适应仍然开放。为了弥补这一差距,我们引入了 UniTok(一种将 TS 转换为离散标记的通用标记器)和 UniTok-FM(通过 NTP 对这些标记进行预训练的基础模型)。 UniTok-FM 是一种通用基础模型,支持零样本和即时增强预测,以及通过免训练的上下文推理进行少样本生成和分类,这是以前的工作无法实现的功能。从技术上讲,UniTok 是一种矢量量化自动编码器,结合了用于尺度稳定的前缀归一化、用于编码和解码的渐进分辨率因果架构以及用于训练的结构保留重建损失。 UniTok-FM 采用现成的 LLM 架构,无需针对 TS 进行修改。它不是在孤立的 TS 上进行预训练,而是在由具有相似模式的多个系列形成的上下文窗口上执行 NTP,旨在捕获它们共享的动态。预测、生成和分类实验表明,单个统一的 UniTok-FM 始终优于统计和监督基线,通过特定于任务的基础模型实现有竞争力的性能,并且独特地实现跨任务的免训练上​​下文推理。