一种基于深度强化学习（DRL）的 Transformer 方法解决开店调度问题

摘要

arXiv:2606.13682v1 Announce Type: new Abstract: The open shop scheduling problem (OSSP) arises in many industrial and service settings but remains computationally challenging as the number of jobs and

and the Transformer instances OSSP

2026-06-15 1 阅读约1分钟阅读 Faezeh Ardali, Mwembezi A. Nyelele, Gerald M. Knapp

arXiv:2606.13682v1 公告类型：新摘要：开放车间调度问题 (OSSP) 出现在许多工业和服务环境中，但随着作业和机器数量的增加，计算仍然具有挑战性。虽然精确的方法很快就会变得棘手，但经典的调度规则和元启发法可能需要进行大量调整才能维持大规模的解决方案质量。本研究使用具有多头注意力的编码器-解码器架构，为 OSSP 开发了一种基于 Transformer 的调度策略。该模型仅使用处理时间矩阵作为输入在 Taillard 基准实例（4x4、5x5、7x7 和 10x10）上进行训练，并生成可行的计划，其完工时间通常在已知值的 15-30% 范围内。为了评估可扩展性，训练后的策略无需重新训练即可应用于从 40x40 到 100x100 的随机生成实例，并与经典调度启发式方法（包括 SPT、LPT、MWKR 和 EST）进行比较。在这些大型实例中，Transformer 相对于标准下限的平均差距为 12.89-15.12%。与 EST 相比，Transformer 仍然具有竞争力，通常处于适度的利润范围内，同时大大优于 SPT 和 LPT。这些结果表明，在小型 OSSP 实例上训练的 Transformer 策略可以推广到更大的问题，并为经典调度规则提供轻功能、基于学习的替代方案。

订阅66必读