活水快报 - 42Digest

JaxMARL-HFT:用于高频交易的GPU加速大规模多代理强化学习

JaxMARL-HFT: GPU-Accelerated Large-Scale Multi-Agent Reinforcement Learning for High-Frequency Trading

Valentin Mohl, Sascha Frey, Reuben Leyland, Kang Li, George Nigmatulin, Mihai Cucuringu, Stefan Zohren, Jakob Foerster, Anisoara Calinescu

arXiv

2025年11月3日

高频金融市场的基于代理的建模(ABM)方法很难校准和验证,部分原因是定义固定代理策略创造了很大的参数空间。多智能体强化学习(MARL)可以实现更现实的代理行为并减少自由参数的数量,但迄今为止,沉重的计算成本限制了研究工作。为了解决这个问题,我们介绍了JaxMARL-HFT(基于JAX的多代理强化学习用于高频交易),这是第一个针对按订单(MBO)数据进行高频交易(HFT)的GPU加速开源多代理强化学习环境。 JaxMARL-HFT扩展了JaxMARL框架,并在JAX-LOB实现的基础上,旨在处理一组异构的代理,实现多样化的观察/动作空间和奖励功能。它的设计灵活,因此也可以用于单代理RL,或扩展为具有固定策略代理的ABM。与同一硬件上最先进的参考实现相比,利用 JAX 可将端到端培训时间缩短240倍。这种显着的加速使得利用高频交易中可用的大型颗粒数据集以及执行交易中强大而高效的MARL研究所需的广泛超参数扫描是可行的。我们演示了JaxMARL-HFT与独立的近端策略优化(IPPO)在双人环境中的使用,订单执行和做市代理,使用一年的LOB数据(4亿订单),并表明这些代理学习优于标准基准。 JaxMARL-HFT框架的代码可在GitHub上使用。

Agent-based modelling (ABM) approaches for high-frequency financial markets are difficult to calibrate and validate, partly due to the large parameter space created by defining fixed agent policies. Multi-agent reinforcement learning (MARL) enables more realistic agent behaviour and reduces the number of free parameters, but the heavy computational cost has so far limited research efforts. To address this, we introduce JaxMARL-HFT (JAX-based Multi-Agent Reinforcement Learning for High-Frequency ...

交易与市场微观结构多智能体系统

View Source