尾安全套期保值:在无套利市场中使用白盒CBF-QP安全层解释风险敏感强化学习
我们引入了Tail-Safe,一个面向部署性的衍生品对冲框架,该框架将分布,风险敏感的强化学习与白盒控制障碍功能(CBF)二次程序(QP)安全层结合,以适应财务限制。 学习组件结合了基于IQN的分布批评者与CVaR目标(IQN-CQuaR-PPO)和尾部覆盖控制器,通过温度倾斜和尾部提升调节分位数采样,以稳定小α估计。 安全组件强制执行离散时间CBF不等式以及特定域的限制 - 椭圆无贸易波段,框和速率限制以及符号一致性门 - 作为凸QP解决,其遥测(活动集,紧绷性,速率利用率,闸门得分,松弛和求解器状态)构成了可审计的治理跟踪。 我们提供保证在边界模型不匹配下的安全设置的稳健向前不变性,QP的最小偏差投影解释,KL-to-DRO上限绑定将每个状态KL正则化与最坏情况CVaR,温度倾斜的CVaR估计器的浓度和样品复杂度结果,以及KL限制下的CVaR信任区域改进不等式,以及可行性持久性。 从经验上讲,在无套利,微观结构感知的合成市场(SSVI → Dipre → VIX with ABIDES/MockLOB execution),Tail-Safe提高了左尾风险,而不会降低中央性能,并在QP可行时产生零硬约束违规行为。 遥测映射到治理仪表板和事件工作流程,以支持可解释性和可审计性。 限制包括依赖合成数据和简化执行以隔离方法上的贡献。
机器学习交易与市场微观结构