在线金融相关文本数据中表达的观点对交易决策和市场走势产生了越来越深远的影响。 这一趋势凸显了情绪分析作为量化此类意见的性质和力量的工具的重要作用。 随着生成式AI(GenAI)的快速发展,受监督的微调(SFT)大型语言模型(LLM)已成为金融情绪分析的事实标准。 然而,SFT范式可能导致对训练数据的背诵,并且往往无法概括为看不见的样本。 这是金融领域的一个关键限制,其中模型必须适应以前未观察到的事件和细致入微的金融语言。 为此,我们介绍了FinDPO,这是第一个基于通过直接偏好优化(DPO)培训后人类偏好调整的金融特定LLM框架。 拟议的FinDPO在标准情绪分类基准方面实现了最先进的性能,在11之前优于现有的监督微调模型
商品交易顾问(CTA)历来依赖于趋势遵循的规则,这些规则在从长期突破截然不同的视野中运作,这些突破捕捉了在快速移动市场中蓬勃发展的短期动力信号的主要方向性移动。 尽管在趋势方面进行了大量工作,但短期长期趋势系统的相对优点和相互作用仍然存在争议。 本文通过(i)动态分解CTA回归为短期趋势,长期趋势和市场测试因素,使用贝叶斯图形模型,以及(ii)显示视野的混合如何塑造策略的风险调整性能。
量化预测模型的不确定性对于评估和减轻与数据驱动决策相关的风险至关重要,特别是在电力市场等动荡领域。 机器学习方法可以提供高度准确的电价预测,对于告知市场参与者的决策至关重要。 然而,这些模型往往缺乏不确定性估计,这限制了决策者避免不必要风险的能力。 在本文中,我们提出了一种新的方法来从点预测集合中生成概率预测,称为同位素分位数回归平均(iQRA)。 在Quantile Regression Averaging(QRA)的既定框架的基础上,我们引入了随机顺序约束,以提高预测准确性,可靠性和计算成本。 在一项对德国电力市场的广泛预测研究中,我们表明iQRA在可靠性和清晰度方面始终优于最先进的后处理方法。 它在多个置信水平之间产生经过良好校准的预测间隔,为所有基准方法提供卓越的可靠性,特别是基于覆盖的构象预测。 此外,同位素正则化降低了分位数回归问题的复杂性,并为变量选择提供了一种无参数的方法。
在线金融相关文本数据中表达的观点对交易决策和市场走势产生了越来越深远的影响。 这一趋势凸显了情绪分析作为量化此类意见的性质和力量的工具的重要作用。 随着生成式AI(GenAI)的快速发展,受监督的微调(SFT)大型语言模型(LLM)已成为金融情绪分析的事实标准。 然而,SFT范式可能导致对训练数据的背诵,并且往往无法概括为看不见的样本。 这是金融领域的一个关键限制,其中模型必须适应以前未观察到的事件和细致入微的金融语言。 为此,我们介绍了FinDPO,这是第一个基于通过直接偏好优化(DPO)培训后人类偏好调整的金融特定LLM框架。 拟议的FinDPO在标准情绪分类基准方面实现了最先进的性能,在11之前优于现有的监督微调模型
股票市场是一个国家经济发展最重要的部门之一。 几乎所有公司都发行股票,投资者购买和出售这些公司的股票。 一般来说,投资者希望购买市场流动性相对较高的公司的股票。 市场流动性取决于股票的平均价格。 本文对达卡证券交易所的股票市场数据进行了彻底的线性回归分析。 后来,线性模型与随机森林进行了比较,该模型基于不同的指标,显示随机森林模型的更好结果。 然而,已经确定并解释了不同因素对股价可变性的个体意义程度。 本文还显示,时间序列数据无法生成用于分析的预测线性模型。
我们通过将树提升与潜在的时空高斯过程模型相结合,为信用风险引入了一种新的机器学习模型,该模型考虑了脆弱性相关性。 这允许以灵活的数据驱动方式对预测变量之间的非线性和相互作用进行建模,并解释无法通过可观察的预测变量解释的时空变化。 我们还展示了如何以计算高效的方式进行估计和预测。 在对美国大型抵押贷款信用风险数据集的应用中,我们发现,与传统的独立线性危险模型和线性时空模型相比,使用我们的新方法获得的个人贷款的预测性默认概率和预测性贷款组合损失分布都更准确。 使用机器学习模型的可解释性工具,我们发现这种出色表现的可能原因是预测变量中的强相互作用和非线性效应以及时空弱点效应的存在。
商品交易顾问(CTA)历来依赖于趋势遵循的规则,这些规则在从长期突破截然不同的视野中运作,这些突破捕捉了在快速移动市场中蓬勃发展的短期动力信号的主要方向性移动。 尽管在趋势方面进行了大量工作,但短期长期趋势系统的相对优点和相互作用仍然存在争议。 本文通过(i)动态分解CTA回归为短期趋势,长期趋势和市场测试因素,使用贝叶斯图形模型,以及(ii)显示视野的混合如何塑造策略的风险调整性能。
量化预测模型的不确定性对于评估和减轻与数据驱动决策相关的风险至关重要,特别是在电力市场等动荡领域。 机器学习方法可以提供高度准确的电价预测,对于告知市场参与者的决策至关重要。 然而,这些模型往往缺乏不确定性估计,这限制了决策者避免不必要风险的能力。 在本文中,我们提出了一种新的方法来从点预测集合中生成概率预测,称为同位素分位数回归平均(iQRA)。 在Quantile Regression Averaging(QRA)的既定框架的基础上,我们引入了随机顺序约束,以提高预测准确性,可靠性和计算成本。 在一项对德国电力市场的广泛预测研究中,我们表明iQRA在可靠性和清晰度方面始终优于最先进的后处理方法。 它在多个置信水平之间产生经过良好校准的预测间隔,为所有基准方法提供卓越的可靠性,特别是基于覆盖的构象预测。 此外,同位素正则化降低了分位数回归问题的复杂性,并为变量选择提供了一种无参数的方法。
生存建模预测事件发生的时间,并广泛用于风险分析;例如,它用于医学,根据审查的数据预测患者的生存率。 需要大规模、现实和免费可用的数据集,用于对人工智能(AI)生存模型进行基准测试。 在本文中,我们从Decentralized Finance(DeFi)中借出加密货币产生的公开交易数据中得出了16个生存建模任务。 每个任务都是使用基于索引和结果事件选择的自动化管道构建的。 例如,该模型预测用户从借入加密货币(索引事件)到首次还款(结果事件)的时间。 我们制定了由16个生存时间预测任务(FinSurvival)组成的生存基准。 我们还通过使用限制的平均生存时间阈值来自动为每个任务创建16个相应的分类问题。 FinSurvival拥有超过750万条记录,提供了一套逼真的财务建模任务,将刺激未来的AI生存建模研究。 我们的评价表明,这些任务具有挑战性,现有方法没有很好地解决。 FinSurvival能够评估适用于传统金融,工业,医药和商业的AI生存模型,目前由于缺乏大型公共数据集而受到阻碍。 我们的基准展示了人工智能模型如何评估DeFi的机会和风险。 在未来,FinSurvival基准管道可用于创建新的基准,随着加密货币的使用增长,通过整合更多的DeFi交易和协议。
大型语言模型(LLM)越来越多地部署在代理框架中,其中提示触发复杂的基于工具的分析以追求目标。 虽然这些框架在包括金融在内的多个领域都显示出希望,但它们通常缺乏有原则的模型构建步骤,而是依赖于基于情绪或趋势的分析。 我们通过开发一个代理系统来解决这个差距,该系统使用LLM迭代地发现财务时间序列的随机微分方程。 这些模型生成风险指标,为每日交易决策提供信息。 我们在传统的反测试和使用市场模拟器中评估我们的系统,该模拟器引入了合成但具有因果关系的价格路径和新闻事件。 我们发现,模型知情的交易策略优于标准的基于LLM的代理,提高了多个股票的夏普比率。 我们的结果表明,将LLM与代理模型发现相结合可以增强市场风险估计,并实现更有利可图的交易决策。
目前的工作解决了洗钱问题。 引入了一个新的过程,它通过变压器神经网络利用定性和定量数据的结构化时间序列。 这个过程的第一步是通过对比学习(没有任何标签)来学习时间序列的表示。 第二步利用这些陈述来生成所有观察结果的洗钱评分。 然后采用双阈值方法,通过Benjamini-Hochberg(BH)程序确保受控假阳性率。 实验证实,变压器能够产生通用表示,在领域专家的最低限度监督下,成功地利用洗钱模式。 它还说明了检测非欺诈者和欺诈者的新程序的能力较高,同时保持了假阳性率的控制。 这与基于规则的程序或基于LSTM架构的程序形成鲜明对比。
目的:本研究引入了一种新的框架,用于识别和利用金融市场中的预测性铅滞后关系。 我们提出了一种综合方法,将先进的统计方法与机器学习模型相结合,以加强对股票之间预测关系的识别和利用。 方法:我们使用高斯混合模型(GMM)来根据三年的中端历史波动状况来组合九只突出的股票。 从生成的集群中,我们构建了一个多阶段的因果推断管道,包括格兰杰因果关系测试(GCT),定制的Peter-Clark Momentary Conditional Independence(PCMCI)测试和Eful Transfer Entropy(ETE),以识别强大的预测性链接。 随后,使用动态时间翘曲(DTW)和K-近邻(KNN)分类器来确定交易执行的最佳时滞。 由此产生的战略受到了严格的测试。 结果:2023年6月8日至2023年8月12日测试的拟议基于波动性的交易策略显示出实质性的功效。 投资组合的总回报率为15.38
我们提出了一种将股票回报的财务时间序列分组的方法,以及一个图形设置,以量化和可视化这些集群随着时间的推移的演变。 拟议的图形表示允许应用众所周知的算法来解决经典组合图形问题,可以解释为与投资组合设计和投资策略相关的问题。 我们说明了集群在时间上的演变及其对马德里证券交易所市场真实数据的使用的图表。
图形表示学习方法在财务应用中被广泛采用,通过利用公司间关系来增强公司代表。 然而,当前的方法面临三个关键挑战:(1)关系信息的优势被下游任务设计的限制所掩盖;(2)专门为股票预测而设计的现有图形模型往往受到过度的复杂性和较差的概括;(3)基于经验的公司关系图结构缺乏对不同图结构的有效比较。 为了解决这些限制,我们提出了一个长期的股票预测任务,并开发一个专门为企业关系图定制的Node-level Graph Attention Network(NGAT)。 此外,我们根据模型下游任务性能,实验演示了现有图形比较方法的局限性。 在两个数据集上的实验结果一致证明了我们提出的任务和模型的有效性。 该项目在GitHub上公开发布,以鼓励可重复性和未来的研究。
我们提出了一种深度学习方法,用于预测短期就业变化,并使用美国的劳动力市场数据评估长期行业健康。 劳工统计局。 我们的系统利用长期和短期时间序列网络(LSTNet)来处理多变量时间序列数据,包括就业水平,工资,更替率和职位空缺。 该模型既输出7天就业预测,也输出可解释的行业就业健康指数(IEHI)。 我们的方法在大多数行业都优于基线模型,特别是在稳定行业,并显示出IEHI排名与实际就业波动之间的强烈一致性。 我们讨论错误模式、特定部门的性能以及提高可解释性和概括的未来方向。
金融业的欺诈活动每年花费数十亿美元。 因此,检测欺诈是一项至关重要但技术上具有挑战性的任务,需要仔细分析大量数据。 虽然机器学习(ML)方法似乎是一个可行的解决方案,但由于两个主要挑战,成功应用它们并不容易:(1)标签稀少的数据,这使得此类方法的训练具有挑战性(具有固有的标签成本),(2)对于ML模型不透明度所带来的标记项目缺乏可解释性,这是业务法规通常需要的。 本文提出了SAGE-FIN,一种基于Granger的金融系统神经网络(GNN)方法,为金融交互网络提供因果解释。 SAGE-FIN学习基于弱标记(或未标记)数据点标记欺诈性项目。 为了遵守监管要求,标记的项目通过使用格兰杰因果关系突出显示网络中的相关项目。 我们通过经验验证SAGE-FIN在真实世界数据集Bipartite Edge-And-Node属性金融网络(Elliptic++)上的有利表现,对已识别的欺诈项目进行格兰杰因果关系解释,而无需对网络结构进行任何事先假设。
投资者和股票市场分析师在预测股票收益和做出明智投资决策时面临重大挑战。股票收益的可预测性可以增强投资者信心,但这仍然是一项困难的任务。为解决这个问题,研究使用长短期记忆(LSTM)模型来预测未来股市走势。研究使用来自尼日利亚证券交易所(NSE)的历史数据集,经过清洗和标准化后用于设计LSTM模型。使用性能指标评估模型,并与人工神经网络和卷积神经网络(CNN)等其他深度学习模型进行比较。实验结果表明,LSTM模型能以超过90%的准确率预测未来股票市场价格和收益。
本文探讨如何利用新闻标题数据预测股价。研究对象是追踪美国500家最大上市公司表现的SPDR S&P 500 ETF Trust(简称SPY)。研究重点是通过《华尔街日报》(WSJ)的新闻标题来预测股价的每日走势,使用基于OpenAI的文本嵌入模型为每个标题创建向量编码,并采用主成分分析(PCA)提取关键特征。本研究的挑战在于捕捉新闻对股价随时间变化和不受时间影响的微妙影响,同时处理潜在的滞后效应和市场噪声。为提高模型性能,我们收集了金融和经济数据,包括美元指数(DXY)和国债收益率等。我们训练了超过390个机器学习推理模型。初步结果表明,新闻标题数据嵌入至少能将股价预测准确率提高40%。
支撑位与阻力位(SR)是技术分析的核心要素,指导交易者的入场、出场和风险管理决策。尽管广泛应用,传统SR识别方法往往难以适应现代波动市场的复杂性。近期研究开始采用机器学习技术解决这些问题,但多数聚焦于价格预测而非结构位点识别。本文提出DeepSupp,一种利用多头注意力机制分析空间相关性和市场微观结构关系的深度学习新方法,用于检测金融支撑位。DeepSupp整合了先进的特征工程,构建捕捉市场关系演变的动态相关矩阵,并采用基于注意力的自编码器进行鲁棒表征学习。最终支撑位通过无监督聚类提取,利用DBSCAN算法识别关键价格阈值。在标普500成分股上的综合评估表明,DeepSupp在六种基线方法中表现最优,在支撑位准确率和市场状态敏感性等六项金融指标上达到最先进水平。DeepSupp在不同市场条件下均表现稳定,填补了SR位点检测的关键空白,为现代金融分析提供了可扩展的可靠解决方案。我们的方法凸显了注意力架构在揭示细微市场模式和改进技术交易策略方面的潜力。
从病毒式玩笑到价值数十亿美元的现象,迷因币已成为加密货币市场最受欢迎的板块之一。与比特币或以太坊等注重实用性的加密资产不同,迷因币的价值主要来自社区情绪,这使得它们容易受到操纵。本研究对迷因币生态系统进行了跨链分析,考察了以太坊、BNB Smart Chain、Solana和Base链上的34,988种代币。我们描述了迷因币的代币经济学特征,并通过为期三个月的纵向分析追踪其增长。研究发现,在高回报代币(>100
本文研究了后漂移对过度参数化机器学习模型中样本外预测精度的影响。 我们记录了在训练和测试样本之间更改数据生成过程的加载时的性能损失。 这在可能出现制度变化的环境中至关重要,例如在金融市场。 应用于股票溢价预测,我们的结果强调了市场时机策略对子周期的敏感性以及控制模型复杂性的带宽参数。 对于普通投资者来说,我们发现专注于持有15年期可以产生非常异质的回报,特别是对于小带宽。 大带宽产生更一致的结果,但从风险调整后的回报的角度来看,吸引力要小得多。 总而言之,我们的研究结果倾向于在采用大型线性模型进行股票市场预测时建议谨慎。
本研究通过整合各种数据类别(包括技术指标、链上指标、情绪和兴趣指标、传统市场指数和宏观经济指标)来调查数据源多样性对加密货币预测模型性能的影响。 我们介绍了Crypto100指数,按市值计算代表前100名加密货币,并提出了一种新的特征还原算法,以识别来自不同数据源的最具影响力和弹性的特征。 我们的综合实验表明,数据源多样性显著提高了不同时间范围内预测模型的预测性能。 主要发现包括链上指标对短期和长期预测至关重要,传统市场指数和宏观经济指标对长期预测的相关性日益增加,以及利用不同数据源时模型准确性的大幅提高。 这些见解有助于揭开加密货币市场的短期和长期驱动因素的神秘面纱,并为开发更准确和更具弹性的预测模型奠定基础。
我们引入了一个新颖的代理公司链接,特征矢量链接(CVLs)。 我们使用这个概念来估计公司的联系,首先通过欧几里得相似性,然后通过将量子认知机器学习(QCML)应用于相似性学习。 我们证明这两种方法都可以用来构建有利可图的动力溢出交易策略,但QCML相似性优于更简单的欧几里得相似性。