Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs
Alexander Bakumenko (1), Kateřina Hlaváčková-Schindler (2), Claudia Plant (2), and Nina C. Hubig (1) ((1) Clemson University, USA, (2) University of Vienna, Austria)
检测总分类账数据中的异常对于确保财务记录的可信度至关重要。 财务审计越来越依赖于机器学习(ML)算法来识别不规则或潜在的欺诈性日志条目,每个日志条目的特征是不同数量的交易。 在机器学习中,特征维度的异质性为数据分析增加了显著的复杂性。 在本文中,我们介绍了一种使用大型语言模型(LLM)嵌入在金融数据中异常检测的新方法。 为了从现实世界的财务记录中编码非语义分类数据,我们测试了3个预先训练的通用句子-变压器模型。 对于下游分类任务,我们实现并评估了5个优化的ML模型,包括Logistic Regression,Random Forest,Gradient Boosting Machines,Support Vector Machines和Neural Networks。 我们的实验表明,LLM为异常检测贡献了有价值的信息,因为我们的模型在选定的环境中超过了基线,甚至在大幅度。 研究结果进一步强调了LLM在加强金融期刊条目中的异常检测方面的有效性,特别是通过解决特征麻痹问题。 我们讨论了在金融领域及以后使用LLM嵌入的非语义数据的一个有希望的观点。
Detecting anomalies in general ledger data is of utmost importance to ensure trustworthiness of financial records. Financial audits increasingly rely on machine learning (ML) algorithms to identify irregular or potentially fraudulent journal entries, each characterized by a varying number of transactions. In machine learning, heterogeneity in feature dimensions adds significant complexity to data analysis. In this paper, we introduce a novel approach to anomaly detection in financial data using ...