Interpretable Machine Learning for Predicting Startup Funding, Patenting, and Exits
Saeid Mashhadi, Amirhossein Saghezchi, Vesal Ghassemzadeh Kashani
这项研究开发了一个可解释的机器学习框架,用于预测启动结果,包括资金、专利和退出。 2010-2023年的公司季度面板由Crunchbase建造,与美国相匹配。 专利商标局(USPTO)数据。 评估三个方面:12个月内下一次融资,24个月内专利股票增长,36个月内通过首次公开募股(IPO)退出或收购退出。 预处理适合开发窗口(2010-2019),并应用于未更改的队列,以避免泄漏。 类不平衡使用逆流行权重和用于名义和连续特征的合成少数民族过度采样技术(SMOTE-NC)来解决。 使用精确回忆曲线(PR-AUC)下的区域和接收器操作特征曲线(AUROC)下的区域进行比较,包括随机森林(Random Forest)、XGBoost、LightGBM和CatBoost。 专利、资金和退出预测实现了 AUROC 值 0.921、0.817 和 0.872,为创新金融提供了透明和可重复的排名。
This study develops an interpretable machine learning framework to forecast startup outcomes, including funding, patenting, and exit. A firm-quarter panel for 2010-2023 is constructed from Crunchbase and matched to U.S. Patent and Trademark Office (USPTO) data. Three horizons are evaluated: next funding within 12 months, patent-stock growth within 24 months, and exit through an initial public offering (IPO) or acquisition within 36 months. Preprocessing is fit on a development window (2010-2019)...