随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
本文介绍了一种新的方法来绘制新兴技术的宇宙,利用包含丰富多样性和当代知识广度的各种源数据来创建新的数据集和多个索引,为这些技术提供新的见解。 Cosmos 1.0数据集是23,544项技术(ET23k)的综合集合,构建成一个分层模型。 每项技术分为三个元簇(ET3)和七个主题簇(ET7),由100维嵌入向量增强。 在宇宙中,我们手动验证了100种名为ET100的新兴技术。 该数据集富含专门用于评估新兴技术格局的其他指数,包括技术意识指数,通用指数,Deeptech和技术时代指数。 该数据集包含来自维基百科的广泛元数据和来自第三方来源的链接数据,如Crunchbase,Google Books,OpenAlex和Google Scholar,用于验证构建索引的相关性和准确性。 此外,我们训练了一个分类器,以确定它们是开发“技术”还是与技术相关的“术语”。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
准确预测客户的购买意图对于业务战略的成功至关重要。 目前的研究主要集中在分析客户未来可能购买的特定类型的产品,很少关注客户是否会从事回购行为的关键要素。 预测客户是否会进行下一次购买是一项经典的时间序列预测任务。 然而,在现实世界中的购买行为中,客户群体通常会表现出不平衡 - 即有大量的偶尔买家和少数忠实客户。 这种头尾分布使传统的时序列预测方法在处理此类问题时面临一定的局限性。 为了应对上述挑战,本文提出了统一的聚类和注意力机制GRU模型(CAGRU),该模型利用多模态数据进行客户购买意向预测。 该框架首先对客户特征进行客户分析,并将客户集群化,以划定包含类似功能的不同客户集群。 然后,由GRU神经网络提取不同客户集群的时间序列特征,并引入注意力机制来捕捉序列位置的重要性。 此外,为了减轻客户细分的正面分布,我们为每个客户细分市场分别培训模型,以更准确地调整和捕捉不同客户细分市场之间行为特征的差异,以及同一客户细分市场中客户的相似特征。 我们构建了四个数据集,并进行了广泛的实验,以证明拟议的CAGRU方法的优越性。
今天的政治主要是关于影响公众的信息传递的艺术,但信息传递的数学理论 - 信息和通信理论 - 可以使这种艺术变成定性和定量的精确分析,使我们能够对政治事件进行回顾性理解并做出前瞻性预测。
这项研究根据来自欧洲、英国和美国的1,083名经理的调查数据,研究了网络安全的战略作用。 研究结果表明,人们越来越认识到网络安全是竞争优势的来源,尽管企业继续面临资源有限、人才短缺和文化阻力等障碍。 大型和高科技公司倾向于采取更积极的战略,而中小企业和低技术部门则表现出更大的可变性。 在平衡安全与创新和敏捷性方面出现了关键的管理紧张关系。 欧洲、英国和美国都观察到明显的国家一级差异。 在所有背景下,领导力和员工敬业度似乎是缩小战略意图与运营实践差距的核心。
为了应对对可持续制造的不断升级的需求,本研究引入了基于模拟的方法(SBA),以模拟能源密集型随机生产系统的停止政策,该系统在实际工业环境中开发和测试。 该案例公司——一家能源密集型的铅酸电池制造商——在其热处理操作中面临巨大的过程不确定性,使静态规划效率低下。 为了评估基于传感器的潜在解决方案,SBA利用模拟传感器数据(使用马尔可维模型)来迭代完善贝叶斯能源估计值并动态调整批次特定的处理时间。 全面的数值模拟,反映了公司2024年的热处理过程,评估了SBA的节能潜力,配置稳健性以及对过程不确定性和传感器失真度的灵敏度。 结果与三种规划场景进行了基准测试:(1)优化计划处理时间(OPT);(2)公司的当前基线实践;(3)具有完全已知能源需求的理想场景。 在所有测试环境中,SBA明显优于OPT,在某些情况下,其性能甚至相当于理想场景。 与目前的基线实践相比,能源投入减少了14-25分析,进一步突出了SBA平衡能源和检验劳动成本的能力,为工业决策者提供了可操作的见解。
准确的经济模拟通常需要许多实验运行,特别是当与强化学习相结合时。 不幸的是,在多智能体经济环境中训练强化学习剂可能很慢。 本文介绍了基于AI经济学家的快速模拟经济EconoJax。 EconoJax及其训练管道完全用JAX编写。 这使得EconoJax能够扩展到大人口规模并进行大型实验,同时将训练时间保持在几分钟之内。 通过对100名药剂进行的实验,我们展示了现实世界的经济行为是如何通过15分钟内通过培训出现的,而之前的工作则需要几天时间。 我们还在不同的大小动作空间进行实验,以测试一些多智能方法是否比其他方法产生更多样化的行为。 在这里,我们的发现表明,在早期作品中有时建议的不同方法,产生的行为没有显着差异。 为了帮助进一步研究,我们在Github上开源了EconoJax。
随着大型语言模型(LLM)融入我们的社会和经济互动,我们需要加深对人类如何在战略环境中应对LLM对手的理解。 我们介绍了第一个受控制的货币激励的实验室实验的结果,该实验在针对其他人类和LLM的多人p-beauty竞赛中观察人类行为的差异。 我们使用主题内设计来比较个人层面的行为。 我们表明,在这种环境中,人类受试者在对抗LLM时选择的数字明显低于人类,这主要是由于“零”纳什均衡选择的流行率增加。 这种转变主要是由具有高战略推理能力的主体推动的。 玩零纳什均衡选择的受试者通过吸引LLM的推理能力以及出乎意料的合作倾向来激励他们的策略。 我们的发现为同时选择游戏中的多人人与LLM交互提供了基础见解,揭示了两个主题在对抗LLM时的行为和信念的异质性,并提出了混合人LLM系统中机制设计的重要影响。
算法工具越来越多地用于招聘,以提高公平和多样性,通常是通过执行诸如性别平衡的候选人候选名单等限制因素。 然而,我们在理论上和经验上表明,在入围阶段强制执行平等代表权并不一定转化为更多样化的最终招聘,即使在招聘阶段没有性别偏见的情况下。 我们确定了影响这一结果的一个关键因素:算法筛选标准与人类招聘经理的评价标准之间的相关性 - 更高的相关性导致最终招聘的多样性降低。 使用对多家技术公司的近80万份工作申请进行大规模实证分析,我们发现,当算法筛选密切反映招聘经理的偏好时,执行平等的候选名单在招聘多样性方面产生了有限的改进。 我们提出了一个互补的算法方法,明确设计通过选择可能被经理忽视的候选人来多样化,但仍根据其评估标准具有竞争力。 经验模拟表明,这种方法显着增强了最终员工的性别多样性,而不会显着影响招聘质量。 这些发现强调了算法设计选择在实现组织多样性目标方面的重要性,并为实施面向公平的招聘算法的从业者提供了可操作的指导。
这项研究探讨了数字社会关系中的可见性和影响力的动态,研究了它们对新符号资本的出现的影响。 该研究使用混合方法设计,结合了对20个数字活跃个体的半结构化访谈和定量社交媒体数据分析,以确定数字符号资本的关键预测因素。 调查结果显示,可见性受到内容质量、网络规模和参与策略的影响,而影响取决于可信度、权威性和信任度。 该研究确定了一种新的象征资本形式,基于在线知名度,影响力和声誉,不同于传统形式。 该研究讨论了这些动态的伦理影响,并提出了未来的研究方向,强调需要更新社会理论来考虑数字化转型。
我开发Ornithologist,一个弱监督的文本分类系统,并衡量中央银行文本的鹰派和鸽派。 鸟类学家使用“分类引导推理”,用人信的决策树引导大型语言模型。 这增加了系统的透明度和可解释性,并使非专家可以访问。 也降低了幻觉风险。 由于它比传统分类系统需要更少的监督,因此可以更容易地应用于其他问题或文本来源(例如新闻),而无需进行太多修改。 鸟类学家对RBA通信鹰派和鸽派的测量传递了有关现金利率路径和市场预期的未来的信息。
我们提出了关于生成式AI如何改变知识工作者的工作模式的证据,这些数据来自为期6个月的跨行业随机现场实验。 在这项研究的7137名工人中,有一半获得了一个生成式人工智能工具,这些工具集成到他们已经用于电子邮件、文档创建和会议的应用程序。 我们发现,在发布的第一年访问人工智能工具主要影响工人可以独立改变的行为,而不是需要协调改变的行为:在超过一半的样本周内使用该工具的工人花费的时间减少了3.6小时,或31小时为1.3小时),并且以适度的速度完成文件,但没有显着改变会议花费的时间。
我们探索了大型语言模型(LLM)在经济市场实验中复制人类行为的潜力。与之前的研究相比,我们侧重于LLM代理之间的动态反馈:每个LLM的决策会影响当前步骤的市场价格,从而影响其他LLM在下一个步骤的决策。我们将LLM的行为与实验室环境观察到的市场动态进行比较,并评估其与人类参与者行为的一致性。我们的研究结果表明,LLM并不严格遵循理性预期,而是表现出受限理性,类似于人类参与者。提供一个最小的上下文窗口,即前三个时间步骤的记忆,并结合捕捉响应异质性的高变异性设置,可以使LLM复制人类实验中观察到的广泛趋势,例如正反馈市场和负反馈市场之间的区别。然而,在细粒度层面仍然存在差异——LLM表现出的行为异质性低于人类。这些结果表明,LLM有望成为模拟经济环境中真实人类行为的工具,但需要进一步的研究来完善其准确性并增加行为多样性。
我们调查大型语言模型(LLM)的隐藏状态是否可用于估计和推算经济和金融统计数据。 专注于县级(例如失业)和公司级(例如总资产)变量,我们表明,在开源LLM的隐藏状态上训练的简单线性模型优于模型的文本输出。 这表明,隐藏的国家捕获比LLM的反应直接揭示的更丰富的经济信息。 一项学习曲线分析表明,只有几十个标记的示例足以用于训练。 我们还提出了一种传输学习方法,可以提高估计的准确性,而无需为目标变量提供任何标记数据。 最后,我们展示了隐藏状态表示在超分辨率和数据估算任务中的实际效用。
随着大规模社会数据爆炸和机器学习方法的发展,创业和创新学者面临着新的研究机遇,但也面临着独特的挑战。 本章讨论了利用大规模数据识别技术和商业新颖性、记录新的风险来源以及预测新技术与商业形式之间的竞争的困难。 它建议学者如何利用新的文本,网络,图像,音频和视频数据,以两种不同的方式推进创新和创业研究。 首先,机器学习模型与大规模数据相结合,能够构建精密测量,作为人类社会创新和创业的系统级观测站。 其次,由大数据推动的新人工智能模型产生了技术和业务的“数字双倍”,形成了关于创新和创业过程和政策的虚拟实验的实验室。 本章通过将大数据与大模型耦合,主张在创业和创新中推进理论开发和测试。
大型语言模型(LLM)已被证明可以提高引导设置中的个体生产力。 虽然LLM也可能在协作工作环境中改变创新流程,但目前尚不清楚这种转变将遵循什么轨迹。 这些背景下的创新既包括能力创新,通过在项目中获得新能力来探索新的可能性,也包括通过提高既定能力和提高项目质量来利用现有基础的迭代创新。 LLM是否影响协作工作的这两个方面,以及在多大程度上是一个开放的经验问题。 开源开发为研究LLM对这些创新类型的影响提供了一个理想的环境,因为它的自愿和开放/协作性质为技术增强提供了最大的机会。 我们专注于GitHub上的开源项目,利用围绕2021年10月选择性推出GitHub Copilot(一种以编程为重点的LLM)的自然实验,其中GitHub Copilot选择性地支持Python或Rust等编程语言,但不是R或Haskell。 我们观察到总体贡献的显着增长,这表明LLM在无指导的环境中有效地增强了协作创新。 有趣的是,Copilot的推出增加了迭代式创新,专注于维护相关或功能精炼的贡献,远远超过通过代码开发或功能引入提交的能力创新。 这种差异在2022年6月模型升级后更为明显,并且在具有广泛编码活动的活跃项目中表现得很明显,这表明随着LLM能力和/或可用上下文信息的改善,能力和迭代创新之间的差距可能会扩大。 我们讨论实际和政策影响,以激励高价值的创新解决方案。
该研究使用基于代理的模型调查了Davao del Sur的咖啡价值链动态。 确定了推动关键参与者之间互动的三个主要因素:信任、风险和交易成本。 该模型是使用NetLogo 6.3.0构建的,调查问卷中的数据从BACOFA成员那里收集了三个数据点。 探索了5个案例,每个场景模拟了1000次。 研究结果表明,由于价格上涨,生产者经常向市场而不是合作社出售。 然而,生产商倾向于优先考虑对买家的信任及其风险态度,从而导致对合作社的销售增加。 生产者的风险态度显著影响他们的决策,影响业绩结果,如贷款、需求和价格变化。 这三个因素都起着作用,对价值链产生不同的影响。 因此,利益相关者关于优先改善关系的因素的决定取决于他们的优先事项。 尽管如此,模拟表明,建立一个惠及各方的和谐体系是可能的。 然而,实现这一目标需要对关键参与者的需求、定价、信任和风险态度进行调整,这可能与现实中某些各方的偏好不一致。
生成式人工智能(GenAI)和大型语言模型(LLM)被认为对行业和商业动态产生重大影响,尤其是因为它们对创业的先决条件产生了影响。 创业研究中仍然缺乏将GenAI作为主题的知识。 本文介绍了系统文献综述,旨在确定和分析关于GenAI对创业的影响的研究不断变化的格局。 我们分析了从领先的学术数据库获得的83篇同行评审文章:Web of Science和Scopus。 使用自然语言处理和无监督机器学习技术与TF-IDF矢量化,主要组件分析(PCA)和分层聚类,确定了五个主要主题集群:(1)数字化转型和行为模型,(2)GenAI增强教育和学习系统,(3)可持续创新和战略AI影响,(4)商业模式和市场趋势,(5)数据驱动的创业技术趋势。 根据综述,我们讨论了未来的研究方向,当前文献中的差距,以及文献中提出的伦理问题。 我们强调需要对GenAI和LLM进行更多的宏观研究,作为创业的外部推动因素,以及研究促进商业实验,创新和进一步技术发展的有效监管框架。
我们根据非合作博弈论来描述区域辅助市场耦合。 为此,我们将辅助市场制定为多领导者单一追随者双级问题,我们随后将其塑造为具有侧约束和非凸可行性集的广义纳什游戏。 我们确定平衡存在的条件,并表明游戏具有广义的潜在游戏结构。 为了计算市场均衡,我们依赖于两种精确的方法:集成优化方法和Gauss-Seidel最佳响应方法,我们将其与多智能深度强化学习进行比较。 根据德国和奥地利的真实数据,模拟表明多智能体深度强化学习实现了最小的收敛率,但需要预训练,而最佳响应是最慢的。 在经济学方面,与确切方法相比,多智能体深度强化学习导致市场成本更小,但代价是利益相关者之间利润分配的可变性更高。 此外,区域之间更强的耦合往往会降低较大区域的成本。
在有关人工智能(AI)治理和监管的政策辩论中,各自的利益集团都主张预防原则(PP)和创新原则(IP)。 这些原则是否提供了完全不兼容和矛盾的指导? 一个是否必然否定另一个? 我在这里辩称,提供的关注仅限于弱形式的 PP 和 IP ,这两个问题的答案都是“不”。 这些薄弱的提法的本质是要求充分考虑因错误地阻止创新在社会中传播而产生的I型错误成本(即错误的监管红灯)以及错误地允许创新在社会中扩散而产生的II型错误成本(即错误的监管绿灯)。 在此处开发的信号检测理论(SDT)模型中,弱PP红光(弱IP绿光)测定对于预期I型与II型错误成本的足够小(大)比率是最佳。 对于中间预期成本比率,琥珀光的“等待和监控”策略是最佳的。 监管沙箱仪器允许人工智能测试和实验在有限期限和社会规模的结构化环境中进行,预计成本比属于“等待和监控”范围。 通过沙箱监管机构和创新公司更多地了解预期成本比率,以及需要哪些各自的调整 - 监管,技术解决方案,商业模式或其组合(如果有的话)来保持弱PP红灯区的比例。