AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

计算机与社会研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

迅速的战争:人工智能如何决定军事干预

哪些因素决定了人工智能的军事干预倾向? 虽然人工智能在战争游戏和军事规划中的使用呈指数级增长,但对嵌入模型中的关键驱动因素的简单分析尚未完成。本文做了一个简单的连体实验,提出了一个模型,以决定640个小插曲的军事干预,其中每个小插曲运行100次,允许系统地探索人工智能关于军事干预的决定。分析发现,人工智能干预决策的最大预测因素是国内支持高,成功的可能性很高。国际谴责、军事死亡、平民死亡和负面经济影响等代价在统计上具有重要意义,但其影响约为国内支持和胜利概率的一半。机会的关闭窗口只有在与其他因素的相互作用中才能达到统计意义。结果在场景和不同模型(OpenAI GPT,Anthropic Claude,Google Gemini)之间非常一致,表明AI决策的模式。

计算机与社会人工智能

数据所有者如何说不? 网络刮除视觉语言AI训练数据集中数据同意机制的案例研究

互联网已成为培训现代文本到图像或视觉语言模型的主要数据来源,但越来越不清楚用于培训人工智能系统的网络规模数据收集实践是否充分尊重数据所有者的意愿。忽视所有者对数据使用的同意,不仅引起了道德问题,而且最近也被提升到了版权侵权案件的诉讼。在这项工作中,我们的目标是揭示数据所有者同意AI抓取和培训的信息,并研究它在DataComp中的表现,DataComp是一个128亿文本图像对的流行数据集。我们检查样本级信息,包括版权声明、水印和元数据,以及网络域级信息,例如网站的服务条款(ToS)和机器人排除协议。我们估计至少有122M的样本在CommonPool中表现出一些版权声明,并发现前50个域名中有60%的样本来自ToS禁止抓取的网站。此外,我们估计9-13%,其中95%的置信区间样本含有水印,其中现有的水印检测方法无法高保真度捕获它们。我们的整体方法和研究结果表明,数据所有者依靠各种渠道来传达数据同意,其中目前的AI数据收集管道并不完全尊重。这些发现强调了当前数据集策划/发布实践的局限性,以及考虑到人工智能目的的统一数据同意框架的必要性。

计算机与社会人工智能密码学与安全

使用大型语言模型模拟社交网络中的虚假信息传播

社交媒体上的虚假信息在惊喜,情感和身份驱动的推理中茁壮成长,通常通过人类的认知偏见放大。为了研究这些机制,我们将大型语言模型(LLM)角色建模为合成代理,模仿用户级别的偏见,意识形态对齐和信任方法。在这个设置中,我们引入了一个审计-结核框架,以模拟和分析错误信息如何演变,因为它通过此类代理的网络传播。新闻文章在受人情条件的LLM节点网络中传播,每个重写接收的内容。一个基于问题的审计师,然后衡量每一步的事实保真度,提供可解释的,对错误信息漂移的索赔级跟踪。我们正式确定了错误信息索引和错误信息传播率,以量化多达30个顺序重写的同质和异构分支的事实退化。在10个领域对21个角色进行的实验表明,基于身份和意识形态的角色充当错误信息加速器,特别是在政治,营销和技术领域。相比之下,专家驱动的角色维护了事实的稳定。受控随机分支模拟进一步表明,一旦出现早期扭曲,异构角色互动就会迅速将错误信息升级为宣传级别的扭曲。我们对错误信息严重程度的分类 - 跨越事实错误,谎言和宣传 - 将观察到的漂移与错误信息研究中的既定理论联系起来。这些发现证明了LLM作为类人偏见的代理和能够追踪信息保真度的审计师的双重作用。拟议的框架提供了一种可解释的、以经验为基础的方法来研究、模拟和减轻数字生态系统中的错误信息传播。

社会与信息网络人工智能计算与语言计算机与社会

卫星图像与专家混合的可通用贫民窟检测

基于卫星的贫民窟分割在产生全球城市贫困估计方面具有重大希望。然而,非正式住区形态异质性是一个重大挑战,阻碍了对特定区域进行有效推广到看不见的地点的模型的能力。为了解决这个问题,我们引入了一个大规模的高分辨率数据集,并提出了GRAM(Generalized Region-Aware Mixture-of-Experts),这是一个两阶段的测试时间适应框架,可以实现强大的贫民窟分割,而无需来自目标区域的标记数据。我们编制了来自四大洲12个城市的百万规模卫星图像数据集,用于源培训。使用此数据集,该模型采用混合专家架构来捕获特定区域的贫民窟特征,同时通过共享骨干学习通用特征。在适应过程中,专家的预测一致性会过滤掉不可靠的伪标签,使模型能够有效地推广到以前看不见的区域。 GRAM在非洲城市等低资源环境中优于最先进的基线,为全球贫民窟测绘和数据驱动的城市规划提供了可扩展且标签效率的解决方案。

计算机视觉与模式识别计算机与社会

道德改变还是噪音? 关于将人工智能与暂时不稳定的人类反馈保持一致的问题

道德领域的对齐方法试图引起人类利益相关者的道德偏好,并将其纳入人工智能。这预设了道德偏好作为静态目标,但这种偏好往往会随着时间的推移而演变。人工智能与动态人类偏好的正确对齐,最好应该考虑到道德推理的“合法”变化,而忽略与注意力缺陷,认知偏差或其他任意因素相关的变化。然而,常见的AI对齐方法在很大程度上忽略了偏好的时间变化,对适当的对齐提出了严峻的挑战,特别是在人工智能的高风险应用中,例如,在医疗保健领域,错位可能会危及系统的可信度并产生严重的个人和社会危害。这项工作调查了人们的道德偏好随时间变化的程度,以及这些变化对AI对齐的影响。我们的研究基于肾脏分配领域,在那里,我们对来自3-5个疗程的400多名参与者的假想肾移植患者的成双对比较做出了反应。我们发现,平均而言,参与者在6-20%的时间(表现出“反应不稳定”)的不同时间对同一场景的反应。此外,我们观察到几个参与者的改造决策模型随时间(捕捉“模型不稳定”)发生了重大变化。简单AI模型的预测性能作为响应和模型不稳定的函数而下降。此外,预测性能随着时间的推移而下降,突出了在训练期间考虑偏好时间变化的重要性。这些发现提出了与AI对齐相关的基本规范和技术挑战,突出表明当用户偏好随着时间的推移显着变化时,需要更好地了解对齐对象(与什么对齐)。

人机交互人工智能计算机与社会

通过社区的规模和相互联系衡量在线平台的集中化

分散式架构为在线平台提供了强大而灵活的结构,因为集中式审核和计算很容易通过有针对性的攻击来破坏。然而,一个提供去中心化架构的平台并不能保证用户会以去中心化的方式使用它,衡量社会技术网络的集中化并不是一件容易的事情。在本文中,我们介绍了一种描述社区影响的方法,即社区之间有多少边缘会因社区的移除而中断。我们的方法提供了适合双部分用户社区社会技术网络中的“中心化”的仔细定义,并展示了更琐碎的询问集中化方法的不足,例如检查社区规模的分布。我们使用这种方法比较多个社会技术平台的结构 - Mastodon,git code托管服务器,BitChute,Usenet和Voat - 并找到一系列结构,从互连但分散的git服务器到Mastodon服务器的有效集中使用,以及断开连接的Voat子宇宙的多尺度混合网络结构。随着社会技术平台生态系统的多样化,不仅关注基础技术,而且考虑用户如何通过技术基础设施进行交互的结构变得至关重要。

社会与信息网络计算机与社会

通过识别技能差距和根据职业兴趣推荐课程来改善毕业生成绩

本文旨在通过提出课程推荐系统的设计和开发,解决为学生选择相关课程的挑战。课程推荐系统利用数据分析技术和机器学习算法的组合来推荐符合当前行业趋势和要求的课程。为了提供定制的建议,该研究需要设计和实施一个广泛的算法框架,该框架结合了机器学习方法,用户偏好和学术标准。该系统采用数据挖掘和协作过滤技术来检查过去的课程和个人职业目标,以提供课程建议。此外,为了提高推荐系统的可访问性和实用性,特别注意开发易于使用的前端接口。前端设计通过迭代原型和用户输入修订,优先考虑视觉清晰度,交互和简单性,保证流畅和迷人的用户体验。我们通过整合用户反馈来完善和优化拟议系统,确保其有效满足目标用户的需求和偏好。拟议的课程推荐系统可以成为学生,教师和职业顾问的有用工具,用于促进终身学习和专业进步,因为它填补了大学学习和行业期望之间的差距。我们希望拟议的课程推荐系统将帮助大学生做出数据驱动和行业明智的课程决策,进而改善大学部门的研究生成绩。

计算与语言计算机与社会

社交媒体和主流媒体在科学传播中的高规模评估

超越科学墙的科学知识的沟通是科学社会影响的关键。媒体渠道在传播关于人类健康、经济福利和政府政策的新科学思想以及应对气候变化等新兴挑战方面发挥了相当大的作用。事实上,有效地向公众传播科学有助于告知社会对科技政策,科学价值和研究投资的决定。与此同时,社交媒体的兴起极大地改变了沟通系统,这可能会极大地影响公众与科学的界面。我们研究了2090万份科学出版物,比较了社交媒体和主流媒体在广泛的科学工作语料库中的研究报道。我们发现科学覆盖的规模,影响和异质性发生了重大变化。首先,社交媒体显著改变了科学,而不是被覆盖的东西。虽然主流媒体强调科学报道的卓越表现,并关注特定领域,但社交媒体根据领域,机构排名,期刊和人口学进行更均匀的抽样研究,使相对于主流媒体的科学思想规模增加了八倍以上。其次,尽管人们担心社交媒体中代表的科学质量,但我们发现社交媒体通常涵盖科学作品中具有影响力和新颖性的科学作品。第三,社交媒体上的科学家,作为各自领域的专家,倾向于在自己的领域进行高影响力研究,同时在研究机构中广泛采样。与对社交媒体的普遍观察相反,这些发现表明,社交媒体通过强调高影响力的研究并将更广泛的学者,机构和科学概念带入公众视野,扩大和多样化了科学报告。

物理学与社会计算机与社会

公平性 - 感知几枪学习,用于视听压力检测

人工智能驱动的压力检测中的公平性对于公平的心理健康至关重要,但现有模型经常表现出性别偏见,特别是在数据匮乏的情况下。为了解决这个问题,我们提出了FairM2S,这是一个利用视听数据进行压力检测的公平感知元学习框架。 FairM2S在元训练和适应阶段集成了均衡赔率限制,采用对抗梯度掩码和公平约束的元更新来有效缓解偏见。根据五个最先进的基线进行评估,FairM2S实现了78.1%的准确率,同时将平等机会降至0.06,显示出可观的公平收益。我们还发布了SAVSD,这是一个带有性别注释的智能手机捕获数据集,旨在支持低资源,现实世界环境中的公平研究。这些贡献共同将FairM2S定位为心理健康AI中公平和可扩展的有限压力检测的最先进的方法。我们通过本文公开发布数据集和FairM2S。

机器学习计算机与社会人机交互

大型语言模型中角色角色下的道德易感性和稳健性

大型语言模型(LLM)越来越多地在社会背景下运作,激励分析它们如何表达和改变道德判断。在这项工作中,我们调查了LLM对角色角色角色的道德反应,促使LLM承担特定的角色。使用道德基础问卷(MFQ),我们引入了一个基准,量化了两个属性:道德易感性和道德稳健性,分别从角色中和角色内MFQ分数的可变性中定义。我们发现,对于道德稳健性,模型家族占差异的大部分,而模型大小没有显示系统效应。克劳德家族在很大程度上是最稳健的,其次是双子座和GPT-4型号,其他家族表现出较低的稳健性。相比之下,道德易感性表现出温和的家庭效应,但家庭规模内明显的影响,较大的变体更容易受到影响。此外,健壮性和易感性是正相关的,这种关联在家庭层面更为明显。此外,我们还为没有角色角色的模特和跨模型的角色提供道德基础简介。这些分析共同提供了一个系统的观点,即角色调节如何在大型语言模型中塑造道德行为。

计算与语言人工智能计算机与社会

从枢纽到沙漠:具有可解释AI的城市文化无障碍模式

文化基础设施,如图书馆,博物馆,剧院和画廊,支持学习,公民生活,健康和地方经济,但各个城市的访问是不均衡的。我们提出了一个新颖,可扩展和开放数据框架,以衡量文化访问的空间公平性。我们绘制文化基础设施地图,并使用精细空间分辨率的指数距离衰减计算称为文化基础设施无障碍分数(CIAS),然后汇总人均得分并整合社会人口指标。带有 Shapley Additive exPlanation (SHAP) 的可解释树集成模型用于解释可访问性、收入、密度和路级种族/民族构成之间的关联。结果显示了明显的核心外围梯度,其中非图书馆文化基础设施聚集在城市核心附近,而图书馆则跟踪密度并提供更广泛的覆盖范围。在高收入地区,非图书馆的无障碍环境略高,在人口稠密、低收入地区,图书馆的可访问性略高。

计算机与社会机器学习

无障碍,安全和住宿负担在美国盲人和低视力学生的高等教育Syllabi

课程教学大纲通常是第一个,有时也是唯一的结构化神器,解释了课程将如何运行:截止日期,分级规则,安全程序以及如何请求残疾住宿。对于使用屏幕阅读器的盲人和低视力(BLV)学生,独立访问取决于教学大纲是否可读和通航。我们审计了来自五个美国机构的syllabi和大师赛拉比,这些学校横跨一所精英私立R1大学,大型公立R1(包括UC校园),大型社区学院和以劳动力为重点的技术学院。我们在五个维度上对每个文档进行了编码:(1)核心物流的机器可读性,(2)安全关键程序的可读性,(3)住宿框架(基于权利与基于负担),(4)治理模型(讲师作者与集中式“主教学大纲”),以及(5)主动通用设计语言的存在。在整个样本中,物流和许多安全期望作为可选文本发布。然而,住宿语言因机构类型而异:研究型大学更经常使用基于权利的措辞(同时仍然需要提前信件),而社区/技术学院强调在跨部分复制的主音节中的披露,文档和机构自由裁量权。我们认为,可访问性不仅是一个 PDF 标签问题,也是一个治理和公平的问题,我们概述了对 HCI 的影响,包括一个"可访问的主教学大纲"模板,作为高杠杆干预。

人机交互计算机与社会

礼貌的骗子:语言模型中的Epistemic Pathology

大型语言模型表现出一种特殊的认识论病理学:它们说话好像知道,即使他们不知道。本文认为,这种自信的捏造,我称之为礼貌的骗子,是从人类反馈(RLHF)中强化学习的结构后果。基于法兰克福对胡扯的分析是对真理的交际冷漠,我表明这种病态不是欺骗,而是结构性冷漠:一种奖励架构,优化了感知的诚意而不是证据的准确性。目前的对齐方法奖励模型是有帮助的,无害的,有礼貌的,但不是因为是表面上的基础。因此,系统学会最大限度地提高用户满意度而不是真实性,将会话流畅性作为一种美德。我通过认识论美德理论,言语行为哲学和认知对齐来分析这种行为,表明RLHF产生经过训练的代理,以模仿认识论的信心,而无法获得认识论的理由。因此,礼貌的说谎者揭示了语言合作与认识的完整性之间更深层次的一致性紧张关系。该文件以“流行病对齐”原则结束:奖励对感知流畅性的合理信心。

计算机与社会人工智能计算与语言

使用暹罗网络增强二进制编码犯罪链接分析

有效的犯罪联系分析对于识别连环罪犯和加强公共安全至关重要。为了解决传统犯罪联动方法在处理高维、稀疏和异构数据方面的局限性,我们提出了一个暹罗自动编码器框架,该框架可以学习有意义的潜在表示,并揭示复杂犯罪数据中的相关性。利用英国国家犯罪局严重犯罪分析科维护的暴力犯罪联系分析系统(ViCLAS)的数据,我们的方法通过在解码器阶段集成地理时间特征来减轻稀疏特征空间的信号稀释。这种设计放大了行为表示,而不是让它们在输入级别上黯然失色,从而在多个评估指标上产生一致的改进。我们进一步分析不同的领域信息数据减少策略如何影响模型性能,为犯罪联系环境中的预处理提供实用指导。我们的结果表明,先进的机器学习方法可以大大提高链接的准确性,比传统方法提高高达9%的AUC,同时提供可解释的见解以支持调查决策。

机器学习计算机与社会

探索AI生成学生反应的心理测量有效性:关于虚拟人物学习动机的研究

这项研究探讨了大型语言模型(LLM)是否可以模拟有效的学生对教育测量的反应。使用GPT-4o,生成了2000个虚拟学生角色。每个角色都完成了学术动机量表(AMS)。因子分析(EFA和CFA)和聚类显示GPT-4o再现了AMS结构和不同的激励子组。

计算机与社会人工智能

从模型培训到模型提升 - 呼吁改革人工智能模型培训范式,从后到基于身份的内在发展

目前的人工智能训练方法只有在其核心能力建立后才能使模型与人类价值保持一致,从而导致模型容易错位且缺乏根深蒂固的价值体系。我们提出从“模型训练”到“模型提升”的范式转变,其中对齐从一开始就编织成模型的发展。我们确定了这一范式的几个关键组成部分,所有这些都围绕着重新设计训练语料库:从第一人称视角重新构建训练数据,将信息重新定位为生活体验,模拟社交互动,脚手架订购训练数据。我们预计,培训语料库的重新设计将导致从第一次培训令牌开始对价值观的早期承诺,因此知识,技能和价值观本质上更难分离。在一个大型语言模型能力在许多任务中开始超越人类能力的生态系统中,在我们看来,这似乎是一个关键的需求。

人工智能计算机与社会机器学习

对齐债务:使人工智能可用的隐藏工作

Frontier LLM围绕语言、知识、设备和连接的高资源假设进行了优化。虽然广泛可用,但它们往往不适合全球南方的条件。因此,用户必须经常执行额外的工作,以使这些系统可用。我们把这种对齐债务称为:当人工智能系统无法与文化、语言、基础设施或认识论背景保持一致时,就会出现用户侧负担。我们通过对肯尼亚和尼日利亚的411名人工智能用户的调查,开发和验证了对齐债务的四部分分类。在对此分类学(n = 385)的受访者中,患病率是:文化和语言(51.9%),基础设施(43.1%),流行病(33.8%)和互动(14.0%)。国家比较表明,基础设施和互动债务存在差异,挑战了一刀切的非洲假设。对齐债务与补偿性劳动有关,但应对情况因债务类型而异:面临疫情挑战的用户以明显更高的利率验证产出(91.5% vs. 80.8%; p = 0.037),验证强度与累积债务负担相关(Spearmans rho = 0.147,p = 0.004)。相反,基础设施和交互债务与核查的关联薄弱或无效,表明某些形式的错位不能仅通过核查来解决。这些研究结果表明,公平性不仅必须通过模型指标来判断,而且还必须根据边缘对用户施加的负担来判断,这些保障措施可以缓解全球南方环境中的对齐债务。对齐债务框架提供了一种基于经验的方法来衡量用户负担,为设计实践和新兴的非洲人工智能治理工作提供信息。

计算机与社会人工智能人机交互

杀死龙:在分散的自治组织中寻求民主(DAO)

本章探讨了分散自治组织(DAO),一种基于区块链技术的新型机构形式,如何挑战传统的集中式治理结构。 DAO管理从金融到科学和数字社区的项目。它们旨在通过可编程、透明和参与式机制重新分配决策权。本章既概述了DAO所带来的机会,如激励调整,快速协调和审查抵制,以及他们面临的挑战,包括代币集中,参与度低和事实上集中化的风险。它进一步讨论了DAO和人工智能的新兴交叉点,强调了自动化增加的潜力以及人类监督和算法不透明性减少的危险。最终,我们讨论在什么情况下DAO可以履行其民主承诺或冒险复制他们寻求克服的权力不对称。

计算机与社会密码学与安全通用经济学金融经济学

当回声室崩溃:检查使用特定社区语言后订阅禁令

社区级禁令是对抗在线骚扰和有害言论的团体的常见工具。不幸的是,社区禁令的功效仅进行了部分研究,结果好坏参半。在这里,我们提供了一个灵活的无监督方法,以识别组内语言,并在Reddit社区(subreddit)之前和之后跟踪Reddit上的用户活动。我们使用一个简单的单词频率差异来识别给定社区中过度代表性的不常见单词,不是作为有害语音的代理,而是作为社区的语言签名。我们将我们的方法应用于15个被禁止的subreddit,并发现社区响应在subreddits之间和subreddit用户之间是异质的。顶级用户总体上更有可能变得不那么活跃,而随机用户通常会减少组内语言的使用而不会减少活动。最后,我们发现一些证据表明禁令的有效性与社区的内容一致。黑色幽默社区的用户基本上不受禁令的影响,而围绕白人至上主义和法西斯主义的社区的用户受影响最大。总之,我们的结果表明,禁令并不平等地影响所有群体或用户,并为理解跨社区禁令的效果铺平了道路。

社会与信息网络计算机与社会

定性研究方法中的生成式人工智能:炒作与风险之间?

随着人工智能(AI)越来越多地被推广并用于定性研究,它也引发了深刻的方法学问题。本文批判性地询问了生成式AI(genAI)在定性编码方法中的作用。尽管普遍存在炒作和提高效率的说法,但我们建议genAI在质量调查中在方法上无效,其使用风险会破坏定性研究的稳健性和可信度。缺乏有意义的文件,商业不透明,以及genAI系统产生错误产出的固有趋势,都削弱了方法的严谨性。总体而言,风险与收益之间的平衡并不支持在定性研究中使用genAI,我们的立场文件提醒研究人员在技术新颖性之前采用合理的方法论。

计算机与社会计算与语言

继续滚动加载更多