计算机科学
Computer Science
人工智能
Artificial Intelligence
计算与语言
Computation and Language
计算复杂性
Computational Complexity
虚拟会议的语言障碍仍然是全球合作的一个持续挑战。 实时翻译提供了希望,但目前的集成往往忽略了感知线索。 这项研究调查了翻译语音的空间音频渲染如何影响多语言会议的理解,认知负荷和用户体验。 我们进行了一个主题内部实验,有8个双语联盟和47名参与者模拟全球团队会议,使用希腊语,卡纳达语,普通话汉语和乌克兰语的英语翻译 - 因其在语法,脚本和资源可用性方面的多样性而被选中。 参与者经历了四种音频条件:有和没有背景混响的空间音频,以及两种非空间配置(二极管,单声道)。 我们测量了听众理解的准确性、工作负载评分、满意度得分和定性反馈。 与非空间音频相比,空间渲染翻译的理解加倍。 参与者报告说,当存在空间线索和声音音色差异时,更清晰和参与。 我们讨论将实时翻译集成到会议平台的设计影响,在远程呈现系统中推进包容性跨语言通信。
意图推断远程操作有助于协调操作员目标并与机器人合作伙伴协调行动。 然而,当前的意图推断方法通常忽略了微妙的运动,这些运动可以成为意图突然变化的有力指标。 具体来说,我们的目标是解决1)如果我们能够检测到操作员轨迹中的突然跳跃,2)我们如何适当地使用这些突然跳跃运动来推断操作员的目标状态,3)如何将这些不连续的动态结合起来来推断操作员运动。 我们的框架,称为Psychic,通过跳跃式漂移随机微分方程对这些小指示性运动进行建模,以涵盖不连续和连续的动力学。 Kramers-Moyal(KM)系数允许我们使用一个轨迹来检测跳跃,我们与统计异常值检测算法配对以指定目标过渡。 通过识别跳跃,我们可以对现有目标进行早期检测,并在非结构化场景中发现未定义的目标。 然后,我们的框架应用了使用目标转换的KM系数(SINDy)模型的稀疏识别非线性动力学(SINDy)模型,作为控制输入,以推断操作员在非结构化场景中的运动行为。 我们证明Psychic可以产生概率可到达性集,并将我们的策略与负日志概率模型拟合进行比较。 我们在免提远程操作任务中对600个操作员轨迹进行了回顾性研究,以评估我们的开源包Psychic在离线和在线学习中的功效。
最近,基于国家空间模型(SSM)的Mamba架构因其线性复杂性和强大的全球建模能力而获得了3D人类姿势估计的关注。 然而,现有的基于SSM的方法通常应用手动设计的扫描操作,将检测到的2D姿势序列扁平成纯时间序列,无论是本地还是全球。 这种方法破坏了人类姿势的固有空间结构,并纠缠了时空特征,使得难以捕捉复杂的姿势依赖关系。 为了解决这些限制,我们提出了骷髅结构感知步幅SSM(SAS-SSM),它首先采用结构感知时空卷积来动态捕获关节之间的基本局部相互作用,然后应用基于步幅的扫描策略来构建多尺度的全球结构表示。 这可以实现本地和全局构图信息的灵活建模,同时保持线性计算复杂性。 基于SAS-SSM,我们的模型SasMamba实现了具有竞争力的3D姿势估计性能,与现有混合模型相比,参数要少得多。 源代码可在https://hucui2022.github.io/sasmamba_proj/上查阅。
与AI助手的互动越来越个性化,个人用户。 由于人工智能个性化是动态的和机器学习驱动的,我们对个性化如何影响交互结果和用户感知的理解有限。 我们进行了一项大规模的对照实验,其中1000名参与者与AI助手进行了互动,这些助手承担了某些人格特征和观点立场。 我们的结果表明,参与者始终倾向于与分享他们意见的模型进行互动。 参与者还发现,与意见一致的模型更值得信赖,称职,温暖和有说服力,证实了AI-相似性吸引力的假设。 相比之下,我们观察到AI人格对齐的微弱影响,内向型模型被内向的参与者评为不那么值得信赖和称职。 这些发现强调了意见调整是人工智能个性化和用户偏好的核心维度,同时强调需要对个性化人工智能的局限性和风险进行更深入的讨论。
深度学习的最新进展证明了生成合成凝视数据的能力。 然而,大多数方法主要集中在从随机噪声分布或全局预定义的潜在嵌入中生成数据,而个性化凝视序列的生成则较少被探索。 为了解决这一差距,我们重新审视了最近基于扩散和生成对抗网络(GAN)的两种方法,并引入了使两种模型明确主体意识的修改,同时提高准确性和有效性。 对于基于扩散的方法,我们使用强调每个主题特征的紧凑用户嵌入。 此外,对于基于GAN的方法,我们提出了一个特定主题的合成模块,该模块使生成器保留更好的特殊凝视信息。 最后,我们使用标准的眼睛跟踪信号质量指标(包括空间精度和精度)对这些修改方法进行全面评估。 这项工作有助于定义合成信号质量,现实主义和主题特异性,从而有助于基于凝视的应用程序的潜在开发。
印度青少年的心理健康挑战受到独特的文化和系统性障碍的影响,包括高度的社会耻辱和有限的专业支持。 我们报告了对印度青少年的混合方法研究(调查n=362;访谈n=14),研究他们如何应对心理健康挑战并参与数字工具。 定量结果突出了低自我污名但重要的社会耻辱,对文本的偏好而不是语音交互,以及心理健康应用程序的利用率低,但智能手机访问量高。 我们的定性发现表明,虽然青少年重视心理健康工具中的隐私,情感支持和本地化内容,但现有的聊天机器人缺乏个性化和文化相关性。 我们贡献了(1)一个设计-张力框架;(2)一个神器级别的探针;(3)一个边界对象帐户,指定聊天机器人如何调解青少年,同龄人,家庭和服务。 这项工作通过以代表性不足的人群为中心,解决印度青少年在可访问和支持方面的关键差距,促进了文化敏感的聊天机器人设计。
道德领域的对齐方法试图引起人类利益相关者的道德偏好,并将其纳入人工智能。 这预设了道德偏好作为静态目标,但这种偏好往往会随着时间的推移而演变。 人工智能与动态人类偏好的正确对齐,最好应该考虑到道德推理的“合法”变化,而忽略与注意力缺陷,认知偏差或其他任意因素相关的变化。 然而,常见的AI对齐方法在很大程度上忽略了偏好的时间变化,对适当的对齐提出了严峻的挑战,特别是在人工智能的高风险应用中,例如,在医疗保健领域,错位可能会危及系统的可信度并产生严重的个人和社会危害。 这项工作调查了人们的道德偏好随时间变化的程度,以及这些变化对AI对齐的影响。 我们的研究基于肾脏分配领域,在那里,我们对来自3-5个疗程的400多名参与者的假想肾移植患者的成双对比较做出了反应。 我们发现,平均而言,参与者在6-20%的时间(表现出“反应不稳定”)的不同时间对同一场景的反应。 此外,我们观察到几个参与者的改造决策模型随时间(捕捉“模型不稳定”)发生了重大变化。 简单AI模型的预测性能作为响应和模型不稳定的函数而下降。 此外,预测性能随着时间的推移而下降,突出了在训练期间考虑偏好时间变化的重要性。 这些发现提出了与AI对齐相关的基本规范和技术挑战,突出表明当用户偏好随着时间的推移显着变化时,需要更好地了解对齐对象(与什么对齐)。
我们应该如何评价生成模型的质量? 许多现有指标侧重于模型的可生产性,即它可以产生的输出的质量和广度。 然而,使用生成模型的实际价值不仅源于它可以产生什么,而且源于具有特定目标的用户是否可以产生满足该目标的输出。 我们把这种属性称为可操作性。 在本文中,我们首先引入了一个数学分解,用于独立于可预测性地量化可转换性。 适可性比可生产性更具挑战性,因为它需要知道用户的目标。 我们通过创建一个依赖于一个关键想法的基准任务来解决这个问题:从生成模型的输出样本,并要求用户复制它。 我们在文本到图像和大型语言模型的用户研究中实现了这一基准。 尽管这些模型能够产生高质量的输出,但它们在可操作性方面都表现不佳。 这些结果表明,我们需要专注于提高生成模型的可操作性。 我们展示了这样的改进确实是可能的:简单的基于图像的转向机制在这个基准上实现了超过2倍的改进。
在这项工作中,我们提出了一个基于PICO的机器人远程操作框架,可实现低成本,实时获取手部运动和姿势数据,在成本效益方面优于主流视觉跟踪和运动捕捉解决方案。 该框架与RealMirror生态系统本地兼容,在Isaac模拟环境中提供可重复使用的功能,用于稳定精确的机器人轨迹记录,从而促进Vision-Language-Action(VLA)数据集的构建。 此外,该系统还支持各种配备末端效应器的机器人的实时远程操作,包括灵巧的手和机器人夹具。 这项工作旨在降低研究上肢机器人操纵中的技术障碍,从而加速VLA相关研究的进展。
多模态大语言模型的进步显著增强了图形用户界面(GUI)自动化。 为GUI代理配备可靠的情景推理功能对于弥合用户简明的任务描述与现实世界执行的复杂性之间的差距至关重要。 目前的方法将强化学习(RL)与System-2思维链集成在一起,在推理增强方面产生了显着的收益。 对于长距离GUI任务,历史交互将每个屏幕连接到目标导向的剧集链,并有效利用这些线索对于当前决策至关重要。 然而,现有的原生GUI代理在其明确的推理中表现出较弱的短期记忆,将链式交互解释为离散的屏幕理解,即对剧集中的历史相互作用的不知情。 这种与历史无关的推理挑战了他们在GUI自动化方面的表现。 为了缓解这一弱点,我们提出了一个历史感知推理(HAR)框架,该框架鼓励代理人反思自己的错误,并通过量身定制的策略从中获取偶然推理知识,从而增强长视相互作用中的短期记忆。 该框架主要包括构建反射学习场景,合成量身定制的校正指南,以及设计混合RL奖励功能。 使用HAR框架,我们开发了一个原生的端到端模型,HAR-GUI-3B,它改变了从历史无关到历史感知的固有推理模式,使GUI代理具有稳定的短期内存和对屏幕细节的可靠感知。 跨一系列GUI相关基准的综合评估证明了我们方法的有效性和概括性。
来自可穿戴设备的个人心率数据包含丰富的信息,但目前的可视化主要集中在简单的指标上,留下了复杂的时间模式,基本上没有探索。 我们通过从既定可视化文献中衍生的五种原型方法,对个人心率可视化可能性进行推测性探索:模式/可变性热图,复发图,光谱图,T-SNE和庞加莱图。 使用通过大型语言模型生成的生理信息合成数据集,我们系统地探索了不同的可视化策略如何揭示时间尺度和分析复杂性的心率模式的不同方面。 我们使用从多个识字角度建立的可视化评估量表来评估这些原型,然后对原型的评估和设计进行反思分析。 我们的迭代过程揭示了在可视化复杂生理数据时反复出现的设计张力。 这项工作提供了个人心率可视化设计空间的推测性地图,为使心率数据更具视觉可访问性和意义提供了见解。
与人工智能(AI)的合作通过利用人类和人工智能的互补能力,改善了各个领域的人类决策。 然而,人类系统地过度依赖人工智能的建议,即使他们的独立判断会产生优越的结果,从根本上破坏了人类与人工智能互补的潜力。 在以前工作的基础上,我们将人机决策中普遍存在的激励结构确定为这种过度依赖的结构性驱动因素。 为了解决这种错位问题,我们提出了一种旨在抵消系统性过度依赖的替代激励机制。 我们通过180名参与者的行为实验对这种方法进行实证评估,发现拟议的机制显着减少了过度依赖。 我们还表明,虽然设计适当的激励可以增强协作和决策质量,但设计不当的激励可能会扭曲行为,带来意想不到的后果,最终降低绩效。 这些发现强调了将激励与任务背景和人类-人工智能互补性保持一致的重要性,并建议有效的协作需要转向对上下文敏感的激励设计。
本文批判性地重新审视了“数字自然”,这个概念在过去十年中在各个领域激增。 通过“数字自然”,我们将不断演变的自然观点称为循环计算和物质的动态过程,该过程延伸到AI,XR,本土观点和后人类理论领域。 尽管它很受欢迎,“数字自然”的定义仍然模棱两可。 本文提供了对这个想法如何在媒体艺术,生物艺术和生成艺术中出现的,分歧和重叠的家谱和哲学调查,以及相关的东方,伊斯兰和土著世界观。 然后,我们引入了一个多轴框架(从真实/虚拟到以人类为中心/面向对象,具有魅力和物化子轴),说明了数字技术如何以意想不到的方式重新概念化了“什么是自然?”的问题。 最后,我们讨论了这个领域如何发展,特别是通过大型语言模型,AGI和“超自然现实”的镜头,同时强调了技术神秘主义的伦理和政治陷阱。 我们的最终目标是将“数字自然”重新定位为知识前沿和协作平台,邀请艺术,科学,技术和文化哲学之间的持续对话。
大型语言模型(LLM)和多模态基础模型的最新进展大大扩展了他们在机器人和协作系统中的应用。 然而,有效的多智能体相互作用需要强大的透视能力,使模型能够解释物理和认识论的观点。 当前的培训范式往往忽略了这些互动环境,导致模型必须推理单个视角的主观性或与多个观察者一起浏览环境时的挑战。 这项研究评估了使用ReAct框架明确纳入不同观点的情况,这是一种整合推理和行动的方法,可以提高LLM理解和满足其他代理人需求的能力。 我们扩展了经典的 Director 任务,在一系列不断增加的视角复杂性的 7 个场景中引入了积极的视觉探索。 这些场景旨在挑战代理解决基于视觉访问和交互的参考模糊性的能力,在不同的状态表示和提示策略下,包括ReAct风格的推理。 我们的结果表明,明确的视角线索与积极的探索策略相结合,显着提高了模型的解释准确性和协作有效性。 这些发现强调了将主动感知与透视机制相结合的潜力,以推进LLM在机器人和多智能系统中的应用,为未来研究自适应和上下文感知AI系统奠定了基础。
人们有不同的创意写作偏好,这些任务的大型语言模型(LLM)可以从适应每个用户的偏好中受益。 然而,这些模型通常是在一个数据集上进行训练的,该数据集将不同的个人口味视为整体。 为了便于开发个性化的创意写作LLM,我们介绍了来自60人的阅读偏好数据集LiruterTaste,其中每个人:1)自我报告他们的阅读习惯和品味(陈述偏好),2)注释他们的偏好超过100对简短的创意写作文本(揭示偏好)。 通过我们的数据集,我们发现:1)人们在创造性写作偏好上存在分歧,2)在对个人和集体揭示的偏好进行建模时,微调变压器编码器可以达到75.8%和67.7%的准确率,3)所述偏好在建模显示偏好方面效用有限。 通过LLM驱动的可解释性管道,我们分析了人们的偏好如何变化。 我们希望我们的工作成为个性化创意写作技术的基石。
人工智能驱动的压力检测中的公平性对于公平的心理健康至关重要,但现有模型经常表现出性别偏见,特别是在数据匮乏的情况下。 为了解决这个问题,我们提出了FairM2S,这是一个利用视听数据进行压力检测的公平感知元学习框架。 FairM2S在元训练和适应阶段集成了均衡赔率限制,采用对抗梯度掩码和公平约束的元更新来有效缓解偏见。 根据五个最先进的基线进行评估,FairM2S实现了78.1%的准确率,同时将平等机会降至0.06,显示出可观的公平收益。 我们还发布了SAVSD,这是一个带有性别注释的智能手机捕获数据集,旨在支持低资源,现实世界环境中的公平研究。 这些贡献共同将FairM2S定位为心理健康AI中公平和可扩展的有限压力检测的最先进的方法。 我们通过本文公开发布数据集和FairM2S。
可再生能源发电的扩大,电气化导致的需求不断增长,在家工作的普遍程度以及极端天气事件的频率和严重程度越来越高,将对电力和配电网提出新的需求。 更广泛地采用住宅部门的需求响应计划(DRP)可能有助于应对这些挑战;然而,经验表明,DRP中的居住者会影响其有效性。 缺乏对不适,常规和其他动机如何影响DRP覆盖和其他相关的人类构建相互作用(HBI)的正式理解。 本文报告了三个月来对科罗拉多州和马萨诸塞州20户家庭进行的研究的初步发现。 参与者对由恒温器相互作用触发的生态瞬时评估(EMA)做出反应,并在全天的随机时间作出反应。 EMA包括热偏好,偏好强度和可能影响热舒适度的7种不同活动类型的Likert规模问题,以及有关此类行为动机的开放式问题。 开发了12个标签来分类动机反应,并进行了统计分析,以确定动机,偏好和HBI行为之间的关联。 对热环境变化的反应是最常观察到的动机,220个反应中有118个。 另一方面,47%的反应至少部分受到非热因素的激励,这表明仅基于热舒适性的乘员行为模型的效用有限。 当EMA由恒温器相互作用触发时,活动水平和服装的变化不太可能被报告,而风扇相互作用的可能性更大。 窗户、遮阳板和便携式加热器的交互与 EMA 的触发方式没有显著依赖性。
行动质量评估(AQA)旨在评估和评分体育行动,近年来引起了广泛的兴趣。 现有的AQA方法主要根据从整个视频中提取的特征来预测分数,从而导致有限的可解释性和可靠性。 同时,现有的AQA数据集也缺乏动作评分的细粒度注释,特别是对于演绎项目和子分数注释。 在本文中,我们构建了第一个AQA数据集,其中包含细粒度的亚分数和空中滑雪的演绎注释,该数据集将作为新的基准发布。 对于技术挑战,我们提出了一种新的AQA方法,名为JudgeMind,通过模拟专业裁判的判断和评分心态,显著提高了性能和可靠性。 我们的方法将输入动作视频分为不同的阶段,并为每个阶段进行评分,以提高准确性。 然后,我们提出了一个具有舞台意识的功能增强和融合模块,以提高对特定阶段关键区域的感知,并增强频繁相机视点切换引起的视觉变化的稳健性。 此外,我们建议使用基于知识的等级感知解码器,将可能的演绎项目作为先验知识,以预测更准确和可靠的分数。 实验结果表明,我们的方法达到了最先进的性能。
电子健康记录(EHR)数据是机器学习对健康的重要数据源,但研究人员和临床医生在提取和验证EHR数据进行建模方面面临巨大障碍。 现有工具在表达性和可用性之间产生权衡,并且通常专门针对单个数据标准,因此很难编写为现代模型构建管道做好准备并适应新数据集的时间查询。 本文介绍了TempoQL,这是一个基于Python的工具包,旨在降低这些障碍。 TempoQL为时间查询提供了一种简单、人类可读的语言;支持多种EHR数据标准,包括OMOP、MEDS等;以及具有可选大语言模型(LLM)创作辅助的交互式基于笔记本的查询界面。 通过性能评估和不同数据集上的两个用例,我们证明TempoQL简化了机器学习队列的创建,同时保持了精度,速度和可重复性。
频率调制连续波(FMCW)雷达可以测量微妙的胸壁振荡,以实现非接触式心跳感应。 然而,传统的基于雷达的心跳传感方法由于噪声而面临性能下降。 基于学习的雷达方法实现了更好的噪声稳健性,但需要昂贵的标记信号进行监督训练。 为了克服这些限制,我们提出了第一个无监督框架,通过增强伪标签和噪声对比(雷达-APLANC)进行雷达心跳感应。 我们建议使用雷达范围矩阵内的心跳范围和噪声范围分别构建正和负样本,以提高噪声稳健性。 我们的噪声对比三胞胎(NCT)损失仅利用传统雷达方法产生的阳性样本,负样本和伪标签信号,从而避免依赖昂贵的地面真实生理信号。 我们进一步设计了一种伪标签增强方法,具有自适应噪声感知标签的选择,以提高伪标签信号质量。 在Equipleth数据集和我们收集的雷达数据集上进行的广泛实验表明,我们的无监督方法实现了与最先进的监督方法相当的性能。 我们的代码、数据集和补充材料可以从https://github.com/RadarHRSensing/Radar-APLANC访问。
继续滚动加载更多