42digest首页

人机交互研究快报

用 AI 跟踪日新月异的人机交互领域进展

Towards physician-centered oversight of conversational diagnostic AI

面向医生的对话式诊断AI监督框架

最近的研究展示了对话式AI系统在诊断对话中的潜力。然而,确保患者安全的现实意义在于,提供个体化的诊断和治疗计划是由持牌专业人员执行的受监管活动。此外,医生通常在此类活动中监督其他团队成员,包括执业护士(NPs)或医师助理(PAs)。受此启发,我们提出了一个框架,用于对Articulate Medical Intelligence Explorer(AMIE)AI系统进行有效的异步监督。我们提出了guardrailed-AMIE(g-AMIE),这是一个在多代理系统中进行历史采集的系统,避免提供个体化的医疗建议。之后,g-AMIE将评估结果传达给监督的初级保健医生(PCP),通过临床医生驾驶舱界面。PCP提供监督并保留临床决策的责任。这有效地将监督与采集分离,因此可以异步进行。在一项随机、盲法的虚拟客观结构化临床考试(OSCE)中,我们比较了g-AMIE与NPs/PAs或一组PCP在相同限制下的表现。在60个场景中,g-AMIE在执行高质量采集、总结病例以及提出诊断和管理计划供监督PCP审查方面优于两组。这导致了更高质量的复合决策。与之前的工作中的独立PCP咨询相比,PCP对g-AMIE的监督也更省时。虽然我们的研究没有复制现有的临床实践,并可能低估了临床医生的能力,但我们的结果表明,异步监督作为一种可行的范式,使诊断AI系统在专家人类监督下运行,以增强现实世界的护理。

人工智能 计算与语言 人机交互
Does visualization help AI understand data?

可视化是否有助于AI理解数据?

图表帮助人们分析数据,但它们对AI系统也有用吗?为研究这个问题,我们使用两个商业视觉语言模型(GPT 4.1和Claude 3.5)进行了一系列实验。在三个代表性分析任务中,当原始数据配有散点图时,这两个系统能更精确地描述合成数据集,尤其在数据集复杂度增加时。与两个基线(提供空白图表和数据不匹配的图表)的比较表明,性能提升源于图表内容。我们的结果初步证明,AI系统与人一样能从可视化中受益。

人工智能 人机交互 机器学习
Archiverse: an Approach for Immersive Cultural Heritage

Archivers: A Approach for Immersive Cultural Heritage 沉浸式文化遗产

数字技术和工具改变了我们研究文化遗产的方式,以及我们可以以数字方式重建文化遗产的方式。 激光扫描、摄影测量和各种混合现实解决方案等技术使研究人员能够更精确地从新角度检查文物和文物。 在小组的这一部分中,我们探讨了虚拟现实(VR)和扩展现实(XR)如何作为重新创建和可视化历史文化遗产遗迹的工具,并在模拟其原始复杂性时体验它,这意味着身临其境和互动。 考古遗址和建筑所体现的物质文化的可视化在只有废墟或考古遗迹生存时特别有用。 然而,这些进步也带来了重大挑战,特别是在来自许多(通常是遥远的)领域的专家之间的跨学科合作领域,以及在专业人士和公众中传播虚拟沉浸式环境。

人机交互 计算机与社会
GUI-G^2: Gaussian Reward Modeling for GUI Grounding

GUI-G^2:用于GUI接地的高斯奖励建模

图形用户界面(GUI)接地将自然语言指令映射到用于自主交互的精确界面位置。 目前的强化学习方法使用二进制奖励,将元素视为命中或错过的目标,产生稀疏信号,忽略空间相互作用的连续性质。 受人类点击行为的动机,自然形成以目标元素为中心的高斯分布,我们引入了GUI高斯接地奖励(GUI-G^2),这是一个有原则的奖励框架,将GUI元素建模为跨界面平面的连续高斯分布。 GUI-G^2包含两个协同机制:高斯点奖励模型通过以元素中心为中心的指数衰减分布精确定位,而覆盖奖励通过测量预测的高斯分布和目标区域之间的重叠来评估空间对齐。 为了处理各种元素尺度,我们开发了一个自适应方差机制,根据元素维度校准奖励分布。 该框架将GUI接地从稀疏的二进制分类转变为密集的连续优化,其中高斯分布产生丰富的梯度信号,引导模型走向最佳交互位置。 ScreenSpot,ScreenSpot-v2和ScreenSpot-Pro基准测试的广泛实验表明,GUI-G^2大大优于最先进的方法UI-TARS-72B,最显着的改进为24.7

机器学习 人工智能 计算与语言
Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning

多模态行为模式分析与眼动追踪和基于LLM的推理

眼动追踪数据揭示了对用户认知状态的宝贵见解,但由于其结构化,非语言性质,难以分析。 虽然大型语言模型(LLM)擅长对文本进行推理,但它们与时间和数值数据作斗争。 本文介绍了一个多模态人-AI协作框架,旨在增强从眼动信号中提取的认知模式。 该框架包括:(1)使用水平和垂直分割以及LLM推理来揭示潜在凝视模式的多阶段管道;(2)专家模型共同评分模块,将专家判断与LLM输出集成,以生成行为解释的信任分数;(3)将基于LSTM的时间建模与LLM驱动的语义分析相结合的混合异常检测模块。 我们在多个LLM和快速策略中的结果显示了一致性,可解释性和性能的改进,高达50

人机交互 人工智能 计算与语言

最新研究

Archivers: A Approach for Immersive Cultural Heritage 沉浸式文化遗产

数字技术和工具改变了我们研究文化遗产的方式,以及我们可以以数字方式重建文化遗产的方式。 激光扫描、摄影测量和各种混合现实解决方案等技术使研究人员能够更精确地从新角度检查文物和文物。 在小组的这一部分中,我们探讨了虚拟现实(VR)和扩展现实(XR)如何作为重新创建和可视化历史文化遗产遗迹的工具,并在模拟其原始复杂性时体验它,这意味着身临其境和互动。 考古遗址和建筑所体现的物质文化的可视化在只有废墟或考古遗迹生存时特别有用。 然而,这些进步也带来了重大挑战,特别是在来自许多(通常是遥远的)领域的专家之间的跨学科合作领域,以及在专业人士和公众中传播虚拟沉浸式环境。

人机交互计算机与社会
arXiv

多模态行为模式分析与眼动追踪和基于LLM的推理

眼动追踪数据揭示了对用户认知状态的宝贵见解,但由于其结构化,非语言性质,难以分析。 虽然大型语言模型(LLM)擅长对文本进行推理,但它们与时间和数值数据作斗争。 本文介绍了一个多模态人-AI协作框架,旨在增强从眼动信号中提取的认知模式。 该框架包括:(1)使用水平和垂直分割以及LLM推理来揭示潜在凝视模式的多阶段管道;(2)专家模型共同评分模块,将专家判断与LLM输出集成,以生成行为解释的信任分数;(3)将基于LSTM的时间建模与LLM驱动的语义分析相结合的混合异常检测模块。 我们在多个LLM和快速策略中的结果显示了一致性,可解释性和性能的改进,高达50

人机交互人工智能计算与语言机器学习
arXiv

持续碳酸锂结晶优化的自适应主动学习中的人类-AI协同效应

随着电动汽车(EV)行业的增长,对高纯度锂的需求激增,从Smackover Formation等低档北美来源的具有成本效益的提取至关重要。 这些资源与高纯度的南美盐水不同,需要创新的净化技术在经济上可行。 连续结晶是生产电池级碳酸锂的一种有希望的方法,但其优化受到复杂参数空间和有限数据的挑战。 本研究引入了人圈(HITL)辅助主动学习框架,以优化碳酸锂的连续结晶。 通过将人类专业知识与数据驱动的见解相结合,我们的方法加速了从具有挑战性的来源提取锂的优化。 我们的研究结果证明了该框架能够快速适应新数据,显著提高了该工艺对镁等关键杂质的耐受性,从行业标准的几百 ppm提高到高达6000 ppm。 这一突破使低品位、杂质丰富的锂资源的开采变得可行,有可能减少对广泛的预精炼工艺的需求。 通过利用人工智能,我们改进了操作参数,并证明可以在不牺牲产品质量的情况下使用低档材料。 这一进步是在经济上利用北美庞大的锂储量(如Smackover Formation)和提高全球锂供应链可持续性的重要一步。

计算工程、金融与科学材料科学人机交互机器学习
arXiv

大型语言模型为患者提出的医疗问题提供不安全的答案

数百万患者已经定期使用大型语言模型(LLM)聊天机器人进行医疗咨询,这引发了患者的安全问题。 这项由医生领导的红队研究比较了四个公开可用的聊天机器人的安全性 - Anthropic的Claude,Google的Gemini,OpenAI的GPT-4o和Meta的Llama3-70B - 使用评估框架,可以实现定量和定性分析。 总共评估了888个聊天机器人响应,针对涉及内科,女性健康和儿科的初级保健主题的222个患者建议寻求医疗问题。 我们发现聊天机器人之间的统计学差异。 有问题的反应率从21.6%(Claude)到43.2%(Llama)不等,不安全反应从5%(Claude)到13%(GPT-4o,Llama)。 定性结果揭示了聊天机器人的反应,可能导致严重的患者伤害。 这项研究表明,数百万患者可能会从公开的聊天机器人获得不安全的医疗建议,需要进一步的工作来改善这些强大工具的临床安全性。

计算与语言人机交互
arXiv

TreeReader:由语言模型提供支持的分层学术论文阅读器

有效地驾驭和理解学术论文对科学进步至关重要。 传统的线性格式,如PDF和HTML,会导致认知过载,并模糊论文的层次结构,因此难以定位关键信息。 虽然基于LLM的聊天机器人提供了总结,但它们通常缺乏对特定部分的细致入微的理解,可能会产生不可靠的信息,并且通常会丢弃文档的导航结构。 从学术阅读实践的形成研究中汲取见解,我们介绍了TreeReader,一种新颖的语言模型增强型纸质阅读器。 TreeReader将论文分解为交互式树结构,其中每个部分最初由LLM生成的简明摘要表示,其底层细节可按需访问。 这种设计允许用户快速掌握核心思想,有选择地探索感兴趣的部分,并根据源文本验证摘要。 进行了一项用户研究,以评估TreeReader对阅读效率和理解的影响。 TreeReader提供了一种更集中和高效的方式来导航和理解复杂的学术文献,通过将分层总结与互动探索联系起来。

人机交互人工智能计算与语言
arXiv

跨视觉,试镜和触觉的多感官集成和感官替换:回答什么,哪些,何时在研究协议中

我们通过多种感官来体验世界,这些感官共同创造有凝聚力的感知,无论是在日常生活中还是身临其境的技术。 理解这种多感官整合(MSI)需要检查感觉模式之间的相互作用,每种模式都具有独特的时间动力学和特征。 虽然大多数研究都集中在单模态或双模态线索上,但三种或三种以上模式的整合仍然未进行。 MSI研究必须考虑到跨模态对应,一致性,认知负荷和刺激时间等因素,这些因素随着模式的成倍增加而变得越来越复杂。 本文探讨了这些关键因素以及如何应用于8个设计有效的MSI研究协议。

人机交互神经元与认知
arXiv

百胜:互动世界一代模式

Yume的目标是使用图像,文本或视频来创建一个交互式,逼真和动态的世界,允许使用外围设备或神经信号进行探索和控制。 在本报告中,我们介绍了预览版,它从输入图像中创建一个动态世界,并允许使用键盘操作探索世界。 为了实现这种高保真和交互式视频世界一代,我们引入了一个精心设计的框架,该框架由四个主要组件组成,包括相机运动量化、视频生成架构、高级采样器和模型加速。 首先,我们使用键盘输入量化相机运动,以实现稳定的训练和用户友好的交互。 然后,我们介绍了蒙面视频扩散变压器(MVDT)与内存模块,以自动回归的方式无限视频生成。 之后,将基于随机微分方程(TTS-SDE)的无训练反神器机制(AAM)和时间旅行采样引入采样器,以获得更好的视觉质量和更精确的控制。 此外,我们通过协同优化对抗性蒸馏和缓存机制来研究模型加速。 我们使用高质量的世界探索数据集来训练,它在不同的场景和应用中取得了显着的成果。 所有数据、代码库和模型权重可在https://github.com/stdstu12/YUME上找到。 Yume将每月更新以实现其最初的目标。 项目页面:https://stdstu12.github.io/YUME-Project/。

计算机视觉与模式识别人工智能人机交互
arXiv

ReSem3D:通过精细粒状语义接地进行可分割的3D空间约束,用于可推广的机器人操纵

语义驱动的3D空间约束将高级语义表示与低级动作空间对齐,促进了机器人操作中任务理解和执行的统一。 多模态大语言模型(MLLM)和视觉基础模型(VFM)的协同推理可实现跨模态3D空间约束结构。 然而,现有方法有三个关键限制:(1)约束建模中的粗语义粒度,(2)缺乏实时闭环规划,(3)在语义多样化的环境中破坏了稳健性。 为了应对这些挑战,我们提出了ReSem3D,这是一个用于语义多样化环境的统一操作框架,利用VFM和MLLM之间的协同作用来实现细粒度的视觉接地,并动态构建用于实时操作的分层3D空间约束。 具体来说,该框架由MLLM中的分层递归推理驱动,MLLM与VFM相互作用,从自然语言指令和RGB-D观测中自动构建3D空间约束,分为两个阶段:部分级提取和区域级改进。 随后,这些约束被编码为联合空间中的实时优化目标,使反应行为能够对动态干扰进行。 广泛的模拟和现实世界的实验是在语义丰富的家庭和稀疏的化学实验室环境中进行的。 结果表明,ReSem3D在零拍摄条件下执行不同的操作任务,表现出强大的适应性和概括性。 代码和视频可在https://github.com/scy-v/ReSem3D和https://resem3d.github.io查阅。

机器人学人工智能计算机视觉与模式识别人机交互
arXiv

TS-Insight:可视化Thompson采样进行验证和XAI

Thompson Sampling(TS)及其变体是强大的多武装土匪算法,用于平衡主动学习中的探索和开发策略。 然而,他们的概率性质经常把他们变成一个“黑匣子”,阻碍调试和信任。 我们引入了TS-Insight,这是一种视觉分析工具,旨在阐明基于Thompson Sampling的算法的内部决策机制,适用于模型开发人员。 它由多个地块组成,追踪每个手臂的进化后遗症,证据计数和采样结果,使勘探/开发动力学的验证,诊断和解释性。 该工具旨在促进信任并促进在复杂的二元决策场景中进行有效的调试和部署,特别是在需要可解释决策的敏感领域。

人机交互人工智能机器学习机器学习 (统计)
arXiv

了解及时的编程任务和问题

像大型语言模型(LLM)这样的快速基础模型(FM)已经启用了新的人工智能驱动的软件功能(例如文本总结),以前只能通过微调调调。 现在,开发人员正在软件中嵌入提示符,称为提示程序。 提示编程的过程需要开发人员对其提示进行许多更改。 然而,开发人员要求更新其提示的问题尚不清楚,尽管这些问题的答案影响了开发人员如何计划他们的更改。 随着研究和商业提示编程工具的不断增加,尚不清楚快速程序员的需求是否得到充分解决。 我们通过开发25个任务的分类法来解决这些挑战,提示程序员做和51个问题,衡量每个任务和问题的重要性。 我们采访了16名快速程序员,观察8名开发人员进行快速更改,并调查50名开发人员。 然后,我们将分类法与48个研究和商业工具进行比较。 我们发现快速编程没有得到很好的支持:所有任务都是手动完成的,51个问题中的16个问题 - 包括大多数最重要的问题 - 仍然没有答案。 基于此,我们概述了快速编程工具的重要机会。

软件工程人工智能人机交互
arXiv

通过数字孪生和生成式AI实现网络安全教育

数字孪生(DT)在网络安全领域越来越突出,因为它们能够复制复杂的IT(信息技术),OT(运营技术)和物联网(物联网)基础设施,允许实时监控,威胁分析和系统模拟。 这项研究调查了如何将DT与渗透测试工具和大型语言模型(LLM)集成在一起,可以提高网络安全教育和操作准备。 通过模拟现实的网络环境,这种方法为探索漏洞和防御策略提供了一个实用的交互式框架。 这项研究的核心是Red Team Knife(RTK),这是一个与Cyber Kill Chain模型一致的定制渗透测试工具包。 RTK旨在引导学习者了解网络攻击的关键阶段,包括DT驱动的生态系统中的侦察,开发和响应。 大型语言模型(LLM)的整合进一步丰富了体验,在训练练习期间提供智能,实时反馈,自然语言威胁解释和自适应学习支持。 这个组合的DT LLM框架目前正在学术环境中进行试点,以培养漏洞评估,威胁检测和安全操作方面的技能。 初步研究结果表明,整合显著提高了网络安全培训的有效性和相关性,弥合了理论知识和实际应用之间的差距。 最终,该研究展示了DT和LLM如何共同改变网络安全教育,以满足不断变化的行业需求。

密码学与安全人工智能计算机与社会人机交互
arXiv

思考,行动,学习:使用闭环大语言模型的自主机器人代理框架

大型语言模型(LLM)集成到机器人技术中,在高级任务规划中解锁了前所未有的能力。 然而,大多数当前系统以开环的方式运行,其中LLM充当单镜头规划器,使它们变脆,无法适应动态物理环境中的不可预见的情况。 为了克服这一限制,本文介绍了“思考,行动,学习”(T-A-L)框架,这是一种新颖的架构,使体现的代理能够通过持续交互自主学习和完善其策略。 我们的框架建立了一个闭环循环,其中LLM首先通过将高级命令分解为可操作的计划来“思考”。 然后,机器人通过执行这些计划来“行动”,同时收集丰富的多模式感官反馈。 至关重要的是,“学习”模块处理这些反馈,以促进LLM驱动的自我反省,允许代理对其故障进行因果分析并生成纠正策略。 这些见解存储在体验式存储器中,以指导未来的规划周期。 我们通过模拟和现实世界的广泛实验证明,我们的T-A-L代理显着优于基线方法,包括开环LLM,行为克隆和传统强化学习。 我们的框架实现了超过97

机器人学人机交互
arXiv

大型语言模型中性别刻板印象代表性的实证调查:意大利案例

大型语言模型(LLM)越来越多地在各种各样的领域使用,这引发了人们对它们如何容易地延续陈规定型观念并导致产生偏见性内容的担忧。 这项工作侧重于性别和职业偏见,研究LLM如何塑造对无性别提示的反应,从而产生有偏见的产出。 这种分析使用结构化的实验方法,给出涉及三种不同专业工作组合的不同提示,这些组合也具有层次关系的特征。 这项研究使用意大利语,一种具有广泛语法性别差异的语言,以突出当前LLM以非英语语言生成客观文本的能力的潜在限制。 研究了两种流行的基于LLM的聊天机器人,即OpenAI ChatGPT(gpt-4o-mini)和Google Gemini(gemini-1.5-flash)。 通过API,我们收集了3600个响应。 结果强调了LLM产生的内容如何延续刻板印象。 例如,Gemini 关联 100

计算与语言人工智能计算机与社会人机交互
arXiv

推荐系统,代表性和在线音乐:意大利听众的心理社会分析

推荐系统塑造了全球的音乐收听,因为它们在网络平台中得到广泛采用。 人们对这些系统可能造成的代表性伤害的担忧现在成为科学和公开辩论的一部分,其中音乐听众的观点经常从认知行为的角度报道和讨论,但很少在社会心理和文化视角下进行背景化。 我们朝这个方向前进,采访了一群意大利音乐听众,并通过情感文本分析分析他们的叙述。 得益于此,我们确定了共享的文化剧目,揭示了人们与听力实践的复杂关系:即使熟悉在线平台,听众可能仍然缺乏对推荐系统的批判性理解。 此外,在网络音乐收听的背景下,代表性问题,特别是性别差异,似乎还没有完全掌握。 这项研究强调了跨学科研究的必要性,以解决代表性危害,以及算法意识和数字素养在开发值得信赖的推荐系统中的作用。

人机交互计算机与社会
arXiv

FlashGuard:在光敏癫痫中用于阻止癫痫发作触发的视觉刺激的区分特性的新方法

在虚拟领域,有感光性癫痫(PSE)的个体在使用设备时遇到挑战,导致暴露于不可预测的癫痫发作引起的视觉刺激。 目前防止媒体癫痫发作的规范是异步检测视频中何时发生闪光,然后通知用户。 然而,缺乏一个实时和计算高效的解决方案来处理这个问题。 为了解决这个问题并增强感光观众的可访问性,FlashGuard(一种新颖的方法)设计,根据CIELAB色彩空间中感知对齐的颜色空间分析,评估用户屏幕上帧中颜色变化的速度并适当减轻刺激。 检测系统建立在分析颜色差异的基础上,缓解系统通过减少亮度和平滑颜色过渡来工作。 这项研究为内在色彩特性如何促进PSE个体闪烁的感知差异提供了新的见解,呼吁采用更广泛的WCAG指南以更好地考虑风险。 这些见解和实施为PSE个人在政策和软件中免受数字媒体中危险触发因素的更有力保护铺平了道路。

计算机与社会人机交互社会与信息网络
arXiv

AI电话调查:与AI面试官自动化定量数据收集

随着语音人工智能(AI)系统的兴起,定量调查研究人员可以访问一种新的数据收集模式:AI电话测量。 通过使用人工智能进行电话采访,研究人员可以扩展定量研究,同时平衡类人交互和方法论严谨性的双重目标。 与早期使用交互式语音响应(IVR)技术自动化这些调查的努力不同,语音AI可以实现更自然和适应性强的受访者体验,因为它对人类语音的中断,校正和其他癖好更加强大。 我们构建并测试了一个人工智能系统,以基于大型语言模型(LLM)、自动语音识别(ASR)和语音合成技术进行定量调查。 该系统是专门为定量研究而设计的,并严格遵守研究最佳实践,如问题顺序随机化,回答顺序随机化和确切的措辞。 为了验证系统的有效性,我们将其部署在SSRS意见小组进行两次试点调查,并随后进行单独的人工管理调查,以评估受访者的经验。 我们测量了三个关键指标:调查完成率、断点率和受访者满意度得分。 我们的研究结果表明,更短的仪器和响应更灵敏的人工智能面试官可能有助于所有三个指标的改进。

计算与语言人工智能人机交互
arXiv

MeAJOR Corpus:用于网络钓鱼电子邮件检测的多源数据集

网络钓鱼电子邮件继续通过欺骗性内容和恶意有效载荷利用人类漏洞对网络安全构成重大威胁。 虽然机器学习(ML)模型在检测网络钓鱼威胁方面是有效的,但它们的性能很大程度上依赖于训练数据的质量和多样性。 本文介绍了MeAJOR(来自联合开源存储库的合并电子邮件资产)Corpus,这是一个新颖的多源网络钓鱼电子邮件数据集,旨在克服现有资源中的关键限制。 它集成了13894个样本,代表了广泛的网络钓鱼策略和合法电子邮件,具有广泛的工程功能。 我们通过系统实验评估了数据集在多种特征配置中四种分类模型(RF、XGB、MLP和CNN)的钓鱼检测研究的效用。 结果突出了数据集的有效性,达到98.34

密码学与安全人工智能人机交互
arXiv

大语言模型的道德差距

道德基础检测对于分析社会话语和发展符合道德的人工智能系统至关重要。 虽然大型语言模型在不同任务中表现出色,但它们在专业道德推理方面的表现仍然不清楚。 这项研究提供了使用ROC,PR和DET曲线分析在Twitter和Reddit数据集中最先进的LLM和微调变压器之间的第一次综合比较。 结果显示出巨大的性能差距,尽管工程工作迅速,但 LLM 表现出高假阴性率和系统性的道德内容检测不足。 这些发现表明,特定任务的微调仍然优于道德推理应用的提示。

计算与语言计算机与社会人机交互机器学习
arXiv

PosterMate:面向海报设计的受众驱动的协作角色代理

海报设计可以从目标受众的同步反馈中受益。 然而,收集不同观点的观众并在设计编辑上与之和解可能是具有挑战性的。 最近的生成式AI模型提供了模拟类似人类交互的机会,但目前尚不清楚它们如何用于设计中的反馈过程。 我们介绍了PosterMate,一个海报设计助理,通过创建由营销文档构建的受众驱动的人物代理来促进协作。 PosterMate收集每个角色代理关于海报组件的反馈,并在主持人的帮助下激发讨论以得出结论。 然后,这些商定的编辑可以直接集成到海报设计中。 通过我们的用户研究(N=12),我们确定了PosterMate捕捉被忽视的观点的潜力,同时作为有效的原型工具。 此外,我们的控制在线评估(N=100)显示,鉴于个人角色身份,个人角色代理的反馈是适当的,并且讨论有效地综合了不同角色代理的观点。

人机交互人工智能计算与语言
arXiv

基于AI的智能辅导系统的综合回顾:应用与挑战

基于人工智能的智能辅导系统(ITS)具有改变教学和学习的重要潜力。 随着继续努力设计,开发和整合ITS到教育环境中,关于其有效性的结果好坏参半。 本文提供了全面的审查,以了解ITS如何在真实的教育环境中运作,并确定其应用和评估中的相关挑战。 我们使用系统文献综述方法分析了2010年至2025年发表的众多合格研究,研究了教学策略,NLP,自适应学习,学生建模和ITS的特定领域应用等领域。 研究结果揭示了ITS有效性的复杂格局,突出了进步和持续挑战。 该研究还表明,在实验设计和数据分析方面需要更大的科学严谨性。 基于这些发现,提出了对未来研究和实际影响的建议。

信息检索人工智能人机交互
arXiv