本文演示了一种名为 GhostWriter 的新工作流程,它结合了大型语言模型(LLM)和知识图谱(语义工件)的使用,以支持对集合的导航。该工作流程位于检索增强生成的研究领域,详细介绍了本地和自适应聊天机器人的创建。基于 EverythingData 后端工具套件,GhostWriter 提供了一个界面,可以查询和“与”一个集合“对话”。通过迭代应用该工作流程,可以支持研究人员在与论文集合交互时的信息需求,无论是为了获得概述,了解特定概念及其背景,还是最终以受控方式完善其研究问题。我们针对 GESIS – 社会科学莱布尼茨研究所发布的《方法数据分析》期刊的文章集合演示了该工作流程。我们还指出了进一步的应用领域。
随着人工智能(AI)法规的发展和监管格局的发展和变得更加复杂,确保遵守道德准则和法律框架仍然是人工智能开发人员面临的挑战。 本文介绍了一个人工智能驱动的自我评估聊天机器人,旨在帮助用户浏览欧盟人工智能法案和相关标准。 利用检索增强的一代(RAG)框架,聊天机器人通过检索相关监管文本和提供量身定制的指导,实现实时、具有上下文感知的合规性验证。 通过整合公共和专有标准,它简化了监管的遵守,降低了复杂性,并促进了负责任的人工智能开发。 本文探讨了聊天机器人的架构,比较了天真和基于图形的RAG模型,并讨论了其对AI治理的潜在影响。
这项研究调查了文章处理费用(APC)豁免对乌克兰研究人员参与2019-2024年期间由五大学术出版商出版的全金开放获取期刊的影响。 为了应对2022年针对乌克兰发动的全面战争,许多出版商实施了非凡的APC豁免政策,以支持受影响的作者。 这项研究使用来自Web of Science Core Collection的文献资料,研究了2022年之前和之后乌克兰撰写的全金OA期刊中的趋势,并将其与邻国(波兰,捷克共和国,匈牙利和罗马尼亚)进行比较。 结果显示,2022年后乌克兰黄金OA产量大幅增加,特别是在Springer Nature和Elsevier的期刊上。 虽然这种增长似乎与APC豁免者的引入有关,但国际合作,紧急赠款支持和个人出版战略等其他因素也做出了贡献。 观察到了纪律差异和出版商特有的模式,医学和应用科学显著增加。 该研究强调了危机期间有针对性的支持举措的潜力,但也指出了基于APC的模式在实现公平学术交流方面的局限性。
大型语言模型(LLM)越来越多地显示出概念理解的迹象,但其内部知识仍然潜伏,结构松散,难以访问或评估。 我们建议将自我质疑作为一种轻量级和可扩展的策略,以提高LLM的理解,特别是在成功依赖于精细语义区分的领域。 为了评估这种方法,我们引入了一个具有挑战性的新基准,即130万2015年后计算机科学专利对,其特点是密集的技术术语和战略复杂的写作。 基准集中在一个配对的差异化任务上:一个模型能区分密切相关但实质上不同的发明吗? 我们表明,促使 LLM 生成和回答自己的问题——针对任务所需的背景知识——显著提高了性能。 这些自我生成的问题和答案激活了其他未充分利用的内部知识。 允许LLM从外部科学文本中检索答案进一步提高了性能,这表明模型知识被压缩并且缺乏训练数据的完全丰富性。 我们还发现,思想链的提示和自我质疑是趋同的,尽管自我质疑对于提高对技术概念的理解仍然更有效。 值得注意的是,我们发现提示不对称:较小的模型通常为中型模型产生更基本,更开放,更一致的问题,而不是具有更好理解的大型模型,揭示了跨模型协作的新策略。 总之,我们的发现将自我质疑确立为自动提高LLM理解的实用机制,特别是在知识稀少和代表性不足的领域,以及内部和外部知识的组织方式的诊断探索。
本文介绍了一种新的方法来绘制新兴技术的宇宙,利用包含丰富多样性和当代知识广度的各种源数据来创建新的数据集和多个索引,为这些技术提供新的见解。 Cosmos 1.0数据集是23,544项技术(ET23k)的综合集合,构建成一个分层模型。 每项技术分为三个元簇(ET3)和七个主题簇(ET7),由100维嵌入向量增强。 在宇宙中,我们手动验证了100种名为ET100的新兴技术。 该数据集富含专门用于评估新兴技术格局的其他指数,包括技术意识指数,通用指数,Deeptech和技术时代指数。 该数据集包含来自维基百科的广泛元数据和来自第三方来源的链接数据,如Crunchbase,Google Books,OpenAlex和Google Scholar,用于验证构建索引的相关性和准确性。 此外,我们训练了一个分类器,以确定它们是开发“技术”还是与技术相关的“术语”。
同行评审的完整性是科学进步的基础,但大型语言模型(LLM)的兴起引发了一些关注,即一些评审者可能依赖这些工具来生成评论,而不是独立编写。 虽然一些场所已经禁止了LLM辅助审查,但由于现有的检测工具无法可靠地区分完全生成的评论和仅通过人工智能辅助进行抛光的审查,因此执法仍然很困难。 在这项工作中,我们解决了检测LLM生成的评论的挑战。 我们考虑通过论文的PDF进行间接提示注入的方法,促使LLM在生成的审查中嵌入一个隐蔽的水印,然后测试在审查中是否存在水印。 我们确定并解决了这种方法的天真实施过程中的几个陷阱。 我们的主要贡献是严格的水印和检测框架,提供强大的统计保证。 具体来说,我们引入了水印方案和假设测试,在多个评论中控制家庭错误率,实现比Bonferroni等标准校正更高的统计能力,同时对人写评论的性质没有假设。 我们探索多种间接提示注入策略 - 包括基于字体的嵌入和混淆的提示 - 并在各种审查器防御情景下评估其有效性。 我们的实验发现不同LLM的水印嵌入成功率很高。 我们还从经验上发现,我们的方法对常见的审查员防御有弹性,并且我们的统计测试中错误率的界限在实践中保持不变。 相比之下,我们发现Bonferroni风格的修正过于保守,无法在这种设置中有用。
随着人工智能(AI)法规的发展和监管格局的发展和变得更加复杂,确保遵守道德准则和法律框架仍然是人工智能开发人员面临的挑战。 本文介绍了一个人工智能驱动的自我评估聊天机器人,旨在帮助用户浏览欧盟人工智能法案和相关标准。 利用检索增强的一代(RAG)框架,聊天机器人通过检索相关监管文本和提供量身定制的指导,实现实时、具有上下文感知的合规性验证。 通过整合公共和专有标准,它简化了监管的遵守,降低了复杂性,并促进了负责任的人工智能开发。 本文探讨了聊天机器人的架构,比较了天真和基于图形的RAG模型,并讨论了其对AI治理的潜在影响。
本文介绍了CHAD-KG,这是一个旨在描述展览,博物馆和收藏中文化遗产对象的书目元数据和数字化参数数据的知识图谱。 它还记录了相关的数据模型和物化引擎。 最初基于两个表格数据集,根据CHAD-AP将数据转换为RDF,CHAD-AP是基于CIDOC-CRM,LRMoo,CRMdig和Getty AAT等标准的OWL应用程序配置文件。 使用Morph-KGC扩展开发的可重复的管道用于生成图形。 CHAD-KG现在是题为The Other Renaissance - Ulisse Aldrovandi和The Wonders of the World的临时展览数字孪生的主要元数据来源,以及与全国资助项目中正在开发的数字化工作相关的其他收藏,即。 变革项目(https://fondazionechanges.org)。 为了确保可访问性和重用,它提供了SPARQL端点,用户界面,开放文档,并在CC0许可下在Zenodo上发布。 该项目提高了文化遗产数据的语义互操作性,未来的工作旨在扩展数据模型和物化管道,以更好地捕捉获取和数字化的复杂性,进一步丰富数据集并扩大其与类似举措的相关性。
现代科学面临着从线性系统审查协议转向跨知识领域更深入的认知导航的需求。 在这种情况下,PANDAVA协议(深层论证和有价值知识分析和导航协议)旨在分析科学知识的语义结构。 它结合了语义映射,概念成熟度评估,聚类和生成新假设。 PANDAVA被解释为第一个专注于语义和认知映射的知识系统化的跨学科协议。 PANDAVA协议将定量分析方法与理解知识结构的反射程序相结合,并应用于跨学科,理论上饱和的领域,如PRISMA等传统模型证明不足。 例如,该协议应用于分析生物起源假说。 建模演示了如何通过整合微光、湍流过程和地球化学源的数据来构建生命起源的理论。 PANDAVA使研究人员能够识别强弱概念,构建知识图谱,并开发新的假设。 总体而言,PANDAVA是有意义的知识管理的认知丰富工具,促进了从事实的表征到新科学范式设计的转变。
我们介绍了AnnualBERT,这是一系列专门用于捕捉科学文本的时间演变的语言模型。 AnnualBERT偏离了子词代币化的流行范式和“一个模型来统治它们”,采用整个单词作为令牌,由从零开始预先训练的基础ROBERTa模型组成,该模型在2008年之前发表的170万arXiv论文的全文中进行了预演,并且每年在arXiv论文上收集逐步训练的模型。 我们展示了AnnualBERT模型的有效性,表明它们不仅在标准任务中具有可比的性能,而且还在arXiv引用网络中实现了特定领域NLP任务以及链接预测任务的最先进的性能。 然后,我们利用探测任务来量化模型在表示学习和遗忘方面的行为。 我们的方法使预训练模型不仅可以提高科学文本处理任务的性能,还可以随着时间的推移提供对科学话语发展的见解。 该系列型号可在https://huggingface.co/jd445/AnnualBERTs上找到。
本文演示了一种名为 GhostWriter 的新工作流程,它结合了大型语言模型(LLM)和知识图谱(语义工件)的使用,以支持对集合的导航。该工作流程位于检索增强生成的研究领域,详细介绍了本地和自适应聊天机器人的创建。基于 EverythingData 后端工具套件,GhostWriter 提供了一个界面,可以查询和“与”一个集合“对话”。通过迭代应用该工作流程,可以支持研究人员在与论文集合交互时的信息需求,无论是为了获得概述,了解特定概念及其背景,还是最终以受控方式完善其研究问题。我们针对 GESIS – 社会科学莱布尼茨研究所发布的《方法数据分析》期刊的文章集合演示了该工作流程。我们还指出了进一步的应用领域。
这项研究调查了文章处理费用(APC)豁免对乌克兰研究人员参与2019-2024年期间由五大学术出版商出版的全金开放获取期刊的影响。 为了应对2022年针对乌克兰发动的全面战争,许多出版商实施了非凡的APC豁免政策,以支持受影响的作者。 这项研究使用来自Web of Science Core Collection的文献资料,研究了2022年之前和之后乌克兰撰写的全金OA期刊中的趋势,并将其与邻国(波兰,捷克共和国,匈牙利和罗马尼亚)进行比较。 结果显示,2022年后乌克兰黄金OA产量大幅增加,特别是在Springer Nature和Elsevier的期刊上。 虽然这种增长似乎与APC豁免者的引入有关,但国际合作,紧急赠款支持和个人出版战略等其他因素也做出了贡献。 观察到了纪律差异和出版商特有的模式,医学和应用科学显著增加。 该研究强调了危机期间有针对性的支持举措的潜力,但也指出了基于APC的模式在实现公平学术交流方面的局限性。
本文介绍了整合语义元数据、3D模型和讲故事的管道,增强了文化遗产的数字化。 使用Aldrovandi Digital Twin案例研究,它概述了一个可重复使用的工作流程,结合了RDF驱动的叙述和数据可视化,用于创建互动体验,以促进文化遗产的获取。
我们介绍了学术家谱或AG的概念,并说明了如何构建AG图表,然后演示如何使用这种方法,将其应用于创建部分或完整的AG图表给两位科学家,Paul A。 萨缪尔森和罗纳德·E。 米肯斯。
大型语言模型(LLM)越来越多地显示出概念理解的迹象,但其内部知识仍然潜伏,结构松散,难以访问或评估。 我们建议将自我质疑作为一种轻量级和可扩展的策略,以提高LLM的理解,特别是在成功依赖于精细语义区分的领域。 为了评估这种方法,我们引入了一个具有挑战性的新基准,即130万2015年后计算机科学专利对,其特点是密集的技术术语和战略复杂的写作。 基准集中在一个配对的差异化任务上:一个模型能区分密切相关但实质上不同的发明吗? 我们表明,促使 LLM 生成和回答自己的问题——针对任务所需的背景知识——显著提高了性能。 这些自我生成的问题和答案激活了其他未充分利用的内部知识。 允许LLM从外部科学文本中检索答案进一步提高了性能,这表明模型知识被压缩并且缺乏训练数据的完全丰富性。 我们还发现,思想链的提示和自我质疑是趋同的,尽管自我质疑对于提高对技术概念的理解仍然更有效。 值得注意的是,我们发现提示不对称:较小的模型通常为中型模型产生更基本,更开放,更一致的问题,而不是具有更好理解的大型模型,揭示了跨模型协作的新策略。 总之,我们的发现将自我质疑确立为自动提高LLM理解的实用机制,特别是在知识稀少和代表性不足的领域,以及内部和外部知识的组织方式的诊断探索。
学术论文的指数级增长大大增加了研究人员获取相关文献所需的时间。 关键词提取(KPE)通过使研究人员能够有效地检索相关文献,为这种情况提供了解决方案。 目前对学术文章的KPE研究旨在通过使用Title和Abstract作为输入语料库的创新方法提高提取模型的性能。 然而,关键词的语义丰富性受到抽象长度的制约。 虽然基于全文的KPE可以解决这个问题,但它同时引入了噪声,这显着降低了KPE的性能。 为了解决这个问题,本文利用从学术文章的部分结构信息中获得的结构特征和部分文本从学术论文中提取关键词。 该方法由两个主要部分组成:(1)探索七个结构特征对KPE模型的影响;(2)通过关键字句集成算法将用作KPE模型输入子体的所有部分文本的提取结果整合,以获得关键字句集成结果。 此外,本文还研究了部分结构的分类质量对KPE性能的影响。 结果表明,结合结构特征可以提高KPE性能,尽管不同的特征对模型功效有不同的影响。 关键词集成方法产生最佳性能,截面结构的分类质量会影响KPE性能。 这些发现表明,使用学术文章的部分结构信息有助于从学术文章有效的KPE。 支持这项研究的代码和数据集可在https://github.com/yan-xinyi/SSB_KPE上找到。
我们在2023年国际机器学习会议(ICML)的审查过程中进行了一项实验,要求具有多个投稿的作者根据感知的质量对其论文进行排名。 我们总共获得了1,342个排名,每个排名来自不同的作者,涵盖2,592份。 在本文中,我们介绍了如何利用作者提供的排名来改善机器学习会议上的同行评审过程的经验分析。 我们专注于同位素机制,该机制使用作者提供的排名校准原始评论分数。 我们的分析显示,这些排名校准的分数在估计地面真相“预期评论分数”方面的表现优于原始评论分数,无论是平方和绝对误差指标。 此外,我们建议对同位素机制进行一些谨慎、低风险的应用,并在同行评审中提供作者提供的排名,包括支持高级地区主席监督地区主席的建议,协助选择论文奖,以及指导紧急审查员的招聘。
边缘计算凭借其低延迟,动态可扩展性和位置感知,以及计算和通信范式的融合,已成功应用于工业物联网,智能医疗保健,智能家居和公共安全等关键领域。 本文提供了开源边缘计算模拟器和模拟器的全面调查,在我们的GitHub存储库(https://github.com/qijianpeng/awesome-edge-computing)中提出,强调计算和网络范式的融合。 通过检查包括 CloudSim、NS-3 和其他工具在内的 40 多种工具,我们确定了模拟和仿真边缘环境的优势和局限性。 本调查将这些工具分为三类:数据包级、应用程序级和模拟器。 此外,我们通过五个维度来评估它们,从资源表示到资源利用率。 该调查强调了不同计算范式的集成、数据包处理能力、对边缘环境的支持、用户定义的度量接口和场景可视化。 研究结果旨在指导研究人员选择开发和验证先进计算和网络技术的适当工具。
目的:本研究旨在总结大型语言模型(LLM)在创建科学综述过程中的使用情况。 我们研究了可以自动化的评审阶段的范围,并评估该领域当前最先进的研究项目。 材料和方法:搜索于2024年6月在PubMed,Scopus,Dimensions和Google Scholar数据库中由人类审稿人进行。 在使用OpenAI gpt-4o模型的LLM插件的帮助下,在Covidence中进行筛选和提取过程。 ChatGPT用于清理提取的数据并生成本手稿中的数字代码,ChatGPT和Scite.ai用于起草手稿的所有组件,除了方法和讨论部分。 结果:检索了3,788篇文章,172项研究被认为有资格进行最终审查。 ChatGPT和基于GPT的LLM成为审查自动化(n=126,73.2)最主要的架构,但只有数量有限的论文(n=26,15.1评论在创建过程中使用了LLM。 大多数引用集中在特定审查阶段的自动化上,例如搜索出版物(基于GPT和BERT的模型的n=60,34.9性能),前者在数据提取方面更好,平均精度为83.0,而在标题和抽象筛选阶段则稍差(Maccuracy=77.3综述揭示了与使用LLM审查自动化相关的大量研究项目。 结果看起来很有希望,我们预计LLM将在不久的将来改变科学审查的进行方式。
科学出版物对计算机科学中与学术相关的决策产生重大影响,其中顶级会议特别有影响力。 然而,制作出版物所需的努力在各个子领域都有很大的不同。 虽然现有的基于引文的研究比较了区域内的场地,但由于不同的出版量和引文实践,跨区域比较仍然具有挑战性。 为了解决这一差距,我们引入了ICLR点的概念,定义为在ICLR,ICML和NourIPS等顶级机器学习会议上制作一个出版物所需的平均努力。 利用DBLP(2019-2023)的综合出版数据和CSRankings的教师信息,我们定量测量和比较了27个计算机科学子领域的平均出版工作。 我们的分析揭示了平均出版努力的显著差异,验证了轶事的看法:系统会议通常比人工智能会议更需要每次出版的努力。 我们通过评估大学,当前院系和最近的教师候选人的出版记录,进一步证明了ICLR积分指标的实用性。 我们的发现强调了使用此指标如何在学术评估过程中实现更有意义的跨领域比较。 最后,我们讨论了该指标的局限性,并告诫不要滥用该指标,强调整体评估标准的必要性,而不仅仅是出版指标。
民主社会需要可获得的、可靠的信息。 视频和播客已成为公民传播的首选媒介,也是错误信息的载体。 新兴的科学传播知识基础设施(SciCom KI)策划非文本媒体仍然支离破碎,没有足够的设备来对抗内容洪水。 我们的工作旨在支持SciCom KI与一个中央,协作平台,SciCom Wiki,以促进FAIR(可查找,可访问,可互操作,可重复使用)媒体表示及其内容的事实检查,特别是视频和播客。 建立一个以Wikibase为中心的开源服务系统,我们调查了53个利益相关者的要求,在11次访谈中完善了这些需求,并根据这些要求与另外14名参与者评估我们的原型。 为了解决最要求的功能,事实检查,我们开发了一种神经符号计算事实检查方法,将异质介质转换为知识图谱。 这增加了机器可读性,并允许将语句与同样代表的地面真理进行比较。 我们的计算事实检查工具通过10次专家访谈进行了迭代评估,一项有43名参与者的公共用户调查验证了我们工具的必要性和可用性。 总的来说,我们的研究结果确定了系统支持SciCom KI的几种需求。 SciCom Wiki作为FAIR数字图书馆,补充我们的神经符号计算事实检查框架,被发现适合满足提出的要求。 此外,我们发现SciCom KI在FAIR知识和相关系统方面严重不发达,有助于其协作创建和策划。 我们的系统可以提供中央知识节点,但需要共同努力来扩大规模,以应对迫在眉睫的(错误)信息洪水。
准确的隶属关系匹配,将隶属关系字符串与标准化组织标识符联系起来,对于提高研究元数据质量,促进全面的文献分析以及支持跨学术知识库的数据互操作性至关重要。 现有方法无法处理从属关系字符串的复杂性,这些字符串通常包括提及多个组织或无关的信息。 在本文中,我们介绍了AffRo,一种旨在应对这些挑战的新方法,利用先进的解析和消歧义技术。 我们还引入了AffRoDB,这是一个专家策划的数据集,用于系统地评估从属匹配算法,确保强大的基准测试。 结果表明AfRp从复杂的隶属关系字符串中准确识别组织的有效性。
发布研究数据旨在提高研究成果的透明度,并促进数据集的重用。 在这两种情况下,建议引用所使用的数据集。 研究数据存储库可以通过各种措施支持数据引用,并从中受益,例如使用此信息来证明其影响。 然而,文献表明,正式引用研究数据的做法并不普遍,数据指标尚未建立,缺乏有效的激励结构。 本文探讨了通过研究数据存储库RADAR发布的数据集的频率和形式。 为此,分析了数据源Google Scholar,DataCite Event Data和数据引文语。 分析显示,27.9至少被引用一次。 21.4 在参考列表中,因此被视为数据引用。 数据集经常在数据可用性语句中引用。 对三个数据来源的比较表明,参考文献的覆盖面几乎没有重叠。 多数情况下(同年75.8)。 考虑了两种定义方法来调查数据重用。 118个RADAR数据集被多次引用。 只有21个引用在作者信息中没有重叠 - 这些数据集是由没有参与数据收集的研究人员引用的。
带着数字人文领域最近发展以及学术工作流程日益自动化的出发点,本研究探讨了数字方法对文本传统对更广泛的文本学术领域的影响。 它辩称,创建计算机生成的茎瘤的相对简单性使我们能够将干钳视为研究工具,而不是我们学术调查的最终产物。 使用Hrómundur的旧挪威传奇作为案例研究,本文表明,干果可以作为进一步探索文本传统的起点。 在这样做的过程中,它们使我们能够解决尚未答复的研究问题。 这篇文章还附带了用于为Hrómundar传奇传统生成干数的数据集以及两个自定义Python脚本。 这些脚本旨在将基于 XML 的文本数据(根据 TEI 指南编码)转换为用于 PHYLIP 包中分析的输入格式,以生成文本之间关系的未根树。