科学撤稿反映了科学记录中存在的问题,可能源于人为错误或学术不端行为。尽管此前在不同背景下已观察到撤稿率的性别差异,但尚未有全面研究探讨这一现象在所有科学领域的表现。本研究考察了学术不端或错误中的性别差异,特别关注男性与女性第一作者在撤稿率方面的差异及其与科研产出的关系。通过整合Web of Science和Retraction Watch的11,622篇撤稿文章与19,475,437篇非撤稿文章数据,我们从撤稿原因、学科领域和国家等角度研究了撤稿率的性别差异。研究发现:男性第一作者具有更高的撤稿率,特别是在抄袭、作者争议、伦理问题、重复发表及伪造/篡改等学术不端行为方面;而在错误导致的撤稿中未发现显著性别差异。此外,男性第一作者在生物医学与健康科学以及生命与地球科学领域的撤稿率显著更高,而女性第一作者在数学与计算机科学领域的撤稿率更高。通讯作者也呈现相似模式。理解这些撤稿的性别差异模式可能有助于制定减少撤稿发生的策略。
URI重定向是网络管理的重要组成部分,支持结构变更、SEO优化和安全防护。然而其复杂性会影响可用性、SEO表现和数字保存。本研究分析了1100万个唯一重定向URI,对每个URI追踪多达10次跳转,以揭示重定向实践的模式和影响。我们的发现表明...
在学术界从X平台迁移的背景下,社交媒体平台Bluesky被提出作为潜在的替代方案。为了评估其在科学传播中的可行性和相关性,本研究首次对Bluesky上学术文章的传播进行了大规模分析,探索其作为社交媒体指标新来源的潜力。我们从2024年2月至2025年4月收集并分析了87,470条Bluesky帖子,这些帖子引用了72,898篇学术文章,并整合了OpenAlex数据库的元数据。我们考察了时间趋势、学科覆盖、语言使用、文本特征和用户参与度。从2024年11月起,Bluesky上的学术活动急剧增加,这与学术界从X平台更广泛的迁移相吻合。帖子主要关注社会、环境和医学科学,且主要以英语撰写。与X平台类似,点赞和转发比回复和引用更为常见。然而,Bluesky帖子显示出比之前在X平台上观察到的更高的文本原创性,表明更大的解释性参与。这些发现突出了Bluesky作为科学传播可信平台和替代计量学有前途来源的新兴角色。该平台不仅可能促进研究产出的早期可见性,还可能在不断变化的社交媒体环境中促进更有意义的学术对话。
维基百科是一个全球可访问的知识来源,内容超过300种语言。 尽管涵盖了相同的主题,但维基百科的不同版本都是独立编写和更新的。 这导致事实不一致,可能影响百科全书和人工智能系统的中立性和可靠性,这些系统通常依赖维基百科作为主要训练源。 这项研究调查了维基百科结构化内容中的跨语言不一致之处,重点是表格数据。 我们开发了一种方法来收集,对齐和分析维基百科多语言文章的表格,定义不一致的类别。 我们应用各种定量和定性指标,使用样本数据集评估多语言对齐。 这些见解对事实验证,多语言知识交互以及利用维基百科内容的可靠AI系统设计都有影响。
永久数据编码(Permanent Data Encoding,PDE)是一个视觉语言框架,专为长期、人类可读和电气独立知识保存而设计。 通过将语义内容编码成紧凑的2-3字符字母数字代码,与公共字典和基于规则的扩展结构相结合,PDE使信息能够在不依赖数字系统的情况下进行视觉解释和逻辑重建。 与QR码或二进制数据不同,PDE提供了一种透明和独立的编码意义方法。 本文概述了PDE语法,字典协议,灾难恢复和AI集成中的用例,以及其作为跨代语义基础设施的影响。
高质量、“丰富”的元数据对于使研究数据可查找、可互操作和可重复使用至关重要。 扩展数据注释和检索中心(CEDAR)长期以来一直通过提供工具来设计机器可操作的元数据模板,以可计算的形式编码社区标准。 为了在现实世界的研究工作流程中更容易获得这些功能,我们开发了CEDAR Embeddable Editor(CEE) - 一个轻量级的,可互操作的Web组件,将结构化的,基于标准的元数据直接写入到第三方平台。 CEE从机器可操作的模板动态渲染元数据形式,并以JSON-LD格式产生语义丰富的元数据。 它通过BioPortal本体存储库支持基于本体的价值选择,它包括用于持久标识符的外部权限解析,例如用于个人的ORCID和研究组织的ROR。 至关重要的是,CEE不需要自定义用户界面开发,允许跨不同平台进行部署。 中东欧已成功整合到Dryad和开放科学框架等通用科学数据存储库中,展示了其支持特定学科元数据创建的能力。 通过支持在现有研究环境中嵌入元数据创作,CEE可以促进社区标准的采用,并帮助提高跨科学学科的元数据质量。
在技术变革快的时代,专利不仅已经演变成知识产权的法律机制,而且已经演变成充满元数据、类别和正式创新的结构化存储容器。 本章建议在信息科学的背景下重新构建专利,将专利作为知识文物,并将专利视为与全球科技知识运动的根本联系。 这项工作侧重于三个领域,人工智能的发明,生物技术专利以及与专利的国际竞争,考虑了新技术如何挑战传统的发明,获取和道德责任的概念。 本章对人工智能对专利作者和先前艺术搜索的影响,生物技术专有权利产生的所有权问题到道德困境,以及在全球创新竞争背景下使用专利获得战略优势的问题进行了批判性分析。 在这项分析中,本章确定了组织信息的重要性,创建了关于原创性的元数据标准,实施检索系统来访问以前的作品,以及对创新生态系统中看不见的关系进行专利的道德思考。 最终,该章节呼吁采取协作,透明和基于道德的方法来管理专利环境中的知识,强调信息专业人员和政策为获得创新的公平性做出贡献。
本文探讨了将AI生成的主题术语集成到图书馆编目中,重点是通过国会图书馆链接数据服务进行验证。 它审查了国会图书馆主题标题系统下传统主题编目的挑战,包括效率低下和编目积压。 虽然生成式AI在加速编目工作流程中显示出希望,但研究表明,AI分配的主题标题的准确性存在重大局限性。 本文提出了一种混合方法,通过LOC Linked Data Service将AI技术与人类验证相结合,旨在提高图书馆编目实践中元数据创建的精度,效率和整体质量。
支持Web的LLM经常回答查询,而不计入他们使用的网页,从而产生“归因差距” - 读取的相关URL与实际引用的URL之间的差异。 利用大约14,000个具有搜索功能的LLM系统的真实LMArena对话日志,我们记录了三种利用模式:1)没有搜索:34
这项研究探讨了游戏化在印度加强学术图书馆服务中的作用,通过调查各个机构的图书馆领导者。 在非游戏环境中使用类似游戏的元素,游戏化可以提高用户参与度并改善信息素养和研究咨询等服务。 研究结果揭示了适度的意识和对游戏化有效性的普遍积极看法。 然而,员工专业知识不足、基础设施和资金有限等挑战阻碍了实施。 该研究强调需要额外的资源,包括员工培训和技术升级,以释放学术图书馆游戏化的全部潜力。
先进的生物成像技术使多维数据的大规模获取成为可能,但有效的元数据管理和互操作性仍然是重大挑战。 为了解决这些问题,我们为生物动力学系统科学数据库(SSBD)提出了一个新的本体论驱动的框架,该框架采用双层架构。 核心层提供了一个以类为中心的结构,引用现有的生物医学本体,支持SSBD:repository - 专注于以最小的元数据快速发布数据集 - 和SSBD:数据库,通过生物和成像相关注释进行增强。 同时,实例层表示实际的成像数据集信息为资源描述框架个人,这些个体与核心类明确链接。 这种分层方法将灵活的实例数据与健壮的本体论类对齐,从而实现无缝集成和高级语义查询。 通过将灵活性与严谨性耦合,SSBD本体可促进互操作性,数据重用和发现新的生物机制。 此外,我们的解决方案与《生物图像推荐元数据》指南保持一致,并促进兼容性。 最终,我们的方法有助于在生物成像社区中建立一个可查找、可访问、可互操作和可重复使用的数据生态系统。
使科学论文易于访问可能需要后处理旧论文,以创建符合可访问标准的输出。 一个重要的步骤是将视觉格式转换为逻辑格式。 在这份报告中,我们描述了我们对arXiv论文零投篮转换的尝试。 我们的结果好坏参半:虽然有可能做转换,但可靠性不是太好。 我们讨论解决这个问题的替代方法。
已经应用各种技术来监测两个建筑实体之间的距离,防止事故,从而提高现场安全。 该研究根据2010年至2024年期间发表的97篇相关文章,全面回顾了致力于接近监测和警告(PMW)的相关努力。 书目分析揭示了随着时间的推移的技术路线图,以及五个最有影响力的领导者和他们建立的两个最大的研究网络。 然后从四个角度进行定性审查:影响因子研究,危险水平定义和确定,接近感知以及警报发布和接收。 最后,讨论了当前接近感知的局限性和挑战,以及相应的未来研究方向,包括端到端三维(3D)对象检测,动态构建场景的实时3D重建和更新以及多模态融合。 本综述介绍了PMW当前的研究现状、局限性和未来方向,指导了PMW系统的未来发展。
研究评估对于任命、晋升、部门评估和国家科学战略监测非常重要。 虽然全球北方大学通常有足够的高级研究人员进行有效的同行评审,并且对引用数据有足够的信任,以将其用于支持指标,但全球南方的情况也不太可能。 此外,全球南方研究重点可能与基于引文的指标不相符。 本文介绍了基于ChatGPT的策略,旨在解决这两个限制,将其应用于毛里求斯。 该战略涉及向ChatGPT提供有关如何从给定全球南方国家的角度评估研究质量的指示,然后使用它根据这些标准对文章进行评分。 毛里求斯的结果显示,ChatGPT在2015年至2021年期间发表的1,566篇期刊文章的得分与ChatGPT研究质量得分和引用率几乎为零。 对毛里求斯价值相对较高的文章的词汇关联主题分析确定了一系列合理的主题,包括教育、政策相关性和工业生产。 评分较高的文章也倾向于抽象地提到国家或一个重要的商业部门。 虽然证据表明,使用ChatGPT评估对期刊文章国家的直接价值可以得出合理的结果,但这种方法应该谨慎使用,因为它具有未知的准确性,并且忽略了研究贡献的更广泛价值。
开放研究软件的可发现性、归因性和可重用性往往受到其在学术手稿中的默默无闻的阻碍。 为了解决这个问题,SoFAIR项目(2024-2025)引入了一个全面的工作流程,利用机器学习工具从研究论文中提取提及的软件。 该项目集成了存储库系统、作者和HAL和软件遗产等服务,以确保符合FAIR原则的研究软件的适当存档、引用和可访问性。 为了实现跨各种系统的可互操作通信,我们介绍了COAR通知协议的集成,该协议促进了存储库和作者之间的自动化,可互操作的通信,以验证和传播软件提及。 本文概述了SoFAIR工作流程和COAR通知协议的实施,强调了其提高研究软件作为一流书目记录的可见性和可信度的潜力。
本文介绍了USRN发现试点项目的结果,该项目由SPARC,开放获取存储库联合会(COAR),CORE和Antleaf合作,以提高美国存储库中研究论文的可发现性,利用CORE作为USRN存储库的索引服务。 该项目在三个战略领域开展了行动:在试点项目开始和结束时评估并定量衡量可发现性和障碍,进行干预措施以提高可发现性,并支持技术和指南(由CORE服务提供)的干预措施,以尽量减少努力并最大限度地提高效果。 该项目的主要成果包括:在选定的美国存储库中,大约四分之三的研究成果已经被发现(50个)
科学知识是技术创新、塑造全球工业发展和政策决策的关键驱动力。 了解专利如何纳入科学研究对于评估学术发现在技术进步中的作用至关重要。 非专利参考(NPR)通过揭示专利利用科学文献的程度,为这种关系提供了一个有用的指标。 在这里,我们表明,对专利科学研究的依赖因地区而异。 大洋洲和欧洲对科学知识的接触程度更强,而美洲则表现出较低的依赖性。 此外,与普通科学出版物相比,NPR更有可能是开放获取,这一趋势在考虑Sci-Hub可用性时会加剧。 这些结果突出了开放科学对全球创新动态的变革性影响。 通过促进更广泛的研究机会,开放科学加强了学术界和工业界之间的联系,强调需要促进公平和基于科学的创新的政策,特别是在发展中地区。
科学出版越来越依赖预印本服务器进行快速传播,但研究人员经常在手稿准备和质量控制方面挣扎。 在这里,我们介绍了Rxiv-Maker,一个GitHub原生框架,通过自动化LaTeX处理将标记内容转换为已发布的PDF。 该系统通过将手稿视为可执行输出而不是静态文档来解决计算生物学和成像研究中的可重复性挑战。 Rxiv-Maker将版本控制工作流程与自动化构建环境集成,实现协作式手稿开发,同时保持计算来源。 该框架支持编程数字生成,这对于显微镜和图像分析工作流程至关重要,其中可视化必须反映当前的数据和处理算法。 这份完全使用Rxiv-Maker生成的手稿展示了该系统将可访问的创作与专业排版联系起来的能力,为研究人员提供了从数据到出版与开放科学原则相一致的透明途径。
我们研究过渡性减少对引文网络的影响。 我们的假设是,在短暂减少下减少引用的文件可能是跨学科的,而大量引用的损失表明,文档主要在单一学科内引用。 我们通过使用引文网络的人工模型和使用来自三个来源的引文数据来验证这一假设:学术论文,法院判决和专利。 在需要的地方,我们在使用书目耦合定义的网络上应用基于模块化的聚类技术,按主题对文档进行分类。 然后使用依赖于集群的措施将节点分类为跨学科或跨学科。 我们的结果在四种情况下中的三种为我们的假设提供了强有力的支持,在专利方面,我们的假设有点弱,但仍然积极的支持。
在当前面向协作的知识生产框架内,同行评审期刊中单一作者身份的减少促使人们对学术体系中不断变化的权力结构进行了更深入的反思。 本文旨在探讨导致单一作者研究在管理领域边缘化的潜在制度逻辑和评估机制。 它进一步调查了协作优势的话语如何掩盖结构性权力再分配和意识形态的取消。 通过对顶级期刊的作者数据的分析,对制度激励文本的批判性阅读以及对作者配置的经验回顾,Harzing,Wuchty和Larriviere工作的研究构建了一个三维因果链:协作激励,责任稀释和原创性减弱。 研究结果表明,单一作者身份没有被明确排除,但通过资助政策,审查实践和绩效指标逐渐被排除在中央出版渠道之外。 因此,独立思想在制度化的合作中处于结构上的边缘。 该论文倡导范式从工具理性转向基于价值的理性,并呼吁通过评估框架,期刊治理和研究伦理改革,恢复独立研究的合法性和公共价值,旨在保障学术多样性和智力自主。
科学家努力将他们的数据集在开放存储库中提供,目标是可找到,可访问,可互操作和可重复使用(FAIR)。 虽然大多数调查人员很难记住与FAIR数据相关的所有指导原则,但有一个首要要求:数据需要用丰富的,特定于学科的标准化元数据进行注释。 扩展数据注释和检索中心(CEDAR)构建技术,使科学家能够将元数据标准编码为模板,列举不同类型的实验的属性。 这些元数据模板捕获了有关数据应该如何描述以及第三方需要了解什么来理解数据集的偏好。 描述社区元数据偏好的CEDAR模板已用于标准化各种科学联盟元数据。 它们被用作通过Web表单或通过电子表格获取元数据的注释系统的基础,它们可以帮助纠正元数据,以确保遵守标准。 就像几十年前支持智能系统的声明性知识库一样,CEDAR模板以符号形式捕获知识,并允许这些知识在各种环境中应用。 它们为科学界提供了一个机制,以创建共享元数据标准,并为应用这些标准进行编码,并将这些标准部署在一系列智能系统中,以促进开放科学。
研究软件在研究过程中至关重要,开放科学的发展强调了访问数据和代码等研究工件的重要性,提高了输出之间的可追溯性挑战。 虽然研究代码以及其他基本输出应该被认为是研究过程的工件,但这一原则如何仍然是可变的。 这项研究考察了英国学术机构存储和注册软件作为独特研究成果的地方,搜索了UKRI在英国公共资助的研究软件的Gateway to Research(GtR)元数据。 作为研究成果报告的软件数量与其他类别的比例仍然很低。 人工制品共享似乎很低,据报道,四分之一的软件没有链接,45个
本文介绍了一个文档类型分类器,目的是优化OpenAlex中研究和非研究期刊出版物之间的区别。 基于开放的元数据,分类器可以在一组分类文章和评论(例如参数,摘要,社论,信件)中检测非研究或编辑内容。 分类器的F1得分为0.95,表明OpenAlex在真实数据上应用分类器时,数据质量可能会提高。 在42.701.863篇文章和评论中,共有4.589.967条可以重新归类为非研究贡献,占10,75
生成式人工智能(AI)系统“幻觉”虚假信息的趋势是众所周知的;AI生成的对不存在来源的引用已经进入同行评审出版物的参考列表。 在这里,我提出了这个问题的解决方案,从透明度和开放促进(TOP)数据共享指南,生成式AI与美国司法机构的冲突以及向美国专利商标局提交先前艺术设定的先例中获得灵感。 期刊应要求作者提交每个引用来源的全文及其手稿,从而阻止作者引用他们无法制作的全文的任何材料。 该解决方案需要作者或编辑进行有限的额外工作,同时有效地对期刊进行免疫,防止产生幻觉的参考。
URI重定向是网络管理的重要组成部分,支持结构变更、SEO优化和安全防护。然而其复杂性会影响可用性、SEO表现和数字保存。本研究分析了1100万个唯一重定向URI,对每个URI追踪多达10次跳转,以揭示重定向实践的模式和影响。我们的发现表明...