AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

数字图书馆研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

南非博士后研究员的全国性研究

本报告提供了南非公立大学博士后研究员(博士后)的第一次综合分析。它将对现有数据的分析与以调查机构的形式收集的主要数据进行分析,对博士后研究产出的文献计量研究以及对博士后的个人调查进行了分析。从2016年到2022年,博士后的数量一直在稳步增长,并且因大学而异,更大的研究密集型大学托管了更多的博士后。在人口统计方面,非洲黑人博士后的比例有所增加;女性博士后的比例一直低于男性;老年博士后的比例越来越高;超过60%的博士后是外国出生的。对博士后出版物产出的文献资料分析表明,从2005年到2022年,它大幅增加。个人调查的一些主要结果是,博士后职位主要是为了提高永久学术职位的就业前景。然而,据报道,获得这些职位具有挑战性,其结果是,每四个博士后中有一个连续担任多个博士后职位,一般博士后,特别是非南非人,认为就业市场很差。后医生计划离开南非主要是为了寻求更好的就业机会,但也是由于移民规则或签证问题,这对非南非人构成了重大挑战。大多数博士后希望为教学和监督做出贡献,但往往缺乏这样做的机会。不满主要源于薪酬水平低、职位不稳定造成的困难以及收容机构对培训和职业发展缺乏支持。

数字图书馆

SciCom Wiki:支持视频和播客科学传播知识基础设施的数字图书馆

视频和播客已成为公民传播的首选媒介,也是错误信息的载体。新兴的科学传播知识基础设施(SciCom KI)策划了这些越来越非文本的媒体,仍然支离破碎,没有足够的能力来对抗内容洪水。我们的工作旨在支持SciCom KI与一个中央,协作平台,SciCom Wiki,以促进FAIR(可查找,可访问,可互操作,可重复使用)的媒体表示,特别是视频和播客。我们调查了来自53个利益相关者的要求,并在11次访谈中单独完善了这些见解。然后,我们设计并实施以Wikibase为中心的开源服务系统,并与另外14名参与者评估我们的原型。总的来说,我们的发现确定了几个需要系统地支持SciCom KI。我们的 SciCom Wiki 方法适合满足所提出的要求。此外,我们确定SciCom KI在FAIR知识和相关系统方面严重不发达,有助于其协作创建和策划。我们的系统可以提供类似于维基数据的中心知识节点,但需要共同努力,以扩展必要的功能,以抵御迫在眉睫的(错误)信息洪水。

数字图书馆多媒体

我们已经到了审查论文结束的开始吗?

审稿传统上在学术出版方面享有很高的地位,因为它们在总结和综合研究领域方面可以发挥重要作用。它们也可以比提出原创研究的主要研究论文吸引更多的引用,使它们对作者有吸引力。近年来,审查文件的出版量急剧增加,既有原始数字,也占总出版物产出的比例。在本文中,我们展示了在广泛的研究领域的增长。我们量化了与评论论文相关的引文红利,但也表明它正在下降,并讨论这种下降的原因。我们进一步表明,自2022年GenAI工具问世以来,有证据表明GenAI在研究论文写作中广泛使用,并且与主要研究论文相比,我们在综述论文中提出了更强的AI信号的证据。我们建议GenAI加速甚至自动化生产评审论文的潜力将对其地位产生进一步重大影响。

数字图书馆

及时指导哲学杂志或:我如何开始跟踪人工智能援助并停止对Slop的担忧

学术出版越来越多地要求作者披露人工智能援助,但这样做会带来声誉成本 - 特别是当这种援助是实质性的。本文分析了这种结构性矛盾,展示了激励如何阻止工作中透明度。传统的场所无法仅仅通过政策调整来解决这种紧张关系,因为潜在的威望经济回报不透明。为了解决这个问题,文章提出了一个替代的出版基础设施:一个在声望系统之外的场所,强制进行强制性披露,实现基于复制的审查,并通过详细的文档支持生态有效性。作为这种方法的证明,文章本身在合理详细的披露下作为AI辅助奖学金的一个例子,包括代表性的提示日志和修改记录。文章没有采取或反对人工智能辅助奖学金的立场,而是概述了可以根据自己的条件评估此类工作的条件:通过透明的文档,面向验证的审查以及方法论承诺的学者的参与。虽然专注于人工智能,但该框架讲述了关于学术系统如何处理方法论创新的更广泛问题。

计算机与社会人工智能数字图书馆

量化CU的影响:系统文献综述

自21世纪初以来,社区统一主义一直是工会复兴辩论中的一个关键概念,但其理论一致性和政治意义仍未得到解决。本文探讨了为什么CU获得了如此突出的地位 - 而不是通过测试其功效,而是通过绘制如何在学术文献中构建,引用和争议。使用两种互补的系统方法 - 对114份文件的引用网络分析和18个核心CU案例研究的专题审查 - 我研究了CU如何作为经验描述符和规范理想。该分析揭示了CU的双重家谱:被英国学者定位为土著回归历史等级和档案实践,但在结构上与跨国社会运动工会主义保持一致。专题编码显示了对联盟建设和联盟近乎普遍的重视,但对阶级政治却有着深刻的矛盾心理。这种紧张关系表明,CU的意义不在于实施新的工会模式,而在于管理工作场所与社区之间的矛盾,领导力和等级与档案,改革和激进主义 - 在萎缩的劳工运动中。

数字图书馆计算与语言

CC30k:用于可重复性导向情绪分析的引文上下文数据集

关于下游文献中引用论文的可重复性的情感提供了社区观点,并显示出已发表结果的实际可重复性的一个有希望的信号。为了训练有效的模型来有效地预测面向可重复性的情绪,并进一步系统地研究它们与可重复性的相关性,我们引入了CC30k数据集,包括机器学习论文中的30,734个引用上下文。每个引文上下文都标有三个可重复性导向的情绪标签之一:正,负或中性,反映了引用的论文的可重复性或可复制性。其中,25,829个通过众包标记,辅以通过受控管道产生的负数,以对抗负压标签的稀缺性。与传统的情绪分析数据集不同,CC30k专注于以可重复性为导向的情绪,解决计算可重复性研究的资源研究差距。该数据集是通过包括健壮的数据清理、仔细的人群选择和彻底验证在内的管道创建的。生成的数据集实现了94%的标签精度。然后,我们证明,使用数据集进行微调后,三个大型语言模型的性能显着提高了可重复性导向的情绪分类。该数据集为大规模评估机器学习论文的可重复性奠定了基础。用于生成和分析数据集的 CC30k 数据集和 Jupyter 笔记本可在 https : / /github.com/lamps-lab/CC30k 公开查阅。

数字图书馆计算与语言

从欧拉到今天:通用数学可谬误对ArXiv论文中的错误进行大规模计算分析

我们介绍了来自ArXiv存储库的数学论文的大规模计算分析的结果,展示了一个全面的系统,该系统不仅可以检测数学错误,还可以提供完整的裁判报告和期刊级推荐。我们的自动化分析系统处理了多个数学类别的37,000多篇论文,揭示了显著的错误率和质量分布。值得注意的是,该系统确定了跨越三个世纪数学的论文中的错误,包括Leonhard Euler(1707-1783)和Peter Gustav Lejeune Dirichlet(1805-1859)的作品,以及当代菲尔兹奖章获得者。在数值分析(math.NA)中,我们观察到错误率为9.6%(23,761篇论文中2,271个错误),而几何拓扑(math.GT)显示6.5%(13,209篇论文中有862个错误)。引人注目的是,类别理论(math.CT)在分析的93篇论文中显示0%的错误,有证据表明这些结果“更容易”用于自动化分析。除了错误检测外,该系统还评估了期刊适用性的论文,为顶级通才期刊推荐了0.4%的论文,为顶级现场特定期刊推荐了15.5%的论文,并在专业场地对其余论文进行分类。这些发现既证明了所有时代数学错误的普遍性,也证明了大规模自动化综合数学同行评审的可行性。这项工作表明,该方法虽然适用于数学,但与学科无关,可以很容易地扩展到物理,计算机科学和ArXiv存储库中代表的其他领域。

历史与综述人工智能数字图书馆

美国的无障碍差距盲人和低视力居民的政府仪表板

公共仪表板现在是美国政府机构与居民分享高风险信息的常见方式。我们在联邦,州和城市层面审计了六个生活系统:CDC呼吸系统疾病,HUD无家可归PIT和HIC,California HCD年度进展报告,纽约市市长管理报告,休斯顿许可以及芝加哥公共卫生和预算仪表板。使用基于屏幕阅读器需求和WCAG的术语,我们检查了五个项目:(1)通过辅助技术发现关键指标,(2)键盘访问没有鼠标悬停,(3)轴,系列和类别的清晰语义标签,(4)短明语言状态和趋势笔记,(5)机器可读表或CSV,反映用户看到的内容。调查结果好坏参半。许多图表都未能基本可发现性或依赖于悬停,这阻碍了键盘和屏幕阅读器的使用。简单的语言摘要在CDC和芝加哥很常见,但在HUD和休斯顿很少见。机器可读数据对NYC,California和HUD来说很强;对于休斯顿来说,它较弱或不清楚。一些网站承诺为公众或客户提供服务,但在其描述中未命名可访问性。在整个系统中,我们也观察到紧急倒置:更快的运营仪表板往往提供更少的可访问负担,而不是较慢的问责制仪表板。这些模式对于平等参与和ADA Title II合规性很重要,该合规性引用了WCAG 2.1 AA。我们为任何公共仪表板建议三个步骤:在同一更新节奏下添加简要状态和趋势文本,发布视觉指标的匹配表或CSV,并声明明确的可访问性承诺。

人机交互计算机与社会数字图书馆信息检索

领导:LLM增强引擎为作者消歧义

作者名称消歧义(AND)是书目度量和科学计量学的长期挑战,因为名称模糊性破坏了书目数据库的准确性和研究评估的可靠性。这项研究解决了跨源消歧义的问题,将意大利学术界官方登记处CercaUniversità的学术职业记录与Scopus的作者简介联系起来。我们引入了LEAD(LLM增强型作者消歧义引擎),这是一种新颖的混合框架,将通过大型语言模型(LLM)提取的语义特征与来自共同作者和引用网络的结构证据相结合。使用606个模棱两可案例的黄金标准,我们比较了五种方法:(一) 在共同作者网络上的标签传播;(二) 引文网络上的整编耦合;(三) 独立的基于LLM的方法;(iv) LLM丰富的配置;(v) 拟议的混合管道。 LEAD实现了最佳性能(F1 = 96.7%,精度=95.7%),计算成本低于完整的LLM模型。书目耦合成为最快和最强的单一来源方法。这些发现表明,在选择性混合策略中集成语义和结构信号为跨数据库作者识别提供了强大且可扩展的解决方案。除了意大利的案例之外,这项工作还强调了基于LLM的混合方法在科学分析中提高数据质量和可靠性的潜力。

数字图书馆

图书馆专业人员和顾客使用社交媒体:文献综述

本文重点介绍了图书馆专业人员和图书馆用户使用社交媒体的问题。它提供了对社交媒体的理解,社交媒体是图书馆中最受欢迎的社交媒体平台。它还提到了在图书馆采用社交媒体的原因,包括学术,公共,学校图书馆和其他类型的图书馆。这是一篇关于图书馆专业人员和顾客使用社交媒体的评论文件。调查结果揭示了社交媒体对图书馆的贡献。社交媒体使图书馆专业人员和图书馆用户变得容易。它使他们能够连接,创造对新信息的认识,即时传播信息,并帮助营销图书馆资源和服务。因此,建议图书馆管理委员会鼓励在图书馆中使用社交媒体。

数字图书馆信息检索

绘制特别参考冠状动脉疾病(CAD)的金砖国家研究生产力:一项山达基研究

这项研究对金砖国家,巴西,俄罗斯,印度,中国和南非的冠状动脉疾病(CAD)研究生产力进行了全面的科学分析,使用了从科学网络数据库检索到的1990年至2019年期间的数据。共分析了50,036条记录,以评估出版物增长趋势、作者模式、协作水平和引文影响。调查结果显示,与CAD相关的出版物稳步增加,中国成为主要贡献者,其次是巴西,俄罗斯,印度和南非。英语作为主要沟通语言,占出版物的93%以上。作者和协作分析表明高度的联合研究,97.91%的研究是共同撰写的,合作程度为0.98,强调了该领域科学探究的集体性质。该研究验证了Lotkas Law对作者生产力的适用性,Bradfords Law期刊发行和Zipfs Law关键字频率的适用性,而Price Square Root Law则被发现不适用。主要的出版格式是期刊文章(79.7%),Kardiologiya(俄罗斯)成为最多产的期刊。结果表明,金砖四国的CAD研究产出和合作显着增长,尽管成员国之间存在显着差异。该研究建议提高个人作者的生产力,扩大国际合作,并通过战略机构和政府举措支持CAD研究。这些发现为政策制定者、资助机构和学术界提供了宝贵的见解,以加强发展中经济体的心血管研究能力。

数字图书馆信息检索

科学出版业的排水

主要商业出版商在全球北方统治科学出版对科学有害。我们需要研究界最强大的成员,资助者,政府和大学,领导重新传播出版,为科学而不是市场服务。

数字图书馆

AI-Powered Citation Auditing: A Zero-Assumption Protocol for Systematic Reference Verification in Academic Research(人工智能驱动的引文审计:学术研究中系统参考验证的零假设协议)

学术引用完整性面临持续的挑战,研究表明20%的引用包含错误和手动验证需要数月的专家时间。本文介绍了一种新的人工智能方法,用于系统,全面的参考审计,使用具有工具使用能力的代理人工智能。我们开发了一个零假设验证协议,可以独立验证针对多个学术数据库(语义学者,Google Scholar,CrossRef)的每个引用,而无需假设任何引用是正确的。该方法在30个学术文件中进行了验证(2,581个参考文献),涉及本科项目到博士论文和同行评审出版物。结果显示,已发表的PLOS论文的平均验证率为91.7%,成功检测捏造的参考文献,撤回的文章,孤儿引用和掠夺性期刊。时间效率大大提高:916参考博士论文的90分钟审计与几个月的人工审查。该系统实现了<0.5%的误报率,同时确定了手动审查可能会错过的关键问题。这项工作建立了第一个经过验证的学术引用完整性的AI代理方法,证明了主管,学生和机构质量保证的实际适用性。

数字图书馆人工智能计算机与社会

2013-2017年DESIDOC图书馆与信息技术杂志的出版趋势:科学方法

DESIDOC Journal of Library Information Technology (DJLIT) 前身为DESIDOC信息技术公报(DESIDOC Bulletin of Information Technology)是一本同行评审的开放获取,双月刊。本文介绍了DESIDOC期刊的Scentometric分析。该论文分析了期刊上发表的研究产出的增长模式,作者身份,作者生产力以及该期间(2013-2017年)论文所涵盖的主题。研究发现,在研究期间(2001-2012年)发表了227篇论文。文章的最大数量是协作性质。期刊的主题浓度是Scivenmetrics。最大文章数量(65%)将其思想内容限制在6到10页之间。该研究应用了标准公式和统计工具来揭示事实结果。

数字图书馆信息检索

从针对COVID-19的mRNA疫苗文章中唤醒睡美人

COVID-19疫情在2020年第一季度迅速成为大流行病,对医疗系统和公众构成了前所未有的威胁和挑战。几乎每个国家的政府都专注于针对普通人群使用mRNA疫苗的免疫计划,这标志着该技术的首次大规模使用。以前被忽视的关于mRNA疫苗制备或给药的研究论文获得了突出地位。通过这些论文收到的引用量激增,以书目记录了这一影响。这些报告体现了睡美人胆量化现象,而引发这种觉醒的文章则充当了甜蜜的王子,导致前几篇论文的双目影响卷土重来。在这里,在Scopus书目数据库中进行了向后参考搜索,通过应用Beauty Coefficient指标来识别Sleeping Beautys。 2020年共发表915篇原创研究文章,引用21,979篇参考论文,其中1181篇专注于mRNA疫苗,其中671篇是原创研究报告。通过设定2020年之前收到的至少30次引用的阈值,检查了2005年至2022年间发表的272篇论文。纳入的近一半论文在2020年至2022年期间发表在科学期刊上,这是因为这些作品获得了大量作为预印本或预出版文献的引用。我们发现,本书目作品集的28篇论文在《睡美人书目现象》之后展示了一种美容系数。我们的研究结果表明,颠覆性的技术创新可能建立在以前被忽视的报告之上,这些报告经历了急剧的引用,这得益于它们对全球困境的关键适用性。

数字图书馆

拉各斯大学二十年研究(2004-2023):生产力、协作和影响科学分析

本文介绍了对拉各斯大学研究成果的情景分析,重点关注2004年至2023年的二十年。使用从科学网络检索的文献计量数据,我们研究了出版量,协作模式,引用影响的趋势,以及大学中最多产的作者,部门和研究领域。该研究揭示了研究生产率的持续增长,2023年记录的最高出版物产量。健康科学,工程和社会科学被确定为主导领域,反映了大学的跨学科研究优势。本地和国际的合作努力显示出与更高的引文影响呈正相关,美国和英国是领先的国际合作者。值得注意的是,开放获取出版物占大学研究成果的很大一部分,提高了知名度和引用率。这些发现为该大学过去二十年的研究表现提供了宝贵的见解,为战略规划和政策制定提供了基础,以促进卓越的研究和全球影响。

数字图书馆信息检索

从数据到语料库:视听档案中的符号学和文献问题

本文探讨了数字人文领域视听语料库研究的理论,方法和技术基础。它概述了构建,利用和解释这种语料库过程的主要横向问题,这些语料库被认为是广义文本数据的特定形式 - 即作为一组符号痕迹(书面,视觉,声音或多模态),使记录,分析和传输知识领域成为可能。分析围绕五个互补主题组织。第一个涉及文本数据的地位和结构:任何数据,无论其媒介如何,都参与一个领域的有意义的表示,因此需要基于跨学科符号方法的统一理论和方法框架。第二个主题涉及数据和语料库的文献价值,被理解为记录与所用项目的目标和观点相关的研究对象的材料的相关性。这个价值既取决于来源和合理的选择,也取决于其使用的务实背景。第三个主题区分了数据收集、公司资料和档案。数据收集构成了潜在的材料库,而语料库是该收集中合理和背景化的选择的结果,该收集与特定项目有关。反过来,Archives既指开放数据存储库,又指支持实验、编辑化和价值化的研究资源。这种区别凸显了构成和再利用数字资源的过程的动态性质。第四个主题探讨了数据的语义丰富,被理解为为数据赋予意义的一组符号和技术操作,在数据之间建立关系,并使它们被社会行为者使用。这种方法提出了与数据的描述、分类和互连相关的问题,特别是通过使用本体、元数据和模型进行知识表示。因此,语义丰富构成了对不同环境中价值创造和数据重用的广泛反思的一部分。最后,第五个主题涉及研究仪器,即支持生产、管理和传播公司的数字环境、工具和基础设施。这些技术系统 - 协作平台,注释,分析和出版工具 - 构成了数字人文生态系统的重要组成部分,并制约了归档,流通和知识传输的新形式。最后,文章强调了三个核心问题:如何从数据中构建意义;如何模拟拨款,再利用和重新出版的策略;以及如何组织新的符号和文化生态系统的研究。总体挑战在于理解视听数据如何在当代科学、技术和文化框架内转化为真正的知识和价值对象。

数字图书馆

图书馆和文化:研究趋势的Sciantometric分析和可视化

图书馆在保存和维护历史和传统文化方面的意义不容忽视。正是出于这一目的,图书馆在其方案中设想了必须为后代收集、记录和保存的文化活动。保存的信息的用处在于,未来一代人将能够确定他们的身份。这也将有助于他们建立基础。本研究侧重于图书馆和文化研究的增长和发展,这些研究在2010-2019年期间在Web of Science数据库中反映的出版物形式。共发现了890份出版物,2019年出版的最高的124份(13.93%)出版物。分析全面绘制了总产出、产出增长、作者、机构明智和国家一级协作模式、主要贡献者(个人、顶级出版物来源、机构和国家)的参数。它揭示了最多产的作者是Lo P,通过贡献4篇(0.45%)出版物获得第一名,其次是Bressan V 3(0.34%)在图书馆和文化文学中的出版物。《学术图书馆学报》的记录数量最多29(3.26%),其次是澳大利亚图书馆杂志贡献了21项(2.36%)。它确定了武汉大学的主导地位;学校信息管理贡献了总研究产出的6(0.67%)。来自美国的作者出版最多的出版物数量最多,共有244种(27.42%),其次是英国和澳大利亚,分别生产了118种(13.26%)和76种(8.54%)出版物。

数字图书馆信息检索

在论文级别汇总或平均非线性场归一化引文计数时,误差效应有多大?

总结或平均非线性场上规范化的引文计数是一种常见但方法上有问题的做法,因为它违反了数学原理。问题源于非线性变换,它破坏了数据的等间属性。这种不平等的数据不能满足总结的必要条件。在我们的研究中,我们使用六种线性和非线性方法将所有样本大学的论文引文计数标准化,然后计算每种方法下每所大学的总和平均分数。通过对照原始引用和线性正态化分数进行基准测试,我们探索误差效应从汇总或平均非线性字段归一化引用计数中有多大。我们的经验结果表明,误差存在,但相对较小。我们进一步发现,误差的大小受到样本出版物是同质还是异质性的影响。这项研究对在单个水平上通过非线性方法获得的结果是否可以在计算研究单元的整体影响时可以直接总结或平均具有重要意义。

数字图书馆

使用语言模型标记科学文档的集群

科学文档集群的自动标签生成是书目工作流中的常见任务。传统上,标签是通过连接集群文档的区分特征而形成的;虽然简单,但这种方法通常产生简洁且难以解释的标签。生成式语言模型(如ChatGPT)的出现和广泛可访问性,使人们能够自动生成描述性和人类可读性的标签,这些标签与人类注释者所分配的标签非常相似。语言模型标签生成已经在书目数据库和分析工作流程中广泛使用。然而,它的迅速采用已经超过了理论,实践和经验基础。在这项研究中,我们解决了自动化标签生成任务,并做出了四个关键的贡献:(1)我们定义了两种不同的标签类型:特征和描述性,以及具有相关任务的对比描述性标签;(2)我们提供了一个正式的描述性标签,澄清了重要的步骤和设计注意事项;(3)我们提出了标签生成的结构化工作流程,并概述了在书目工作流中使用其使用的实际考虑因素;(4)我们开发了一个评估性框架,以评估其设计模型。这些贡献共同阐明了描述性标签生成任务,为使用语言模型建立了实证基础,并提供了一个框架来指导未来的设计和评价工作。

数字图书馆

继续滚动加载更多