42digest首页
从数据到语料库:视听档案中的符号学和文献问题

From data to corpus: semiotic and documentary issues in audiovisual archives

Peter Stockinger (Inalco, PLIDAM EA 4514)

arXiv
2025年11月6日

本文探讨了数字人文领域视听语料库研究的理论,方法和技术基础。 它概述了构建,利用和解释这种语料库过程的主要横向问题,这些语料库被认为是广义文本数据的特定形式 - 即作为一组符号痕迹(书面,视觉,声音或多模态),使记录,分析和传输知识领域成为可能。 分析围绕五个互补主题组织。 第一个涉及文本数据的地位和结构:任何数据,无论其媒介如何,都参与一个领域的有意义的表示,因此需要基于跨学科符号方法的统一理论和方法框架。 第二个主题涉及数据和语料库的文献价值,被理解为记录与所用项目的目标和观点相关的研究对象的材料的相关性。 这个价值既取决于来源和合理的选择,也取决于其使用的务实背景。 第三个主题区分了数据收集、公司资料和档案。 数据收集构成了潜在的材料库,而语料库是该收集中合理和背景化的选择的结果,该收集与特定项目有关。 反过来,Archives既指开放数据存储库,又指支持实验、编辑化和价值化的研究资源。 这种区别凸显了构成和再利用数字资源的过程的动态性质。 第四个主题探讨了数据的语义丰富,被理解为为数据赋予意义的一组符号和技术操作,在数据之间建立关系,并使它们被社会行为者使用。 这种方法提出了与数据的描述、分类和互连相关的问题,特别是通过使用本体、元数据和模型进行知识表示。 因此,语义丰富构成了对不同环境中价值创造和数据重用的广泛反思的一部分。 最后,第五个主题涉及研究仪器,即支持生产、管理和传播公司的数字环境、工具和基础设施。 这些技术系统 - 协作平台,注释,分析和出版工具 - 构成了数字人文生态系统的重要组成部分,并制约了归档,流通和知识传输的新形式。 最后,文章强调了三个核心问题:如何从数据中构建意义;如何模拟拨款,再利用和重新出版的策略;以及如何组织新的符号和文化生态系统的研究。 总体挑战在于理解视听数据如何在当代科学、技术和文化框架内转化为真正的知识和价值对象。

The article examines the theoretical, methodological, and technical foundations of research on audiovisual corpora within the field of digital humanities. It outlines the main transversal issues underlying the processes of constructing, exploiting, and interpreting such corpora, which are conceived as specific forms of textual data in the broad sense - that is, as sets of semiotic traces (written, visual, sound, or multimodal) that make it possible to document, analyze, and transmit domains of k...