4.2 词语用法记录
综合出版和文献系统的第二个组成部分用于描述和记录词语的使用情况。在这里,我们主要描述对于第一次妇女运动相关论述中的交流目标十分重要的词汇手段。仅举三组例子,其中包括表示核心诉求的术语(“妇女选举权”)、可以分配给某些思维模式和基本假设的术语(例如“领域”、“炉边”),甚至是辩论词汇(例如“妇女风暴”在 1900 年左右的《民法典》请愿书中作为反对者的贬义词)。
词汇描述的核心是结构化的词语文章,其中词语的个别用法(阅读)按词典顺序描述,并与文本用法提供适当的证据关联。此外,各个意义位置在内部由描述符标记,从而可以对词语用法进行主题、功能、群体特定等的解释。
下面我们从这样的一篇文章中摘录一段: 按照TEI-P5的规范,基本信息项可以分为形式描述和含义描述。形式信息包括词根(更准确地说是词根符号形式信息)和语法信息,意义描述包括读物、意义释义和证据以及不同使用维度的标记(例如,方言特征、论证思想体系要点的引用)。如果可以通过持久标识符清楚地引用原始文本,则可以通过参考信息链接到全文。这些标记不仅可以系统地探索词语的使用,还可以将表达方式的个别用法与研究中处理相应方面(例如,词语形成或特定的思维体系)的段落联系起来。名词 Herd的用法指的是系统位置 »差异假设«,在印刷中看起来像这样:
然而,链接不仅仅可以从文章这个词中想象出来。相反,可以使用关键词和(如果适用)使用计数从专题介绍中引用文章或文章的部分内容。我们采用了阿尔弗雷德·席尔默 (Alfred Schirmer) 在其《商人语言词典》 (1911)中提出并随后通过印刷手段实现的一种表现形式。通过将单词文章中的参考文献逐页逐行地链接到全文,我们通过添加词典学组件和全文链接 扩展了传统的话语分析表示形式[11] 。
词汇文献的另一个重要目标是使结果和发现能够系统地“供当前和未来的词典项目使用”,例如在 DWDS、IDS 或学院。为此,有必要设计适当的编码方案(对于 XML 来说,这些将是 XML 模式),以便通过接口自动实现与这些项目的连接。一个例子就是上面列出的有关炉子的文章。本文已翻译成 DWDS 的研讨会语言(见图5)。[12]就词典学特征而言,可以无损转换为TEI-P5标准。但是,可以通过定制 TEI-P5 来映射元数据(例如源和时间戳)。使用元素<reference>、<target_url> 和<target_reading>, Tef 词典中的文章可以直接引用 DWDS 词典中相应文章的阅读编号 1(图 5)。
图 5:与 DWDS 词典的连接(来源:Alexander Geyken)。
图 5:连接到 DWDS 词典(来源:Alexander Geyken)。
4.3 语言与交流相关的研究成果
理想情况下,只要不与其他要求冲突,关于词语使用和交流方面的研究结果也是数字文档的一部分。这些展示包括,例如,关于某些讨论领域(例如妇女选举权)的资格论文、关于研究的各个方面(例如词汇形成)的论文式展示,以及对个别文本的介绍和评论研究。上文已经提到了词汇文献方向研究的网络潜力。相反,也可以从词汇文献中引用研究的特定章节,只要这些文本部分被引用并且可以通过锚点来处理。我们给出一个示意性示例(图6)。
图 6:词语使用文献、研究与全文之间的联系。 (插图作者:Thomas Gloning)。
图 6:词语使用文献、研究与全文之间的联系。 (插图作者:Thomas Gloning)。
我们现在离开数字化集成结果文档领域,并开始讨论如何通过数字方式支持代表项目科学核心的语言和通信相关调查的问题。
5. 数字化支持调查的可能性
我们的主要目标不是扩展数字人文(DH)在›前卫›应用领域的可能性。我们主要 阿塞拜疆电报数据 感兴趣的问题是如何通过应用 DH 资源和工具来支持专业定义的目标。为了批判性地审视增值承诺,我们还对 DH 方法的典型困难及其适用性、实用性和效率的局限性感兴趣。
我们的问题和目标一方面是针对项目的,但它们也具有示范性。我们还认为我们的主题对于整个面向话语、语用和词汇学或历史语义问题以及相关数字文本语料库和工具的使用具有代表性或典型性。因此,这是此类人文项目对 DH 数据使用方法提出的要求的典型案例。
这里我们首先总结一下 DH 方法的基本应用,这些方法在语料库语言学和文本技术中的实用性是无可争议和被广泛接受的。
5.1 数字文本
数字文本以及相关的索引工具和研究方法主要用于词汇分析领域。该领域的技术目的包括但不限于用法的区分及其语义描述、词语的特定话语功能的确定、词语形成的上下文的确定以及文本、文本组内的频率关系的评估,同时也包括以参考语料库为背景。
5.2 标记和注释的形式
标记和自动注释的形式——无论它们在标准化、互操作性和可重用性方面发挥什么作用——最初在狭义的技术利益方面起着更中介或准备的作用,例如在组合查询中需要考虑词性以及使用词性标记。使用自动工具,可以对词形进行词形还原,必要时还可以分解,识别专有名词,使用同义词库进行语义标记,还可以使用多个解析器来创建句法注释,这些解析器还可用于分析构造模式等。
然而,更高质量的注释形式,特别是要保证可靠性,仍然必须手动创建。其中特别包括:x