2. 人文学科研究数据的特点
传统上,人文学科主要是文本科学,其研究基础和出版物都具有古典文本格式的特征。随着新媒体和研究方法的出现,越来越多的研究数据和结果以数字形式生成和(重新)使用。人文学科研究成果越来越多地由基于网络的连接对象集合的呈现组成[3],例如数据库、数字版本或交互式数据可视化,其中很大一部分信息内容或科学附加值往往在于设计,即软件环境的架构和相应的数据处理。[4]在这种情况下,形式和内容无法轻易分离,如果长期存档和提供仅限于原始数据,则存在信息内容或研究结果和成果丢失的风险,正如下面通过选定的例子所解释的那样。
此时,“原始数据”这一术语已经存在问题,因为从研究问题到数据收集和评估再到发表的过程中可能存在许多中间阶段,这些阶段可能与文档记录和后续使用有关,正如 Sahle 和 Kronenwett 所解释的人文学科中原始数据和结果数据之间难以区分的特点。[5]部分原因在于人文学科是一门解释性科学,而非数据驱动型科学,尽管也有一些人文学科研究分支涉及定量数据。[6]这种定义上的不确定性不仅引发了问题,因为人文学科学者通常没有意识到他们拥有的研究数据或原始数据,而根据 DFG 关于保障良好科学实践的建议[7]或 DFG 关于处澳大利亚电报数据 理研究数据的指南,这些数据应该“在机构本身或相关的跨区域基础设施中存档至少 10 年” [8] , [9],而且在研究数据的选择和评估标准方面也存在问题,这个问题领域迄今为止讨论得(太)少了。换句话说,人文研究项目完成后,哪些数据可以或必须以何种方式长期存档?正如下文所述,这个问题对于基于网络的复杂连接对象演示尤其重要。[10]
首先,应该注意到,所有文化文物和现象,从纸莎草纸、手稿、书籍、绘画、电影、音乐、建筑物到整个图书馆或社会,都可以成为人文研究的主题,并转化为相关的研究数据。[11]这些数字数据的类型可能非常不同,需要不同的长期存档 (LTA) 策略,也支持不同的重用场景。 HDC 的概念基于在 DARIAH-DE 框架内开发的数字人文和文化研究研究数据的以下定义: