篇文献的作者进行了

Where business professionals discuss big database and data management.
Post Reply
Bappy11
Posts: 477
Joined: Sun Dec 22, 2024 9:29 am

篇文献的作者进行了

Post by Bappy11 »

4.1 稿件作者内部分析
手稿内作者分析检查一份文档中是否涉及一个或多个不同的作者。此外,还可以明确识别每位作者所写的页面。这是通过计算文档所有特征向量之间的距离实现的。这产生了一个距离矩阵。图5显示了一份五页文档的距离矩阵的示意图。主对角线的所有元素都包含值零,因为这对应于从一侧到其自身的距离。该矩阵沿该主对角线镜像,因此包含冗余信息。例如,矩阵形式的表示在可视化方面具有优势(另参见第 5.1 节)。

距离矩阵可用于根据差异幅度的差异来识别不同的作者。为了对差异量进行分类,可以选择使用已经分析过的、已知作者数量的参考文献来得出阈值。

4.2 两份手稿的直接比较
与手稿内作者分析不同,这里对两比较。距离矩阵也用于此目的。然而,这里确定了一个文档的特征向量与另一个文档的特征向量之间的距离。为了估计距离的大小,可以使用额外的参考文献来确定阈值(表1,图3)。


图 3:表 1:距离矩阵的示意图。解释一下:D(S1,S2) 对应于稿件第一页和第二页的特征 孟加拉国电报数据
向量之间的距离(来源:作者)。
图 3:表 1:距离矩阵的示意图。解释一下:D(S1,S2) 对应于稿件第一页和第二页的特征向量之间的距离(来源:作者)。
4.3 一对多分类
一对多分类尝试使用已知作者的数据库来识别手稿的未知作者。为此,需要从该数据库中找出与未知作者的笔迹最相似的手稿。这里使用最近邻分类。由于这些是多页手稿,需要提取多个特征向量,因此存在不同的策略将它们组合起来进行分类。[18]平均法是将一份手稿所检查页面的所有特征向量组合成一个特征向量。一名抄写员负责整个手稿(图 4,左)。然而,在投票时,会为要审查的手稿的每一页指定一名作者。被分配页数最多的候选人被认定为稿件的作者(图 4,右)。投票时,还可以根据确定的最近邻分类距离对结果进行加权。距离越小,检测作者的信心就越高。
Post Reply