人文【艺术手册】王军 | 从人文计算到可视化——数字人文的发展脉络梳理( 二 )


总结以上讨论 , 我们认为数字人文产生的背景是:(一)计算机技术和网络技术成为泛在的信息基础设施 , 形成了数字化的媒体环境;(二)数字化文本积累到相当大的规模 , 也就是形成了所谓的大数据环境;(三)计算分析工具足够成熟 , 即便是人文学者也能够运用 。 今天 , 数字人文已经快速演化为一个极为宽泛的概念 , 只要是用到计算机的、在数字化的人文材料上进行的工作都可以冠以“数字人文”之名 , 涉及文学、艺术、考古、新闻传播、图书馆、博物馆等等领域 , 几乎无所不包 。
什么是远读
远读这一概念 , 是数字人文建立的基石 。 计算机的远读与人的细读 , 既然都是“读” , 此“读”能否代替彼“读”呢?清楚其中的差别 , 不仅能使我们清晰地界定计算方法在人文研究中的作用和地位 , 而且可以帮助我们重新确立人类阅读的价值 。
计算机是为科学计算而创造出来的 , 它擅长的是“计数” , 而非理解 。 虽经不断的改造和升级 , 它的计算能力得到极大提升 , 但它的工作原理仍是计算 。 要想处理自然语言文本 , 计算机必须先将文本置换成便于计数的词汇集合 , 或者用更复杂的代数模型和概率模型来表示文本 , 这一过程可被称为“数据化” 。 数据化之后所得到的文本替代物(集合、向量、概率)虽然损失了原始文本的丰富语义 , 但终究是可以计算的了 。 理解了以上过程 , 我们就能明白 , 尽管计算机能处理海量的语料 , 能执行复杂的统计、分类、查询等操作 , 但它并没有理解文本的内容 。
在大规模的文本集合上所做的远读 , 基本上可以归为两类:一是对文本集合整体统计特征的描述 , 一是对文本集合内在结构特征的揭示 。 例如 , 米歇尔等人对数百万册谷歌数字化图书做的词汇统计属于前者 , 莫莱 蒂用图(graphs)、地图(maps)、树结构(trees)分别来展示历史小说的体裁变化、文学作品的地理特征和侦探故事的类型结构属于后者6。 无论是宏观统计描述还是内在结构揭示 , 都是超越了文本具体内容的抽象表示 , 所得结果都是需要解读的 。 正如米歇尔所说 , 在巨量文献集合上得到的统计分析结果 , 为人文材料的宏观研究提供了文本之外的证据(evidence);但是要解读这些证据 , 正如分析古代生物化石一样 , 是有挑战性的 。7 解读远读结果所依赖的 , 仍然是学者在细读文本的基础上所建立起来的对本领域的认知和理解 。 一句话 , 计算机远读的结果 , 还是需要人来读的 , 人的阅读不可替代 。
需要补充说明的是 , 即便是单篇文档 , 当我们考察它的文本特征(例如计算一篇文档中所有单字的出现频率) , 或者分析其内部结构(例如提取一部小说中所有人物的对话网络)时 , 数据量也会增长到个人无法处理的程度 。 所以 , 上述针对文档集合所作的讨论在单篇文档层面也是成立的 。
以上理解可以帮助我们消除一些对数字人文的误解 。 例如 , 一个普遍存在的对数字技术的期待 , 或者说对数字人文的评判依据是:看看数字人文能不能更好地回答传统人文学者所关心的研究问题 。 严格说起来 , 通过个人细读文本可以回答的问题 , 或者说人所擅长的工作 , 就没必要请计算机来画蛇添足 。 只有当数据量或者数据精度超出了个人阅读理解的能力范围时 , 才有理由借助计算机来对文献或者文献集合的特征予以量化描述 , 再提供给人去深入解读 。 数字人文所提供的 , 不仅仅是新的工具和方法 , 更重要的 , 是它赋予我们提出新问题的能力——我们现在可以问 , 五千年来全人类用过的最频繁的词是什么 。 对于计算机科学家来说 , 这个问题提得过于琐碎;但是对于像米歇尔这样的文化学家来说 , 透过这类前人想都不会想到的问题 , 也许可以获得观察超长历史时段文化现象的新视角 。
可视化为什么重要
回顾前文梳理的线索我们可以看到 , 远读是数字人文的基石 , 而可视化又是远读最重要的呈现手段 。 由此 , 可视化在数字人文领域的重要性便不言自明了 。 甚至说数字人文就等同于对人文语料的可视化 , 也不算太过分 。


推荐阅读