加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_宿迁站长网 (https://www.0527zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

“大数据”与考据新生态

发布时间:2018-12-19 01:06:13 所属栏目:资源 来源:中国社会科学网-中国社会科学报
导读:副标题#e# 大数据如今已渗透到人类生活的方方面面。随着各种数据库的大量出现,传统文史研究也发生了变化。近年来,与e考据和数字人文相关的研究日趋增多,因此,进一步探索如何更切实地将理论、方法与研究实践有机结合,就变得十分重要。 扬弃既有研究成果
副标题[/!--empirenews.page--]

大数据227

“大数据”如今已渗透到人类生活的方方面面。随着各种数据库的大量出现,传统文史研究也发生了变化。近年来,与“e考据”和“数字人文”相关的研究日趋增多,因此,进一步探索如何更切实地将理论、方法与研究实践有机结合,就变得十分重要。

扬弃既有研究成果

大数据时代对传统文史研究产生的影响,首先表现在资料上。近些年新推出的电子资源在内容上甚至有超越传统出版物之势,检索的快捷性和精确度,可以令学者省却翻检群书、游历访书之劳。在这样的学术环境下,探讨某些疑难问题可能只需简单检索,许多“悬案”的解决难度也相应大幅度降低。前人因资料局限而不得不大量运用的“理校”“推论”“悟证”诸方法,在大数据时代无疑要重新进行扬弃。

在学术史研究中,清人往往因所见善本不丰而大量运用“理校”法展开研究,其中有的结论或与善本相合或遭善本否定。今人既然已经能够在研究中大量占有善本供校勘,那么这种研究方法虽仍有学习的必要,但其实用性也难免会打些折扣。大量新材料理应引发大量新结论,一些“常识”或“定论”必然也会随之遭到质疑甚至颠覆,这对于现有的研究自然会有相当明显的刺激作用。近年来学界对于近代学人的成就时有争论,原因之一就在于当时学者以一人之力所做的资料性工作,精度和效率都很容易被数据库所超越。不少在民国时期“古史辨”中几乎成为公认的定论,随着出土文献的发现而被推翻(典型的例子如对《孙子兵法》的辨伪),足见新材料在某些研究领域确实处于相当核心的地位。

通过数据库重新打捞那些以往不被关注的文献,这实际上仍是发现新材料,其性质与考古相似,亦可称之为当下的“预流之学”(陈寅恪:《敦煌劫余录序》)。与此相关的一个问题是,在超过120亿字的可检索的古典文本,以及各种不同类型的数据库中,还蕴藏无限问题可供发掘。而这些数据资源能否被学者使用,很大程度上取决于其所在单位购买的数据库数量。在高校间已有明显“数位落差”的现实条件下,学者个人的学术水准有可能受到所处文献环境的制约,而不同文献环境导致的信息素养的差异可能会进一步拉大这一差距。

数据库大量涌现,学术评判标准也会发生变化。出于“功利”眼光计算,当代学者费尽周折的考据工作,很可能被下一代学者轻易解决。其原因并非人的智力、才能有别,而是文献环境不断变化提供的巨大方便使然。一代有一代之学术,,面对不同的环境,学术范式也应随之转移。所以,当下正是海量文献可供使用、可以大有作为的时代,也是考据研究缺乏亮点而趋于同质化的时代。换言之,即使是在数据仍未被充分电子化的当下,考据研究的合法性也正在受到冲击。一般性的文献挖掘仍然重要,但能够解决核心学术问题的研究更为重要。

引发学术伦理讨论

在电子检索受到学界瞩目的同时,一些批评尤其是对于学术伦理的讨论也随之热门起来。电子检索的高效快捷,令不少学者担忧其可能引发更严重的学术不端。比如,有的研究者可能对相关领域了解有限,但在检索工具的助力下仍敢匆匆上马,轻易立说;有的研究者征引繁复,可谓博瞻,但实际上许多材料是脱离语境的“遥读”,经不起细加辨析;有的研究者过于迷信电子文本的全面性,但却因此而忽略了那些未被电子化的文献;有些电子文本存在错误,研究者未核查原书导致误引误断;等等。

对这些实际存在甚至时显泛滥的问题,我们可以尝试从以下几个方面来进一步认识。首先,技术本身是中立的,上述批评很大程度上是在针对研究者个人的文史素养和治学态度,并未否定技术能够令优秀学者如虎添翼。而擅长检索的学者也能够认识到文史素养的重要性,并非一味依赖电子资源。从现实情况看,电子技术确实使那些曾经看上去遥不可及的一流学者(尤其是实证型学者),变得可以企及了,这至少是正在提升学术研究的平均水准。校勘、笺注、考据中的一些前期工作,可由计算机更精准地代劳,在人机结合的研究过程中,“高明子弟,自然沉潜”。

其次,当下的电子文本绝非完美,即使是扫描版也往往不能完全忠于原书,引用之前必须与原始文献核对,不能径用。但这恰好说明,现在的数据库还没有脱去以往“工具书”的性质。前人做研究,亦会查阅类书、索引等,甚至常有转引、代查的现象,这证明“工具”本来也不被排斥。如将数据库理解为一种高级的“逐字索引”,则其学术价值自然彰显。此外,纸质文献(尤其是整理本)同样常常有误。古籍校勘中,也多有以“通行本”为底本的典范。事实上,核心问题不在于当下的电子文本有多少具体错误,而在于能否使注释具有可回溯性和规范性。如果一味排斥征引电子文本,很可能也会使数据库开发者缺乏将电子文本精确化的动力。

促进材料深度辨析

一般观点通常认为,电子检索作为一种“捷径”,往往令学者过于重视关键词,却忽视同一词语所处的不同语境。时代的风气、作者的习惯、史料的性质等,都在大数据时代的考据中付之阙如。在笔者看来,这种弊病在传统文史研究中同样并不少见,却有可能在大数据时代觅得新的解决契机。

首先,大数据时代资源丰富,找寻辅证、反例的难度都较以前小,可以在一定程度上防治孤证武断,并有益于深入理解史料所处的特殊语境。

其次,当大数据呈现出全部信息时,可以在多方面帮助学者辨析问题,甚至可以用“结构取义”的方式展开新的研究思路。例如高树伟在研究《永乐大典》的辑佚条例时,推翻了认为《大典》“直取全文”的成说,并且依靠海量文本对校的方式,提出了《大典》征书的新通例。这一认识既变,或许在一定程度上可以借助通例建立参考系,并以此来重新认识前人辑佚的成果,不妨称之为类似于“理校”的“理辑佚”。黄一农最近在脂批本“宁”字抄写避讳的研究中,也提及抄本研究应建立参照系,这些见解似可遥相呼应。又如在文本细读工作中,作者究竟是直接使用某一典故,还是受到文化传统影响,实际存在多种可能。笺注、考据家往往侧重于锁定甲乙间的因果承袭关系,但容易忽视文化大传统的潜在影响。近年来古代文学研究引入“互文”理论,尝试说明这种影响往往是网络状、多源多流的。张昊苏在此基础上提出“e互文”思路,意在指出大数据时代有助于深入理解这种多样性。

(编辑:云计算网_宿迁站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!