语料库驱动的《海洋考古术语汉英辞典》编纂刍议

时间：2023-04-12 07:16:59

冯浩达曾罡王麒凯

(大连海事大学，辽宁大连 116026)

引言

自“海洋考古”这一术语正式引入学界[1]，有关海洋考古术语的研究日渐活跃，已形成包括语言学、考古学、术语学、翻译学等多学科交叉、相互渗透的热点领域。据有限统计，仅以“海洋考古”这一关键词为索引，在科睿唯安(Clarivate Analytics)数据库显示有37个相关期刊，其中《科学》(Science)有229项检索结果；中国知网(CNKI)检索结果有47项，且呈逐年递增趋势。海洋考古术语整理、术语管理、术语打磨、术语概念内涵与外延、术语体系特征描摹、术语体系构建策略等成为该领域核心话题，且呈多元化发展趋势。前期相关研究理论视角达10余种，如本体论[2]等。

然而，既有成果虽然丰硕但也存在明显不足，主要体现为针对特定领域、特定区域研究居多，如从中国南海诸岛文物遗迹、航线与沉船、舆地考释等角度探讨了术语的语源、变异、整理[3]。此类研究虽注重学术互动与学科知识表征的变化规律，然而全息视角的缺失造成术语使用缺乏一致性，无论作为研究对象还是研究视角，显然不足以对探索海洋考古术语体系构建路径形成全面观照和映射。从这个角度讲，编纂一部《海洋考古术语汉英辞典》可有效解决海洋考古术语概念结构和内涵剖析较为零散、语际对比尚付阙如、术语体系构建有待系统化、理论化等问题，在一定程度上利于描摹该领域热点及发展态势，汇集交叉学科优势与资源，树立共同的学术目标、发现共同的学术问题，发挥思想碰撞与科研凝力、形成强有力的学术共同体，以更好地构建海洋考古术语学“三大体系”，提升在国际学界的话语权。

《海洋考古术语汉英辞典》体现着该术语体系构建的核心要素(如概念、逻辑、框架等)，其编纂的要务便是方法的科学化[4]。本研究采用语料库驱动法，通过文献计量分析，探讨《海洋考古术语汉英辞典》编纂的原理及框架。

1 语料库驱动法与文献计量分析

语料库语言学是具有较强方法论导向的语言学分支[5]158，语料库驱动法与术语体系研究联系紧密，已广泛应用于辞典编纂等工作。其原理可归纳为通过观察大规模语料库中真实的语言数据，析出对研究领域有意义的词、词块、词汇搭配、程式化序列等，进行术语提取、术语定义、术语分类、术语分析，制成词表并整理词条入典。基于专业术语的特殊性(如海洋考古术语)，构成语料库所用的语料受语域限制，一方面需为所研究领域兼具权威性、代表性、前沿性的学术文献(如专著、核心期刊论文等)；另一方面需对其进行文献计量分析，用数学和统计学的方法，定量地分析所研究领域知识载体[6]，注重量化的综合性知识体系，计量对象主要为词汇(如关键词、高频词等)、作者(如个人、团队)、文献量(如出版物、引文)，以厘清该领域术语界定、热点术语、术语发展态势，从而深化术语辞典编纂的指导意义。因此，本研究的方法论主要由三部分构成：海洋考古语料库构建、术语数据提取及处理、海洋考古文献计量分析。

1.1 海洋考古语料库构建

本研究按照海洋考古相关性择取语料并构建可比语料库(comparable corpora)，旨在采用自下而上的语料库驱动的范式对海洋考古汉英术语体系进行统一整体描写。该库包含“中国海洋考古文献语料库”(Chinese Maritime Archeology Corpus，简称CMAC)及“英语海洋考古文献语料库”(English Maritime Archeology Corpus，简称EMAC)两部分，由权威性、代表性、前沿性的学术文献组成。其中，CMAC语料来源为2012至2022年间出版或公开发表的30部中文海洋考古专著及50篇中文核心期刊论文；EMAC语料来源为2012至2022年间公开发表的100种英文海洋考古核心期刊论文。CMAC与EMAC语料容量各自为1000万形符(token)。此外，本研究对英文期刊做了限定，须同时满足以下三个标准：

(1)以海洋考古为主要研究对象的刊物；(2)被《科学引文索引》(SCI)、《社会科学引文索引》(SSCI)或《艺术与人文科学引文索引》(A&HCI)收录；(3)刊物影响因子在0.5以上。

CMAC与EMAC在语料规模、语料类别、语料时效上均具有较强的可比性。

1.2 术语提取及处理

在本质上，术语是“领域专家用来刻画、描写领域知识的基本信息承载单元，是信息检索和信息抽取的重要单元，是知识库中的核心成员，也是本体构成的基本单元”[7]124。领域术语提取及处理方法大致可分为三类，即基于语言规则的方法、基于统计的方法、规则和统计相结合的方法。基于规则的方法主要应用规则库或规则模板，通过提取语料库中与之对应的中文的字、词、词组或英文的词、词块、词汇搭配、程式化序列等来确定术语。基于统计的方法则是依靠统计量度发现语料库中字与词的使用规律识别、提取术语(如基于互信息和似然度的方法[8])，或基于机器学习算法，如决策树(Decision Tree)、支持向量机(Support Vector Machines)、最大熵模型(Maximum Entropy Model)、隐马尔科夫模型(Hidden Markov Model)、最大熵马尔科夫模型(Maximum Entropy Markov Model)等，对语料学习生成、训练模型，继而实现术语的自动识别、提取。规则和统计相结合的方法则综合了这两类方法的优点，在一定程度上弥补了语言学知识和统计学方法的不足，将规则模板、统计手段、机器学习有机结合起来，利于进一步提高术语提取的准确率和效率(如基于规则与统计的本体概念自动获取方法[9])。本研究基于海洋考古术语挖掘的穷尽性原则，从“总体史学”观考察海洋考古术语体系，故采用规则和统计相结合的方法，其流程可见图1。

图1 术语数据提取及处理流程

表1 EMAC语料库语料来源期刊样例名录

本研究涉及的中英文数据提取及处理均采用Python计算机语言编程完成。

1.2.1 中文数据提取及处理

中文数据处理主要包括分词、标注、候选术语检索三个主要步骤。首先，将CMAC语料库中语料进行分词，其目的是便于候选术语检索。在Python

集成开发环境(Integrated Development Environment，简称IDE)中，中文分词可通过Jieba[10]等工具实现。在Python IDE中，其代码[11]如图2。

图2 中文语料分词代码

其次，对所得中文文本进行词性标注，其目的是便于候选术语词性界定以及辞典词条录入。词性标注亦可通过Jieba实现。在Python IDE中，其代码[11]如图3：

图3 中文语料标注代码

再次，结合规则和统计的方法，对候选中文术语检索并过滤。从规则层面讲，海洋考古术语的界定需要建立在海洋考古学科语言使用特点的整体分析基础之上，因此，本研究在借鉴前期研究成果[12

提醒您：因为《语料库驱动的《海洋考古术语汉英辞典》编纂刍议》一文较长还有下一页，点击下面数字可以进行阅读！

《语料库驱动的《海洋考古术语汉英辞典》编纂刍议》在线阅读地址：语料库驱动的《海洋考古术语汉英辞典》编纂刍议

12 3 4