查看原文
其他

许家金、徐秀玲 :基于可比语料库的翻译英语衔接显化研究

转载自:语言学通讯

点击蓝字关注我们


基于可比语料库的翻译英语衔接显化研究


 

许家金,中国外语与教育研究中心专职研究员,博士,教授,博士生导师

研究兴趣:话语分析、二语习得、语言对比与翻译、语料库语言学

许家金教授


特别提示:许家金教授《语料库与话语研究》一书的配套网页http://corpus.bfsu.edu.cn/info/1072/1008.htm 可以下载书中使用的工具和语料库等

摘  要:现有语料库翻译学研究,多数限于描述译文的词汇运用,少量涉及句法特征,对译文语篇特征的关注较少。本研究借助在线文本分析工具Coh-Metrix,对比了汉译英翻译英语和原创英语中的25项语篇衔接特征。研究发现,翻译英语中有多项语法和词汇衔接特征与原创英语存在显著差异,呈现出衔接显化的特点。其中语法衔接突出表现为多用各类连词。词汇衔接方面,以语篇中句间实词重复现象为典型特征。英语译文的语法衔接显化,大致可从汉语重意合,英语重形合得到解释。而词汇衔接显化,可能与汉语源语特征以及英语译文中多用高频词和泛义词有关。本文还就衔接显化作为翻译普遍性特征进行了讨论。

关键词:衔接显化; 翻译英语; 汉英翻译; 可比语料库; 语料库翻译学; 

项目基金:国家社科基金项目“基于双语语料库的汉语复杂动词结构英译研究”(项目编号:12CYY060)资; 

文献来源:许家金,徐秀玲.基于可比语料库的翻译英语衔接显化研究[J].外语与外语教学,2016(06):94-102+122+150.   

作者简介: 许家金,教授,博士,博士生导师,研究方向:话语分析,语言对比与翻译,语料库语言学;徐秀玲,博士生,研究方向:语言对比与翻译,语料库语言学。

01

引言

上世纪90年代以来,随着大量平行语料库、可比语料库的建立以及语料库分析技术的进步,语料库翻译研究取得长足发展,为Holmes(1972/2000)、Toury(1995)等人倡导的描写译学注入新的活力。基于语料库的描写翻译研究主张,翻译语言是客观存在的语言变体,在翻译研究中具有合法地位。这种以翻译产品为导向的译学研究,通常采用由翻译文本和目标语原创文本构成的可比语料库作为分析数据。通过对比翻译语言和原创语言文本,可以发现和了解翻译语言的典型特征。

过去20多年间,语料库翻译学研究成果倍出,业已成为我国语料库相关研究的核心领域之一(刘霞许家金刘磊,2014:75)。然而,现有基于语料库的翻译语言研究,多数仅限于考察词汇运用,也有少量研究涉及句法特征,但语篇层级的研究较为少见。文献中常见的翻译语言特征包括:高频词、低频词、型次比、词汇密度、各种词类、词长、句长、被字句、把字句、that/to省略等(参见Laviosa,1998;Olohan&Baker,2000;Olohan,2002;Xiao,2010;Xiao&Dai,2014;王克非胡显耀,2008;肖忠华戴光荣,2010等)。相关研究疏于探讨翻译语言的句法、语篇、语义、语用等维度,究其根本还是受制于当前的语料库分析技术。

本研究将基于由翻译英语和原创英语构成的可比语料库,运用自然语言处理领域衔接连贯分析新技术,探究翻译英语在衔接方面的特点。这将有助于我们在篇章层面重新认识翻译英语。

02

衔接研究综述

2.1 衔接理论

衔接是语篇组织的基本手段,是语篇研究的核心议题,很多重要学者都作过深入探讨,如Halliday和Hasan(1976)、Hoey(1991)、胡壮麟(1994)、张德禄(2003)等。Halliday和Hasan在1976年《英语的衔接》一书中系统阐述了衔接的概念和机制。他们将衔接定义为“语篇中不同成分之间的语义关系”(Halliday&Hasan,1976:4),衔接的实现需要依靠语法和词汇手段。因此,他们将衔接分为语法衔接和词汇衔接两大类,其中语法衔接又可分为照应、替代、省略和连接;词汇衔接包括词汇复现(如重复、同义词、上下义词、概括词)和搭配。Hoey(1991:10)进而指出词汇衔接是篇章组织的主导方式。他认为语篇衔接研究,很大程度上是对语篇词汇模式(patterns of lexis in text)的发掘。Hoey(1991:51-74)将语法衔接和词汇衔接都理解为词语在语篇中的复现(repetition),这种词汇复现形成的前后照应,他称为复现链(repetition link)。复现链体现出的语篇词汇模式是实现篇章组织模式(texture)的关键。Hoey所谓语篇词汇模式,即指语篇中的任何两个相邻或间隔的句子,只要共享一定比例的词项,它们之间就建立起某种语篇联系。整个语篇通过这种复现词链达成连贯。

2.2 翻译语言衔接研究

很多研究者积极地将语篇理论引入翻译学领域。Newmark(1987:295)曾指出,语篇分析应用于翻译研究,衔接理论是其中最有用者。有关翻译文本衔接特征的研究,大多是基于某些特定作品,论证时只是援引个别例证。例如,Blum-Kulka(1986/2000:300)基于英语-法语、英语-希伯来语的一些翻译实例,发现译者对原文进行阐释的过程会导致译文比原文冗长,这一冗余现象很大程度上表现为译文在衔接上的明晰化。Blum-Kulka据此提出“显化假说”(the explicitation hypothesis),后来作为首要子假说被Baker(1993:243)纳入“翻译共性假说”(translation universals)。然而,语料库翻译学领域系统考察翻译语言衔接特征的量化实证研究并不多见。以往相关研究大多聚焦于语法衔接中的连词和人称代词,分属Halliday和Hasan(1976)衔接理论中的连接和照应。例如,Puurtinen(2004)对比了翻译和原创芬兰语儿童读物中连词的使用情况,发现两者没有显著差异;Chen(2006)开展了基于科普读物语料的连词研究,结果表明汉语译文中连词的使用频率高于汉语原创文本;许文胜和张柏然(2006)发现英语名著汉译本中因果关系连词的使用频率不仅高于英语原文,而且远远高于汉语原创小说。另一些研究考察了译文中的人称代词,如黄立波(2008)、王克非和胡显耀(2010)、任小华(2015)的研究结果均表明,汉语译文中人称代词的使用频率要高于汉语原创文本。

不难理解,先前研究主要关注语法衔接手段,大抵是表层语言特征较易提取的缘故。而词汇衔接依靠的则是篇章内部词语之间的语义关联(如同义词、上下义词等),属于深层次的语言特征,很难自动挖掘。可喜的是,现有的自然语言处理技术对于词汇衔接的挖掘已取得长足进步。譬如,在线文本分析工具Coh-Metrix很大程度上已能对文本的词、句、篇、义等多维特征进行自动分析。合理利用此类技术,可以有效推进对翻译语言特征的观察。本研究拟借助Coh-Metrix 3.0,通过对比翻译英语和原创英语,考察翻译英语的语篇衔接特征,并回答如下研究问题:

1)翻译英语呈现出怎样的衔接特点?

2)翻译英语的衔接特点与翻译共性研究中的显化假说是怎样的关系?

3)翻译英语衔接特点的产生,具有怎样的语言学和翻译学动因?

03

研究方法

3.1 衔接分析工具和指标

本研究将采用Coh-Metrix 3.0作为考察翻译文本衔接特征的工具。Coh-Metrix是Danielle M c Namara等人开发的在线文本分析工具。该工具综合了心理语言学、计算语言学、语料库语言学、信息检索等多个学科的研究成果,如CELEX词汇数据库、MRC心理语言学数据库、词网(Word Net)、潜在语义分析(Latent Semantic Analysis,简称LSA)等等。其中,词网可提供词汇的同义性、上下义等词汇语义信息。潜在语义分析能捕捉文本内不同部分间的语义关联性。它的工作原理是利用奇异值分解(singular value decomposition,简称SVD)的方法,对文本词频矩阵进行降维简化,构造出由100-500个维度构成的语义空间,然后对代表语言单位(词、句、段、篇)的空间向量进行对比,通过两向量间的余弦值计算出两语言单位之间的语义相似度(参见Landauer et al.,1998:53)。Mc Namara等人(2011:380)研究发现潜在语义分析可以有效测量语篇衔接。据设计者介绍,开发Coh-Metrix的初衷就是测量文本的衔接特征,其中的Coh是cohesion一词的缩略(Mc Namara et al.,2014:18)。

目前Coh-Metrix 3.0版分析系统可提供106项语言特征量化指标①,本研究选取了其中与衔接相关的25项指标,并根据Halliday和Hasan(1976)的衔接理论,将它们分为语法衔接(12项)和词汇衔接(13项)两大类。各项指标类型详见表1。

Coh-M etrix 3.0提供的语法衔接指标又可分为人称代词和连词两类。人称代词表示照应关系,包括第一、第二、第三人称,其中以第三人称的篇章照应功能最强。人称代词具体指标包括:各类人称代词总数、第一人称单复数、第二人称、第三人称单复数。Coh-Metrix 3.0结果中会报告多种不同的连接手段,它们具有明示两个语段间逻辑关系的作用。本研究选取了6项与连词有关的指标:各类连词总数、因果连词(如because、so)、逻辑连词(如and、or)、转折/对比连词(如although、whereas)、时间连词(如before、until)和附加连词(如and、moreover)。以上人称代词和连词指标都使用以每千词为基准的标准化频率。

词汇衔接指的是“语篇中出现的一部分词汇互相之间存在语义上的联系,或重复,或有其他词语替代,或共同出现”(胡壮麟,1994:112)。如2.1节所述,Hoey指出词汇复现是词汇衔接的重要形式。Coh-Metrix 3.0中有多项指标可以衡量词汇的重叠程度。按照重叠范围的广狭,可分为局部和整体两类词汇重叠:前者指相邻句子间存在的词汇重叠,后者则指段落或篇章内任何两个句子之间存在的词汇重叠。其中,局部词汇重叠包括相邻名词、论元、词干、实词重叠(Mc Namara et al.,2014:63-65)。相邻名词重叠指共享一个或多个同形名词的相邻句对占句子总数的比例。例如,在A cell is the smallest unit of life.Some organisms consist of a single cell.两个句子中都含有cell一词,因此两句存在名词重叠。相邻论元重叠不仅包括相邻句子之间的名词重叠,还包括代词重叠,以及名词和代词互指(co-reference)的情况。相邻词干重叠指的是相邻句子中出现词干相同的词,如solve/solution。相邻实词重叠的计算方法是相邻句共享实词占总实词数的比例。与局部词汇重叠类似,整体词汇重叠也涵盖名词、论元、词干、实词重叠,只是把重叠范围扩展到段落或篇章内的任意两个句子。此外,整体词汇重叠指标还包括Word Net动词重叠和LSA动词重叠,用于考察动词在文本中的复现程度。如果两个动词属于Word Net定义下的同一个同义词集(synonym set),则存在Word Net动词重叠。LSA动词重叠程度则是用两个动词对应向量之间的余弦值表示。(Mc Namara et al.,2014:69)

除了词汇重叠指标,Coh-Metrix 3.0还提供测量句子或段落之间语义相似度的LSA数值。上文提到,LSA是测量语篇衔接的有效方法。LSA之所以能够测量衔接,在于它不仅能考察词汇复现(重复、同义词、上下义词等)(Foltz,2011:181),还能根据词项使用语境的相似性来推测词项之间的语义相似性(Mc Namara et al.,2014:53)。这两种方式大致对应于Halliday和Hasan(1976)词汇衔接中的词汇复现和搭配。Coh-M etrix 3.0中有3项指标测量句子或段落间的LSA值。相邻句子间LSA计算的是相邻句子之间的语义相似度,用余弦值表示。若余弦值接近1,则表明两个句子之间的语义相似度极高,可以判定两个句子讨论的是相同或相近的命题,自然也表现出很强的内容衔接和连贯。所有句子间LSA指的是文本内所有句子之间的余弦均值,可以测量篇章内所有句子之间的衔接。段落间LSA指的是同一文本内不同段落之间的余弦均值,可以表示段落之间的语义相似度。

以上指标可以考察文本的语法衔接和词汇衔接,其中后者又可分为局部和整体词汇衔接。本研究将利用这些衔接指标,考察翻译英语的语篇衔接特征。

3.2 研究语料

本研究所用语料为一对翻译英语-原创英语可比语料库。其中的汉英翻译英语文本采集自“马可波罗翻译项目”(The Macro Polo Project②),共计88,177词。原创英语文本取自Crow n语料库(Xu&Liang,2013)的B类和C类文本,共计90,312词。两库均收纳社论等评论性文章,发表年份在2008至2014年之间。可见,两库在体裁、产生时间、规模等方面具有很好的可比性,为本研究考察翻译英语的衔接特征提供了语料基础。虽然所用语料只有约20万词,但本研究考察的是语法和词汇衔接手段,包括人称代词、连词和各类实词,不是小概率语言特征。因此,本研究所用语料足以实现对翻译英语衔接特征的细致考察。


04

研究结果

本研究利用Coh-Metrix 3.0在线采集两个语料库中的25项衔接指标数据,之后将数据导入SPSS统计软件进行独立样本T检验,以对比翻译英语与原创英语在各项衔接指标上的异同,统计结果见表2。

如表2所示,翻译英语与原创英语在总共25项衔接指标中有17项指标存在显著差异。这表明相对于原创英语,翻译英语具有独特的语篇衔接特点。在6项人称代词指标中,有4项指标,即各类人称代词、第一人称单数、第二人称、第三人称复数的使用在翻译英语中显著高于原创英语,第一人称复数、第三人称单数两项指标在两库中无显著差异。以上数据显示,英语译文中明显存在多用人称代词的倾向,但译文中的代词使用,并未引起非常明显的衔接显化现象。这是因为按照Halliday和Hasan(1976:48)所指出的,第一人称和第二人称经常用于外指照应,即指向情境中的说话人或听话人,一般不具有语篇内部的衔接功能;而第三人称代词具有内在的语篇衔接功能。表2数据显示,英语译文中第三人称代词只有复数形式显著多用,因而对于提升翻译英语的衔接性所起的作用较为有限。而语法衔接显化趋势在连词指标中体现得十分明显。除因果连词外,几乎所有连词都在译文中更为常用。因此,与原创英语相比,汉译英翻译英语在语法衔接方面,集中表现为显著多用各类连词。

词汇衔接方面,总体上,相邻句间的局部词汇衔接在翻译和原创英语中使用情况接近,仅有相邻实词重叠一项在翻译英语中高于原创英语。考察全篇范围的整体词汇衔接指标则呈现多样化趋势。翻译英语比原创英语较少使用名词重叠和词干重叠,而更多使用实词重叠、Word Net和LSA两类动词重叠。需要指出的是,名词重叠和词干重叠考察的是句间是否存在词汇重叠,要么存在,要么不存在,是非此即彼的问题。实词重叠计算的则是两个句子之间相同实词数量占总实词数的比例,是程度高低的问题。再者,实词重叠考察范围更广,涵盖名词重叠和词干重叠,所以实词重叠更能反映语篇中词汇复现的程度。因此可以初步得出,翻译英语在篇章层面词汇重叠程度要高于原创英语。整体词汇衔接中,另有两项指标涉及LSA。翻译英语的所有句间LSA数值低于原创英语,而其段落间LSA数值则高于原创英语。这说明与原创英语相比,翻译英语所有句子间的语义相似度偏低,而段落间的语义相似度偏高。这进一步说明,汉译英翻译英语整体上表现出更大程度的实词复现和段间词语重叠。

综上所述,翻译英语较原创英语在语法衔接和词汇衔接方面,都表现出显化特征。其中语法衔接方面,以连词的使用最为突出。这在以往研究中,多有涉及并证实。而词汇衔接显化情况略为复杂,但总体表现为翻译英语衔接程度更高,且以实词在篇章中的重叠最为显著。

05

讨论

5.1 翻译英语的衔接特点与显化假说的关系

如前所述,显化假说最早由Blum-Kulka(1986/2000)在探讨翻译文本衔接特征时提出。可见,译文衔接特征与显化假说关系密切。根据柯飞(2005:306)的观点,显化可分为形式显化和意义显化。他指出,“显化(以及隐化)不应只是狭义地指语言衔接形式上的变化,还应包括意义上的显化转换,即在译文中增添了有助于译文读者理解的显化表达,或者说将原文隐含的信息显化于译文中,使意思更明确,逻辑更清楚”。在柯飞看来,衔接手段只是一种形式上的显化。不过按照Halliday和Hasan(1976)的界定,衔接手段应包括语法衔接和词汇衔接两类。语法衔接程度高属于形式显化,但词汇衔接程度高不能简单看作是形式上的显化。词汇衔接指的是语篇中一部分词汇互相之间的语义关联。英语译文的词汇衔接程度高于原创文本,虽然译文中不一定添加有助于读者理解的注解,但通过词汇复现等方式,译文内部词汇之间的语义联系更加外显。因而,译文的词汇衔接程度高可以看作是意义上的显化。所以,衔接显化包含形式显化和语义显化两个维度。在本研究中,前者对应的是语法衔接,后者对应的是词汇衔接。

5.2 翻译英语衔接特点的语言学及翻译学动因

汉译英的英语译文中人称代词和连词两种语法衔接手段的使用频率高于原创英文,应与汉英语言类型差异有关。主语、宾语省略是汉语的一大特点。吕叔湘(1999:8)指出:“汉语里可以不用人称代词的时候就不用;即使因此而显得句子结构不完整,也不搞形式主义”。根据赵世开(1999:18-19)的统计,从汉语原文到英语译文,各类人称代词均有增加。本研究发现,英语译文中第三人称复数形式显著多用,很可能与汉英翻译过程中添加原文省略的主语或宾语有关,如例1英语译文中添加they、these、them(本文例句均取自马可波罗翻译项目语料)。

1)孩子是被动的,在哪里出生,在哪里上学,都是父母为自己做的规划。

Children are passive.Where they are born,w here they go to school-these are decisions that parents make for themselves.

再来看汉英两种语言中连词的差异。英语重形合,借助语言形式手段(如连词)实现词语或分句的连接,表达逻辑关系;而汉语重意合,词间或句间关系不使用语言形式手段,而通过词语或分句的含义表达(连淑能,1993:48-49)。因而在汉英翻译中,往往会添加连词,使汉语原文中的隐性关系在英语译文中明晰化,如例2英语译文中添加转折连词but和逻辑连词and。

2)查理在北京的时光是快乐的,有时查理也会想念家人,想念故乡。

Charlie is having a happy time in Beijing,but sometimes he misses his family and his hometow n.

此外,这种显化现象也可能是翻译本身固有的特征,是翻译中介活动采取的普遍性策略(Blum-Kulka,1986/2000:300)。

翻译英语中词汇衔接程度高于原创英语,主要体现为翻译英语中词汇重复度较高。这其中或许也存在英汉语差异的动因。连淑能(1993:173)指出“除非有意强调或出于修辞的需要,英语总的倾向是避免重复”,英语会“尽量采用替代、省略和变换等方法来避免无意图的重复”。英语译文中词汇重复程度高,很可能是受汉语原文的影响,即所谓的“源语渗透效应”(SL shining through,Teich,2003:22)。比如,受汉语原文表述的影响,英语译文呈现出的相邻句名词重叠(例3),形容词、名词重叠(例4)和副词重叠(例5)。

3)人的存在不仅是肉体的存在,也是精神的存在。相对于精神的存在,人们更容易感受到肉体的存在,人之区别于动物,在于人不仅被动地感受……。

People’s existence is not just a physical existence,it is also a spiritual existence.In relation to the spirit,people feel their physical existence more easily,but the difference betw een people and animals lies in that people don’t only experience things passively,….

4)……人们对……对社会都有不满情绪、不良情绪,但……表达不满,其经济成本、政治成本、社会成本巨大。在微博中,表达诉求的经济成本、政治成本、社会成本相对低廉,从而也吸引了一部分人上网,在网上渲泄其不满。

…,people might have all sorts of frustrations and negative emotions towards…society,but if they express their discontent...,the economic,political and social costs are huge.On w eibo,the social,political and economic costs of expressing demands are relatively low,w hich encouraged a number of people to vent their frustrations online.

5)香港控烟之所以成功,就在于动真格。动不动真格,效果真的不一样。政府动真格,市民才可能真格。市民动真格,法规才可能有效实行。

Smoking control in Hong Kong is so successful because actions are really taken.Whether actions are really taken or not w ill lead to different results.If the government really acts,then the public may really act too.And if the public really act,then regulations are really implemented.

从例3-5可以很容易看出,实词复现的显化方式受汉语原文表述影响很大。这种现象很可能与译者水平有关。马可波罗项目虽然有其规范的译文质量控制流程,但总体上说,多数译员并非职业译员,翻译过程中受汉语原文的影响更大一些。虽然上述例句中无一误译,但表达的地道性有所降低。比如,例4第2句中的the social、political and economic costs用指代方式,如such costs,更符合英语的表达习惯。

此外,本研究发现的实义词重复现象,很可能还与译文中多用高频词和泛义词(许家金,2016)有关。译文中为数众多的高频、泛义词使词汇复现程度更高,因而引发词汇衔接显化。

6.结语

本研究基于翻译英语-原创英语可比语料库,利用文本分析工具Coh-Metrix,考察了翻译英语的语篇衔接特征。先前研究大多集中于词汇、语法层面,语篇特征较为少见。本研究是基于语料库的英语译文语篇特征研究的一次积极尝试。

本研究的初步结论表明,英语译文多用代词、连词,且段落篇章层面词汇重复度高。这一方面可提高语篇的可读性,读者不必花费过多认知努力去推断句段间的关系。而另一方面,过多的词汇重复,特别是高频实词重复,表面看来可以加强篇章连贯,但英语译文的流畅度和地道性会有所降低。英语作文遣词方面,主张用替代、同名异称等方法,避免单调枯燥,以求变换多样(连淑能,1993:184-185)。词汇语义层面的衔接显化表现出的翻译体(translationese),更不易克服和改善。

本研究也不可避免存在一些局限。研究中所用语料规模尚需扩充,并尽量增加体裁,以及收集译自不同源语的英语译文,从而对本文结论做深入验证。此外,本研究使用的文本分析工具Coh-Metrix 3.0只提供量化数据,适合考察文本语言特征的整体趋势,并不能让研究者解读语料原文的实际语言表现。下一步或许可能通过话语分析的方法开展一些深入的案例分析,以精准定位语法和词汇衔接显化的真实语境(参见许家金刘霞,2014),抑或像刘国兵(2013)研究中所开发的工具那样,辅助我们对衔接的词汇语法特征进行标注和分析。


编者按


参考文献略,欢迎查阅知网或《外语与外语教学》2016年第6期纸质原文。

本文编辑:上海理工大学 孙雨

本文审核:吉林大学  王峰

公众号外联:我们优先推广免费的学术会议、讲座、研修等项目。收费项目与商务合作需支持劳务费,请联系dianzishu@126.com 商谈。

继续为各位提供有益的学术资讯

长按二维码赞赏语言学通讯

欢迎加入语言学通讯读者群,添加时请自报实名,单位和研究方向

语言学及应用语言学加群联系人:sflsy0803 孙老师

文学与翻译加群联系人:Nicole2397471433 李老师

八万学者关注了

语言学通讯


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存