龙源期刊网 http://www.qikan.com.cn
文学作品的语料库检索分析
作者:周莹
来源:《现代交际》2024年第04期
摘要:语料库语言学的发展为文体分析开辟了一条新途径,为研究文学作品的语言风格和主题提供了详细的定量依据,并帮助读者更好地理解原著的思想。借助AntConc语料库工具,将LOB语料库作为参考语料库,利用形符(word tokens)、词频(word frequency)、关键词(keywords)、索引(concordance)等功能对小说《呼啸山庄》的叙事风格,故事情节、人物性格、语言特征等进行分析,为文学作品鉴赏提供新的解读视角。 关键词:呼啸山庄 ;AntConc LOB语料库
龙源期刊网 http://www.qikan.com.cn
中图分类号:I712.074 ;文献标识码:A ;文章编号:1009-5349(2024)04-0112-02 随着计算机技术的发展,语料库语言学成为一门新兴的学科,为文体分析开辟了一条新途径。语料库工具应用的范围也越来越广泛,如翻译研究、语法研究、文体学研究和词典开发等。将语料库工具应用于文学作品分析,为文学文本中的语言特征、主题等提供了新的解读途径。《呼啸山庄》作为艾米莉·勃朗特唯一的一部小说,受到国内外许多学者的关注。但是,大多数研究都来自学者个人的主观分析。相比之下,基于语料库的方法比传统的研究方法更具有客观性,并且可以更准确地分析出艾米莉·勃朗特是如何使用语言来揭示主题和描绘作品人物的。本文以LOB语料库作为参考语料库,通过AntConc工具中的形符(word tokens)、词频(word frequency)、关键词(keywords)和索引(concordance)等功能依次分析小说情节、主题、语言特征、人物性格等。 一、数据收集
1.观察语料库和参考语料库
根据Stubbs[1],参考语料库是比观察语料库大得多、且包含相同体裁文本的或者是大型混合的一般语料库。而英语本族语语料库使用的是LOB语料库。LOB语料库是由500个文本的英国英语构成,整个语料共有1123452形符(word tokens);因此选择LOB语料库作为参考语料库(reference corpus),选择《呼啸山庄》原版英文小说作为观察语料(observed corpus)。《呼啸山庄》的英文纯文本下载自https://www.gutenberg.org/ebooks/768[2]。 2.语料库工具
使用语料库软件AntConc 3.5.7从观察语料库和参考语料库中收集数据信息。这个工具是由日本早稻田大学的Laurence Anthon设计和开发的,是一款免费的语料库检索工具,主要功能包括索引工具(concordance)、词簇(Clusters)、搭配(Collocates)、词表(Word List)、关键词(Keyword List)等,被许多人广泛地应用于语料库语言学研究和数据驱动的学习。
二、数据分析与讨论
1.形符(word tokens)与类符(word types)比值分析
形符表示在语料库中出现的所有单词,而类符表示在语料库中的单词类型。借助AntConc工具,可以收集两个语料库中形符与类符的基本统计信息。观察语料库有119398个形符,而参考语料库有1123452个形符。下面是《呼啸山庄》与LOB语料库中的形符类符表1:
龙源期刊网 http://www.qikan.com.cn
类符/形符比(Type/Token Ratio,简称TTR)指的是特定语料库中类符数和形符数的比率[3] ,它被称为词汇密度,能反映文本所使用词汇的丰富程度。TTR比值越大,说明该文本所使用的词汇量越多;反之则越少。表1中LOB语料库的TTR值是3.53,而《呼啸山庄》中TTR值是7.7。从两个语料库的TTR数值看,《呼啸山庄》的词汇丰富程度是大于LOB语料库的。然而,文本或语料库越大,那么其TTR就越小。因此,比较不同大小语料库的TTR值的意义不大。标准化类符/形符比(Sd. Type/Token Ratio)更适用于不同大小语料库的词汇量对比。到目前为止,AntConc还不包括该项功能,可借助wordsmith等语料库工具进一步分析。 2.词频分析(word frequency)
高频词汇的检索是运用语料库检索分析文学作品的主要方法之一。首先通过单词表(word list)工具对语料库中的所有单词计数,然后有序地列出语料库中最常用的单词。表2提取了《呼啸山庄》小说中出现频率最高的50个单词。
由表2可以看出,《呼啸山庄》小说频繁使用人称代词,高频词中的人称代词多达9个,其中,人称代词“ I(我)”是最常用的词,这表明《呼啸山庄》的故事是通过第一人称来叙述的。而且,人称代词“you(你)”的重复使用表明文本中发生了很多对话。另外,发现“he(他)”,“his(他的)”和“him(他)”的發生次数(共4485次)比“she(她)”和“her(她)的”的发生次数(共2889次)要高得多。同时,前50个高频词中也出现了“mr(先生)”一词(共312次)。由此可以看出,男性角色在这部小说中占有重要的地位。
表中另外一个突出的特点是,“Heathcliff”“Linton” “Catherine”等名字出现在前50常用词中。这意味着这部小说的故事很可能与出现的这些人名有关。此外,前50个高频词中包含5个动词:“was”排名第15,“be”排名第26,“is”排名第29,“said”排名第41,“were”排名第44。5个动词中有3个为过去时,且出现频率最高的是“was”,唯一的概念动词“said”也是过去式,这都表示小说中提到的大多数事物或故事都发生在过去。 3.关键词(key words)分析
在语料库语言学中,关键词是在文本或语料库中数据频率统计上显著出现的词。语料库软件将文本的单词列表与较大参考语料库的单词列表进行比较,识别出关键词。在文学作品中,主题词有助于分析作品中的基本信息及主要情节。使用AntConc工具将观察语料库
(Wuthering Height)与参考语料库(LOB)进行比较,得出排名前15位的常见关键词,见表3。
从表3可以看出,“I”一词排在第一位,说明故事是第一人称来叙述的。在《呼啸山庄》中,Lockwood是整个故事的叙述者。他首先以第一人称的角度讲述了自己居住在呼啸山庄时的所见所闻。既是小说的叙事者,同时也是小说中的角色,但故事中发生的这些活动他是没有
文学作品的语料库检索分析



