好文档 - 专业文书写作范文服务资料分享网站

清风Get语料库与语料库建设

天下 分享 时间: 加入收藏 我要投稿 点赞

语料库与语料库建设

语 料 库 和 语 料 库 建 设

一、

什么叫语料库

1、定义

语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的

语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。

目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。

语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。

语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以

对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。

二、

语料库产生的背景及发展历史

对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪

50年代中期,

在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》

A Grammar of Contemporary

清风Get语料库与语料库建设

语料库与语料库建设语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断
推荐度:
点击下载文档文档为doc格式
73fkw6giec3gznb0gt563y3j84vsq000aee
领取福利

微信扫码领取福利

微信扫码分享