好文档 - 专业文书写作范文服务资料分享网站

北京大学现代汉语语料库基本加工规范

天下 分享 时间: 加入收藏 我要投稿 点赞

北京大学现代汉语语料库基本加工规范

俞士汶 段慧明 朱学锋 孙斌

(北京大学计算机系,北京大学计算语言学研究所 北京 100871)

摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。

关键词:现代汉语;语料库;词语切分;词性标注;规范

中图分类号:TP391

The Basic Processing of Contemporary Chinese Corpus at Peking University

SPECIFICATION

YU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN (Institute of Computational Linguistics, Peking University, Beijing, 100871)

Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICATION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.

Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification

⒈ 前言

关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。本文只介绍北京大学计算语言学研究所的工作(以下简称计算语言所)。计算语言所从1992年开始汉语语料库的多级加工研究,历时已有10年,也积累了一些成果[2,3,4]。最令人瞩目的成果是《人民日报》标注语料库。该语料库包含《人民日报》1998年全年2600多万字的语料,对全部语料已完成词语切分和词性标注等基本加工。全部加工结果均已通过合作单位Fujitsu的严格验收。由于1个月的200多万字的加工语料早已在网上公布,可免费下载[5],半年的1300万字的加

_______________________________________________________________________________

收稿日期:2002-2-20(2002年5月21日修订)

基金项目:国家自然基金69483003、973项目G1998030507-4、863项目2001AA114040、北大985 作者信息:俞士汶,男,1938年12月生,教授;段慧明,1957年12月生,女,高工;朱学锋,1937年12月生,女,副教授;孙斌,1968年10月生,博士后;4人的主要研究方向:计算语言学

1

工语料也开始向业界提供,这项成果的影响正逐步扩大。计算语言所另外还有100多万字语料不仅完成了基本加工,还加注了汉语拼音。

这项庞大的语言工程之所以能顺利展开并按计划取得成果,因素当然很多[6]。其中,在 工程大规模实施之前,集多年理论学习之心得、研究实践之经验以及众多同仁之智慧制定《现 代汉语语料库加工规范——词语切分与词性标注》(1999年3月版和2001年7月版),是至关重要的[7]。这个规范成了软件开发的需求说明和专家校对的准则,也是成果验收的依据。

由于业界对大规模标注语料库的需求日益旺盛,也由于国家语委制定的语言文字应用“十五”科研规划和国家863计划于2001年秋季公布的项目指南都把语料库建设放在相当重要的地位,预计今后或许会出现一个语料库开发的热潮。计算语言所决定公开发表“现代汉语语料库基本加工规范”(2001年7月版),期望起到抛砖引玉的作用,引起对语料库加工中的这个关键问题的讨论,这个规范可以作为讨论的靶子。

2. 关于基本加工任务的说明

汉语语料库的基本加工通常指词语切分与词性标注两项内容。《人民日报》标注语料库的加工项目多于这两项内容,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词和形容词的特殊用法标注、短语型名称的标注等,标记总数约40个。

下面摘录一段原始语料如下:

19980101-05-001-003 1997年11月8日,长江三峡工程实施大江截流,成为一期工程圆满完成,二期工程进入攻坚阶段的里程碑。目前,担负施工任务的各路建设大军,正为宏伟的三峡工程再续新篇章。(李舸摄)

其中“19980101-05-001-003”是加在《人民日报》原文的每段内容前的标签,表示“1998年1月1日第5版第1篇文章的第3段”。加工后的语料如下所示:

19980101-05-001-003/m 1997年/t 11月/t 8日/t ,/w [长江/ns 三峡/ns 工程/n]nz 实施/v 大江/n 截流/vn ,/w 成为/v 一/m 期/q 工程/n 圆满/ad 完成/v ,/w 二/m 期/q 工程/n 进入/v 攻坚/vn 阶段/n 的/u 里程碑/n 。/w 目前/t ,/w 担负/v 施工/vn 任务/n 的/u 各路/r 建设/vn 大军/n ,/w 正/d 为/p 宏伟/a 的/u [三峡/ns 工程/n]nz 再/d 续/v 新/a 篇章/n 。/w (/w 李/nr 舸/nr 摄/Vg )/w

词语之间有了空格,斜杠之后的字母是该词语的标记,其中包括词性标记(如 n, t, v, a, u, m, w 等)、专有名词标记(如 nr, ns, nz 等)、语素子类标记(如 Vg)、动词和形容词的特殊用法标记(如 vn, ad )。不妨将这些标记笼统地称为“词性标记”。关于这些标记的含义请见下文 3.(2)的说明。短语型专名“长江三峡工程”用方括号[]标记出来了。

3. 制订基本加工规范的基本思路

⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”

2

(以下简称为“分词规范”)[8]保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》[9](以下有时简称“语法信息词典”或“语法词典”)可以作为基本参照,这就有必要对“分词规范”作必要的调整和补充。

⑵ 便于扩充的标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类代码(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz,英语等其他非汉字的字符串nx。②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;由于标注时只使用这些子类标记,故语素标记g 不在标注语料库中出现。 ③动词和形容词的特殊用法标记,即名动词vn(动词的名词用法),名形词an(形容词的名词用法),副动词vd(动词的副词用法),副形词ad(形容词的副词用法)。合计约40个。这个标记集虽然不算大,但与《现代汉语语法信息词典》结合,它是很容易扩充的。如可将成语、习用语和简称细分为名词性的、动词性的、形容词性的等等。

⑶ 多方面的适应性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。

⑷ 汉语的词组(短语)本位语法体系的指导作用[10,11]。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的指导下研制的,对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)以及各种语法属性。进行词性标注时利用了《现代汉语语法信息词典》的成果,避免了只根据词在当前句子中的句法功能就决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。增加这些标记可以为词的兼类研究提供计量根据,也可以为汉语词的概率语法属性描述准备充分的数据资源[12]。

⑸ 为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在词语切分与词性标注的基础上对由若干个词语组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。

⑹ 标注语料库同《现代汉语语法信息词典》相结合,可以形成一个立体的语言知识库。 本规范分为三个部分: ① 切分规范,见第4章。

切分规范主要规定将汉字串形式的句子切分为词语序列的原则,即什么样的汉字组合可以作为一个切分单位。

② 切分和标注相结合的规范,见第5章。

在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在本规范中,给出了一些基于词性描述的构词规则,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性。 ③ 标注规范

③-1 一般词性标注,见第6章。

标注规范用以确定切分单位的标记。包括:

3

a. 标记集以26个词类标记为基准,名动词、副动词、名形词、副形词和专有名词

的标记是在动词代码v、形容词代码a、名词代码n后增加一个小写字母,语素标记是在语素代码g前面增加一个大写字母。

b. 一个词若在语法词典中已属于某一个或若干个词类,标注时不轻易增加词性。

如“训练”、“强调”在语法词典中只属于动词,标注时切勿仅根据其在当前句子的功能就将它们改为名词或副词,可以标注为名动词vn或副动词vd。

c. 当语法词典给某个词确定的词性确实不对或不完备时,当然也要订正或补充。 d. 即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标注时仍

标以j,而不要改为nt或ns。 e. “唐朝”、“宋代”等历史朝代名称虽然也是专名,因语法词典已作为时间词收

入,标注时仍标以t,不改为nz。 ③-2 专有名词标注,见第4章与第5章。

这里“专有名词”的含义有了拓展。短语型的地名、团体机构名称及其他专有名称在词的切分基础上用ASCII码的方括号括起来,并在右方括号之后标以相应的ns,nt,nz,方括号不嵌套。

4.切分规范

4.1 基本概念

⑴ 切分单位

“分词单位”是中国国家标准“分词规范”中的一个基本概念[8]。它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。为了同“分词规范”衔接,这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中已表示其他概念,而用同一个术语表达同一或邻近学科的多个概念容易引起混淆。

按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主要是词,也包括了一部分结合紧密、使用稳定的词组。在某些特殊情况下孤立的语素或非语素字也可能出现在切分序列中,如在动词的离合形式

出/v 了/u 一/m 次/q 差/Ng 。/w 中,“差/Ng”是名语素;又如在

鹧鸪/n 的/u 鹧/x 有/v 什么/r 意思/n 吗/y ?/w 中,“鹧/x”是非语素字。

从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习用语一般不看作是一个切分单位。

⑵ 词典词条

“词典词条”(或“词条”)指《现代汉语语法信息词典》中收录的那些词语。这些词语都已归了类,即已经带有词性标记。

⑶ 切分单位和词条的关系

汉语中,成词语素和不成词语素、复合词和词组的边界是模糊的。本规范规定,凡收入语法信息词典的词条(包括:词、词组、成语、习用语、简称乃至标点符号等)一般都是切分单位。由于这些词条多达7.3万,对真实文本的覆盖率很高,可以保证绝大多数切分单位

4

和词条是一致的,但两者之间还是有差异的。例如5个字以上的成语、习用语是切分单位,但未被收入语法词典。像“一百二十八”、“五分之三”、“百分之九”、“1998年”、“10月30日”这样的数词和时间词实际上是无限多的,语法词典不可能全收,只可能收少量的构成成分。反过来,像“分之”、“百分之”作为助数词收入了语法词典,但它们并不是切分单位。语法词典中包含的前接成分、后接成分、语素、非语素字都不是切分单位,尽管当它们不能与前后成分组合时也会孤立地出现在切分序列中。

当处理大规模真实文本时,不可避免地会碰到未登录词。第5章给出了一些合成词的构造规则。根据这些规则自动生成的或经校对者确认的切分单位,如果结合稳定,使用频度较高,以后有可能补充到语法词典中。

4.2 对《分词规范》的补充和调整

为醒目起见,以下用符号“*”标识那些补充的规定,用“Δ”标识那些调整的规定。

⑴ 人名: nr

① 汉族方式的姓和名单独切分,并分别标注为nr。

张/nr 仁伟/nr, 欧阳/nr 修/nr, 阮/nr 志雄/nr, 朴/nr 贞爱/nr

* 汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓前加丈 夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr 方/nr 安生/nr; 唐姜氏,切分、标注为:唐/nr 姜氏/nr。 ② 姓名后的职务、职称或称呼要分开。

江/nr 主席/n, 小平/nr 同志/n, 江/nr 总书记/n, 张/nr 教授/n, 王/nr 部长/n, 陈/nr 老总/n, 李/nr 大娘/n, 刘/nr 阿姨/n, 龙/nr 姑姑/n

③ 对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。 老张/nr, 大李/nr, 小郝/nr, 郭老/nr, 陈总/nr ④ 明显带排行的亲属称谓要切分开,分不清楚的则不切开。

三/m 哥/n, 大婶/n, 大/a 女儿/n, 大哥/n, 小弟/n, 老爸/n * ⑤ 一些著名作者或艺术家的的笔名或艺名,不易区分姓和名,作为一个切分单位。 鲁迅/nr, 茅盾/nr, 巴金/nr, 三毛/nr, 琼瑶/nr, 白桦/nr ⑥ 外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。

克林顿/nr, 叶利钦/nr, 才旦卓玛/nr, 小林多喜二/nr, 北研二/nr, 华盛顿/nr, 爱因斯坦/nr

Δ 有些西方人的姓名中有小圆点,也不分开。 卡尔·马克思/nr

⑵ 地名: ns

安徽/ns, 深圳/ns, 杭州/ns, 拉萨/ns, 哈尔滨/ns, 呼和浩特/ns, 乌鲁木齐/ns, 长江/ns, 黄海/ns, 太平洋/ns, 泰山/ns, 华山/ns,

亚洲/ns, 海南岛/ns, 太湖/ns, 白洋淀/ns, 俄罗斯/ns,哈萨克斯坦/ns, 彼得堡/ns, 伏尔加格勒/ns ① 国名不论长短,作为一个切分单位。

中国/ns, 中华人民共和国/ns, 日本国/ns, 美利坚合众国/ns, 美国/ns

5

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所北京100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注
推荐度:
点击下载文档文档为doc格式
1pp6c4gkpf5136q5t3t485bn78arf200cl2
领取福利

微信扫码领取福利

微信扫码分享