课程名称:中文信息处理 课程类别:专业课程
授课对象:计算机科学与技术专业 学 分:3学分
指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年 一、教学目的:
本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。
本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。
二、教学任务:
本课程主要教学任务如下:
1 了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流
的研究技术、手段与方法;
2 掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,
熟悉因特网上的汉字交换码以及编码与解码技术;
3 深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、
地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系统的发展趋势
4 学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘
输入系统的实现方法,了解Linux中文输入的实现机制。
5 学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方
法,以及显示技术。
6 理解汉字显示和打印的工作原理以及工作过程。
7 理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型
歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词算法。
8 对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,
以及主流的技术方法。了解基本的机器学习理论,以及常用的数学模型。
三、教学内容
第一讲 中文信息处理概论(一) 1. 教学内容
? 什么是信息 ? 信息处理 ? 中文信息处理 ? 中文信息处理发展简史 ? 语料库
? 互联网与中文信息处理 2. 教学要点
通过本讲的学习,让学生理解信息处理和中文信息处理的概念,理解中文信息主意研究对象和研究意义,熟悉中文信息处理的发展历史,并了解中文信息处理的国际化趋势。
第二讲 中文信息处理处理概论(二) 1.教学内容
? 汉语的特点 ? 自然语言处理的难点
? 自然语言处理的基本方法及发展方向 2. 教学要点
通过本讲的学习,让学生掌握现代汉语的特点,知道自然语言处理中的难点,初步了解自然语言处理的基本方法以及发展方向。 第三讲 汉字代码体系 1、教学内容
? ASCII码及其扩展
? 中文信息在计算机内的表示
? ISO/IEC 2024 ? 汉字编码字符集
? GB2312-80 ? BIG-5
? Unicode和ISO10646 ? GBK和GB18030
2、教学要点
通过本讲的学习,学生应掌握中英文信息在计算机中的表示,以及汉字的代码体系,理解几种常用的汉字编码字符集和汉字的排序规则。理解汉字编码字符集之间的关系以及发展方向。 第四讲 因特网汉字信息交换技术 1、教学内容
? 汉字信息交换技术概述 ? 二进制文件编码方法 ? 常用Internet编码方法 ? Unicode实现方式 2、教学要点
通过本讲的学习,理解Internet上常用的字符编码集,理解为何需要汉字交换码,掌握常见交换码的编码与解码算法,并能够通过程序加以实现编码与解码过程。
第五讲 中文系统平台概述 1、教学内容
? 中文操作系统与平台概述 ? 中文系统平台设计策略 ? 系统平台的相关模块 ? 中文DOS ? 中文Windows ? 中文Linux ? 嵌入式操作系统 2、教学要点
通过本讲的学习,让学生了解中文平台和中文操作系统的发展历史、常见中文操作系统和设计中文操作系统的通用方法;掌握系统中汉字处理模块,以及处理模块与汉字代码体系之间的关系;了解软件国际化和本地化的概念。 第六讲 汉字编码技术 1、教学内容
? 汉字编码的发展 ? 汉字编码中的几个概念 ? 汉字编码理论 ? 数码键盘方案 ? 编码方案的标准和规范 2、教学要点
通过本讲的学习,让学生了解汉字编码的发展和相关概念,理解汉字编码理论中的重要概念,了解当前数码设备中的键盘编码方案和国家颁布的汉字编码标准和规范。
第七讲 汉字输入技术(一)
1、教学内容
? 汉字输入技术的发展 ? 汉字键盘输入技术 2、教学要点
通过本讲的学习,让学生了解汉字输入的发展历史、汉字输入的分类和应用等内容,理解汉字键盘输入的原理,掌握输入码对照表的设计,理解汉字键盘输入系统和Windows下汉字输入技术,并对Linux下的汉字输入系统有所了解。 第八讲 汉字输入技术(二) 1、教学内容
? 汉字键盘输入系统原理 ? 汉字键盘智能输入技术 2、教学要点
通过本讲的学习,让学生了解汉字键盘输入在汉字输入中的地位,掌握汉字键盘输入系统的原理,学习汉字键盘智能输入的主要采用的技术以及未来发展的方向。
第九讲 汉字键盘输入系统 1、教学内容
? 汉字输入系统的分类 ? 汉字输入系统的功能 ? 汉字键盘输入系统的工作流程 2、教学要点
通过本讲的学习,主要让学生熟悉Windows和Linux下汉字键盘输入系统的实现方法,熟悉常用汉字输入接口,体会接口在系统中的地位作用。并能够实现一个简单的Windows汉字输入系统。 第十讲 实验分析(一) 1、教学内容
? 本课程实验作用 ? 实验一分析 ? 实验二分析 ? 实验三分析 ? 实验四分析 2、教学要点
通过本讲的学习,主要让学生对实验的过程有回顾与提高,从具体的实验上升到经验,再通过对经验进行总结,让学生体会这四个实验的作用与学到的东西。 第十一讲 汉字字形管理技术(一) 1、教学内容
? 汉字字形概述 (讲授、理解) ? 汉字字形及其特点 ? 字形、字型和字形库 ? 字形描述技术及其种类 ? 字形描述技术 (讲授、掌握)
? 点阵字形描述技术 ? 轮廓矢量字形描述技术 ? 曲线轮廓字形描述技术 ? 其他字形描述技术
? 字形的压缩和还原 (讲授、理解)
? 字形点阵的压缩和还原 ? 轮廓矢量字形的压缩方法 ? 其他字形的压缩技术
2、教学要点
通过本讲的学习,让学生掌握汉字字形、字库的有关概念,理解常用的字形描述技术、学习并掌握字形压缩的方法,并能用算法加以描述黑白段和线性增量表示法。
第十二讲 汉字字形管理技术(二) 1. 教学内容
? 字形的放大和缩小 (讲授、理解)
? 汉字的字号
? 字形放大和缩小的基本原理 ? 防止字形放大和缩小失真的措施 ? 字形放大和缩小的应用 ? TTF字形技术 (讲授及自学、了解)
? 什么是TrueType ? TrueType的基本原理 ? TrueType字体文件结构 ? TrueType的特点和优势 ? TrueType的应用 ? OpenType的出现