好文档 - 专业文书写作范文服务资料分享网站

计算机辅助翻译技术Review复习课程

天下 分享 时间: 加入收藏 我要投稿 点赞

精品文档

计算机辅助翻译技术概论

押题:

1、 隐马尔科夫模型 2、机器翻译的方法 3、文本电子化OCR 4、双语对齐处理 5、汉语切分的方法和关键问题 5-20考试——计算机辅助翻译技术 考试题型:填空、判断、问答7-8个

考查内容:基本概念梳理,理解分析能力,考题思路,课件! 1、概论 1.1概况

为什么要研究翻译技术? ? ? ?

何谓翻译技术(translation technology)?能够用来进行语言翻译或辅助进行语言 解决或缓解语言障碍(language barrier)问题,提高翻译从业人员的生产率。 翻译技术的研究始于机器翻译

翻译的信息技术。

关于机器翻译 ? ? ? ?

机器翻译(Machine Translation)定义:利用计算机及其软件把一种语言(自动)翻译成为另外一种语言的技术。

机器翻译研究的目标是研制具有翻译能力的计算机软件系统。 机器翻译的研究始于20世纪40年代末期。 机器翻译结论很困难。

翻译技术的分流 ? ? ?

机器翻译(MT):机器翻译的主体是机器。目前比较困难。(目标是寻找彻底的解决方案) 计算机辅助翻译(CAT):计算机辅助翻译的主体是人。相对比较容易,但却很实用。 计算机辅助翻译立足为翻译人员提供(软件)工具。协助翻译人员提高效率(生产率)。

名词辨析

CAT - Computer-aided Translation MAT - Machine-aided(-assisted) Translation MAHT - Machine-assisted Human Translation HAMT - Human-assisted Machine Translation MT - Machine Translation

FAHQMT - Fully Automatic High Quality MT

精品文档

精品文档

关于翻译技术的理解 ? ?

狭义的理解,翻译技术指计算机辅助翻译技术和机器翻译技术。 广义的理解,翻译技术指的是对翻译人员工作有益的任何信息技术。

文字处理工具(MS Word) (不可或缺) 国际互联网及其应用(WWW、Email...) 各种电子资源(百科全书光盘...) ?

本课程的定位: 主要是狭义的翻译技术。 配合翻译技术的一些通用技术(数据获取技术、文本处理技术) 关于本地化

何谓本地化(localization)?

The term “localization” refers to the process of customizing or adapting a product for a target language and culture.

全球化没有带来其他语言的消亡,带来了本地化。 本地化的特点:量大、 时间紧迫、 技术(应用)性强 simship

An abbreviation of “simultaneous shipment”, which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible). 翻译技术概观

翻译技术体现为一组翻译工具,是若干软件工具的集合。 翻译工具可以涵盖翻译的不同阶段、面向不同的需要。 资料的收集\\ 原文的理解\\1.2工具

语言材料的电子化工具 ? ? ? ? ? ? ?

Data-capture tools

使用翻译技术的前提:待翻译的文本需要是电子化的,是计算机可以处理的。 翻译过程中所需要的各种资源需要是电子化的。

何为机器可读(Machine readable)? 文字变成编码形式

常见的电子化手段:手工键盘输入(keyboarding)、 Scanning + Optical Character Recognition、 Voice Recognition 文件格式转换工具 编码转换工具 多语种处理能力

术语的处理

语料库分析工具 ? ?

Corpus:a large collection of electronic texts that have been gathered according to specific criteria. Type of corpus:

精品文档

精品文档

monolingual corpus:orpus which consists of texts in one language.

parallel corpus:corpus containing source texts aligned with their translations. 语料电子化工具、语料处理工具 ?

Corpus-analysis tools

Software that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency lists, concordances, and collocations.(频率表、关键词、搭配) ? ? ? ? ? ? ? ? ? ? ? ?

Frequency list

Concordance (bilingual or monolingual) Collocation Corpus-analysis tools

allow users to have access to frequency data and to see terms in a variety of contexts simultaneously – features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context 直观认识

语料处理工具

汉语切词(segmentation) 词性标注(POS tagging) 屈折语形态还原(lemmatization) 句法分析(parsing) 双语对齐 (alignment) ……

既是 语料处理工具 通常也是机器翻译或机器辅助翻译系统的组成部分 术语管理工具

翻译中的术语一致性问题:term bank, term base

Terminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.

Active terminology recognition Terminology pre-translation Term extraction (identification) Monolingual or Bilingual Quality of term extraction 翻译记忆工具

Translation Memory: a type of linguistic database that is used to store and retrieve source texts and their translations.

精品文档

精品文档

Translation reuse Pre-translation Matches: Exact match TM Creation

TM tool是CAT的核心工具 机器翻译用作辅助翻译工具 Pre-editing + Machine Translation Machine Translation + Post-editing 其他策略 Sublanguage controlled language 集成翻译工具 ?

Translator's workbench (workstation):an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management, translation memory, and automatic translation. ?

Workflow management

Fuzzy match

No match

TM tools and localization

1.3 翻译技术与计算语言学 ? ? ?

2、P2-翻译技术的数学基础 2.1概率统计的基本概念 2.1.1随机事件

随机事件:在一定条件下,可能发生也可能不发生的事件称为随机事件,简称事件。一般用大写拉丁字母A,B,C,…表示事件。 随机事件的两个特殊情况

必然事件:每次试验都必定发生的事件(W )。 不可能事件:每次试验都一定不发生的事件(F)。

计算语言学是通过建立形式化的计算模型来分析、理解和处理自然语言的学科。是一门文理交叉的学科。(源于翻译技术的需求)

翻译技术建立在计算语言学的基础之上,翻译技术的突破有待于计算语言学的发展。 自然语言

精品文档

精品文档

2.1.2频率和概率

频率:

如果在相同条件下进行了n次重复试验,事件A出现了v次,那么事件A在n次实验中出现的频率为是 v/n。

当n无限增大时,频率呈现稳定性。

这一统计规律性表明事件发生的可能性大小是事件本身所固有的、不以人们主观意志而改变的一种客观属性。 概率:

概率:事件A发生的可能性大小称为事件的概率,记作P(A)。

当试验的次数n足够大,可以用事件的频率近似地表示该事件的概率,即概率的基本性质

条件概率

条件概率 在事件B发生的条件下,事件A发生的概率称为事件A在事件B已发生的条件下的条件概率,记作P(A|B)。

当P(B)>0时,规定:

当P(B)=0时,规定P(A|B)=0。 乘法公式

2.1.3独立性和贝叶斯公式

若事件A和B,满足条件P(AB)=P(A)P(B)则称事件A和B相互独立。 贝叶斯公式:根据乘法公式,可以得到下面的重要公式

精品文档

计算机辅助翻译技术Review复习课程

精品文档计算机辅助翻译技术概论押题:1、隐马尔科夫模型2、机器翻译的方法3、文本电子化OCR4、双语对齐处理5、汉语切分的方法和关键问题5-20考试——计算机辅助翻译技术考试题型:填空、判断、问答7-8个考查内容:基本概念梳理,理解分析能力,考题思路,课件!1、概论1.1概况为什么要研究翻译
推荐度:
点击下载文档文档为doc格式
5lhll4o4mp4zk8m0hvkq6k2tg1xu6l00s3b
领取福利

微信扫码领取福利

微信扫码分享