东巴象形文字特征曲线简化算法研究
杨玉婷1,康厚良2,廖国富3
【摘 要】摘要:东巴文作为一种原始的图画象形文字,在检索和识别方面的研究较多,且从不同角度应用各类算法进行了实现,但是在文字特征提取和简化方面的研究却很少。由于字符特征提取的精练性和完全性将直接影响识别算法的精度和复杂度,因此结合计算机视觉中形状简化的相关研究成果,给出了适用于东巴象形文字特征曲线简化的改进算法。该算法以离散曲线演化算法为基础,进一步给出了区域最大面积差的临界点选取法和二次简化算法,有效去除了东巴字符特征曲线中的冗余点和潜在异常点。通过通用性和鲁棒性实验表明,该算法在保留原有字符特征的基础上可以去除曲线中87%以上的冗余点,实现了特征曲线的最简化,从而为东巴文字的相似性度量奠定基础。 【期刊名称】图学学报 【年(卷),期】2024(040)004 【总页数】7
【关键词】东巴文字特征提取;特征曲线简化;离散曲线演化算法;二次简化 纳西东巴文字是通行于纳西族西部方言区的一种古老的图画象形文字[1],其保留了人类早期文字演变的珍贵信息[2],是当今世界上唯一存活的象形文字[3]。2003年,使用东巴文撰写的东巴古籍被联合国教科文组织列入世界记忆遗产名录[4]。
东巴文字具有较为浓厚的原始图画意味,从文字的结构要素分析[5],字素可细分为轮廓型和结构型2类。轮廓型字素通过临摹物体的外在形状来表达实际含义,具有轮廓特征明显且闭合性好的特点;而结构型字素一般使用简单的字符
笔划通过描绘事物的结构或骨架来表达含义,其中人形字最具代表性[6],见表1。
当前,东巴文字在检索和识别方面的研究较多[7-11],且应用各类算法进行了实现,但是在文字特征提取和简化方面的研究却相对较少,即使在相关文献中包括与文字特征提取有关的内容,也仅仅是使用常见的灰度化、二值化、直方图等通用方法[12-15]。显然,字符特征提取的不精练、不完全,不仅影响识别算法的精度,同时也会增加识别算法的复杂度。
基于链码的连通域优先级标记(connected domain priority marking, CDPM)算法[6]为东巴文字的特征提取提供了一种新的思路,针对东巴文字的结构特征,准确提取2类不同结构东巴文字的特征曲线。但是,曲线中过多的顶点序列仍会对文字识别的效率和准确性造成影响。因此,本文在CDPM算法的基础上,结合东巴文字的书写习惯及计算机视觉中形状简化的相关研究成果[16],给出了适用于东巴象形文字特征曲线的简化算法。该算法能有效去除字符特征曲线中的大量冗余点及潜在异常点,实现使用最少的特征点序列表示最多的字符特征。另外,该算法也可与其他特征曲线提取算法相结合用于曲线的简化和特征提取。
1 东巴象形文字特征曲线简化算法
东巴象形文字特征曲线简化算法是基于CDPM算法在东巴文字特征提取方面的进一步优化,其思想是:首先采用离散曲线演化算法(discrete curve evolution, DCE)和区域最大面积差的临界点选取法去除特征曲线中的大量冗余点,统称为一次简化;然后,使用二次简化算法进一步去除特征曲线中的剩余冗余点及潜在异常点。
1.1 离散曲线演化算法
DCE在保持曲线特征的同时,可快速去除曲线中的大量冗余点[17],即在演化的每一个阶段,使用一条新的线段替换原有的一对相邻的线段s1和s2,该线段是通过连接s1s2的2个端点而得到的。演化过程中,线段的合并顺序由度量K决定,即
其中,β(s1,s2)为线段s1和s2的顶点转向角;l为归一化之后的线段长度[18-19]。
由于东巴字符的特征曲线中除了存在大量冗余点之外,还有一些潜在异常点,若直接使用DCE算法的结束条件可能会产生曲线中的关键点被删除,而异常点仍存在的问题,容易导致曲线的过度简化或简化结果异常。因此,通过分析东巴字符特征曲线在实际演化过程中所反映的外在变化,采用基于区域最大面积差的临界点作为演化的结束条件,达到使用最少特征点表示最多字符特征的目的。
1.2 基于区域最大面积差的临界点选取法
特征曲线在每一阶段的演化都会导致曲线形态的变化,并进一步引起曲线所围面积的变化。因此,当两次演化中曲线所围面积的差值最大时,说明此时丢失的字符细节特征最多,从而得出基于区域最大面积差的临界点选取法的核心思想,即:
设字符的特征曲线包含n个特征点,在演化的每一个阶段,若每次去除总量1%的特征点,则第 次演化将去除个特征点,剩余特征点所围成的面积为Areai。计算第i次和i+1次演化时特征曲线所围面积的差值,若差值最大,说明第i+1次演化丢失的字符细节特征最多,则第i次演化后得到的特征曲线为最简,
东巴象形文字特征曲线简化算法研究



