安徽省巢湖学院计算机与信息工程
学院
课程设计报告
课程名称 《数据结构》
课题名称 字符串操作 专 业 计算机科学与技术 班 级 学 号 姓 名 联系方式 指导教师
2011年 12 月 25 日
目 录
一、问题描述………………………………………………………1 二、基本要求………………………………………………………1 三、测试数据………………………………………………………1 四、算法思想………………………………………………………1
1、注释………………………………………………….………1 2、模式匹配……………………………………………………..1 3、KMP算法…… ……………………………………….………2 4、文本文件单词的检索与计数……………………………………2
五、模块划分………………………………………….……………3
1、串的模式匹配…………………………………….…………3 2、字符串的加密与解密…………………………..……………4 3、文本文件单词的计数和检索……………………….…………4 六、数据结构………………………………………………………4 七、源程序(格式调整,添加注释)……………………………5 八、测试情况………………………………………………………12 九、参考文献………………………………………………………13 十、总结……………………………………………………………14
一、 问题描述
字符串是一种常见的数据类型,在现实生活中有着广泛的应用。本次课程设计需要选择合适的结构完成字符串的建立,实现串的基本操作,编写三种模式匹配算法和字符串的加密与解密算法,并利用它们实现字符串的应用:包括文本文件对单词的检索和计数。
二、基本要求
程序要求选择合适的存储结构,并实现以下功能:
1.完成串的基本操作,如:串的赋值,比较,连接,插入,删除;
2.实现串的模式匹配,包括:穷举法,BF算法和KMP算法;
3.字符串的应用:字符串的加密与解密;文本文件单词的计数;文本文件单词的检索;
三、测试数据
1.对模式匹配(穷举法,KMP算法和BF算法)的测试:如:在“asd sfhasd asd”中找从第3个下标开始匹配的模式串“asd”。
2.对加密与解密的测试:如:对串“afhbs 537hsj/sjdh”加密,再将加密后的串还原。
3.对文本文件单词的计数和检索的测试:如创建一个文本文件,在其中对单词“me”进行计数并且检索其所处行、列。
四、算法思想
1、用结构体SString记录字符串信息,其中ch代表字符串,length代表字符串长度。
2、模式匹配:
1)穷举法的Index(S,T,pos):
从位置开始通过SubString截取S中T长度的字符串,并与T通过StrCompare进行比较,若找到则返回位置;否则继续。若没找到,返回-1。
2)BF算法: IndexBF(S, T,pos)
主串S从pos位置开始,模式串T从0位置开始,从目标串s=“s0s2…sn-1\的第一个字符开始和模式串t=“t0t2…tm-1\中的第一个字符比较,若相等,则继续逐个比较后续字符;否则从目标串s的第二个字符开始重新与模式串t的第一个字符进行比较。依次类推,若从模式串s的i位置字符开始,每个字符依次和目标串t中的对应字符相等,则匹配成功,该算法返回i;否则,匹配失败,函数返
回-1。
3、KMP算法:
该算法较BF算法有较大改进,主要是消除了主串指针的回溯,从而使算法效率有了某种程度的提高。
定义next[j]函数,表明当模式中第j个字符与主串中相应字符“失配”时,在模式中需重新和主串中该字符进行比较的字符的位置。
max{ k|0 next[j]= 当此集合非空时 -1 当j=0时 0 其他情况 若“p0…pk-1”=“pj-k…pj-1”,即next[j] = k,则next[j+1] = ? ①若pk=pj,则有“p0…pk-1pk”=“pj-k…pj-1pj” (0 Kmp:从S的pos位置开始与T进行匹配,若S与T对应位置相等或T回到0位置时,S与T同时右移;否则T回到next[j]位置。 3、字符串的加密、解密: 1)Encrypt算法: 对字符串中的单个字符c的二进制形式进行操作,通过右移和与位运算等其分为两部分,存储在两个字符中。 2)Decrypt算法: 对字符串中的单个字符c的二进制形式进行操作,通过左移和与位运算等两个字符还原累加,得到原字符。 4、文本文件单词的检索与计数; 1)建立文件的实现思路是: (1) 定义一个串变量; (2) 定义文本文件; (3) 输入文件名,打开该文件; (4) 循环读入文本行,写入文本文件,其过程如下: while(不是文件输入结束){ 读入一文本行至串变量; 串变量写入文件; 输入是否结束输入标志;} (5) 关闭文件。 2)给定单词计数的实现思路是: (1) 输入要检索的文本文件名,打开相应的文件; (2) 输入要检索统计的单词; (3) 循环读文本文件,读入一行,将其送入定义好的串中,并求该串的实 际长度,调用串匹配函数进行计数。具体描述如下: while(不是文件结束){ 读入一行并到串中; 求出串长度; 模式匹配函数计数;} (4) 关闭文件,输出统计结果。 3)检索单词出现在文本文件中的行号、次数及其位置的实现思路是: (1) 输入要检索的文本文件名,打开相应的文件; (2) 输入要检索统计的单词; (3) 行计数器置初值0; (4) while(不是文件结束){ 读入一行到指定串中; 求出串长度; 行单词计数器0; 调用模式匹配函数匹配单词定位、该行匹配单词计数; 行号计数器加1; if(行单词计数器!=0)输出行号、该行有匹配单词的个数以及相应的位置;} 五、模块划分 1.串的模式匹配: 穷举法:Index(S, T, pos) S为主串,T为模式串,从pos位置开始进行 BF算法:IndexBF(SString S,SString T,int pos) 朴素的模式匹配算法,S为主串,T为模式串,从pos位置开始进行。 KMP算法:get_next(SString T, int next[]) 获取字符串T对应的 next[]数组。 IndexKMP(SString S,SString T,int pos,int next[]) 利用模式串T的next函数求T在主串S中第pos个字符之后的位置。