基于DOM模型扩展的Web信息提取
顾韵华;田伟
【期刊名称】《计算机科学》 【年(卷),期】2009(036)011
【摘要】A method of information extraction from Web pages was presented, and it is based on extended DOM tree.Web pages were firstly transformed to DOM tree, then the DOM tree was extended by adding semantic expression to node and influence degree was calculated for each node.According to influence degree of nodes, the DOM tree was pruned,and it can automatically extract the useful relevant content from Web pages.This approach is a universal me-thod,which does not require to pre-know the structure of the Web page.The results of the information extraction are used not only for browsing but also for further Web information process, such as internet data mining, topic-based search engine.%提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中.
【总页数】4页(235-237,289)
【关键词】文档对象模型;Web信息提取;影响度因子;DOM树扩展
【作者】顾韵华;田伟
【作者单位】南京信息工程大学计算机与软件学院,南京,210044;南京信息工程大学计算机与软件学院,南京,210044 【正文语种】中文 【中图分类】TP309.2 【文献来源】
https://www.zhangqiaokeyan.com/academic-journal-cn_computer-science_thesis/0201241352306.html 【相关文献】
1.基于DOM的数字图书馆Web资源信息提取服务模型之研究 [J], 刘平兰 2.基于符号特征的隐马模型在WEB信息提取中的应用 [J], 马永进
3.基于新型主题信息量化方法的Web主题信息提取研究术 [J], 吕聚旺; 都云程; 王弘蔚; 施水才
4.基于网页分块自定义信息提取的Web信息采集器设计 [J], 苏炜; 李正权; 黎有
5.一种基于信息熵的web信息提取的方法研究 [J], 张云雷
以上内容为文献基本信息,获取文献全文请下载