Web日志挖掘中的数据预处理技术
李燕;冯博琴;鲁晓锋
【期刊名称】《计算机工程》 【年(卷),期】2009(035)022
【摘要】Data preprocessing is the important step in Web log mining. It consists of four sub-steps, i.e. data cleaning, user identification, session identification and path completion. The referer-based method is adopted for user session identification and path completion, in order to avoid the problems introduced by using proxy servers, firewall, local caching, and so on. Experimental results reveal that the technique can obtain the user access path efficiently if accurate referer information is available in Web access log.%数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充.为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充.实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径. 【总页数】4页(44-46,49)
【关键词】Web日志挖掘;数据预处理;用户会话识别;路径补充 【作者】李燕;冯博琴;鲁晓锋
【作者单位】西安交通大学电子与信息工程学院,西安,710049;西安理工大学计算机科学与工程学院,西安,710048;西安交通大学电子与信息工程学院,西安,710049;西安理工大学计算机科学与工程学院,西安,710048