数据挖掘在淘宝卖家评论中的应用

由天下分享时间：2025/3/20 5:06:06 加入收藏我要投稿点赞

电子商务客户评论的有效性及其引导分析

摘要：许多电子商务网站（如B2C商城淘宝网）为买家提供了对所购商品进行评论的平台，该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时，买家可以通过对这些评论的参考，充分利用其中的有效信息来引导自己对该商品的购买，同时也可以保障购买质量。然而，在大量的买家评论中，一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下，买家若是能够从这些大量评论中进行筛选，找出有效的评论从而引导自己更好地购买商品，这将大大保证购买的质量，同时也在无形中引导自己给该商品的交易做出恰当实际的评价。这篇文章旨在以淘宝网为例子，分析其买家的评论，教大家如何辨别有效评论并引导潜在客户对该商品的购买。提出一种挖掘新颖信息的算法，并分析了算法的可行性以及有效性。

关键词：电子商务淘宝网买家评论潜在客户有效信息

0 前言

随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。网站经营者需要知道网站受用户欢迎的程度,用户们如何使用该网站,网站的成功与不足之处,并找到进一步改善的方法。网站投资者需要了解网站的运营状况、品牌实力和发展潜力等,评估网站的价值,以便作出投资决策。消费者需要了解如何寻找最好的网站,以获得最好的服务和最大的价值。解决这些问题就必须采用合适的标尺和方法来评估网站。因此,电子商务网站评价的强烈社会需求促使网站评价的研究和实践活动蓬勃发展起来。本文拟对电子商务网站评价研究与应用进行分析,以利于进一步推动这一研究的深入开展和促进电子商务网站评价应用更健康地发展。电子商务网站评价是指根据一定的评价方法和评价内容与指标对电子商务网站运行状况和工作质量进行评估。作为电子商务市场发展和完善的重要推动力量,电子商务网站评价不仅使自身得到快速发展,并且通过评价活动促进电子商务网站的整体水平和质量的提高,监督和促进电子商务网站经营规范和完善,从而推动电子商务的健康发展。

电子商务网站评价能够在一定程度上解决商务网站和顾客之间的信息不对称问题。顾客可以根据中立的网站评价结果,获得可靠的各个商务网站的评价信息,从而降低信息搜寻成本,并且有助于更方便、更迅速地选择合适的网站进行商务活动或获得最好的服务。例如,在网上购物方面,消费者利用网站评分结果,就可以从产品的价格、质量,网上商店的特别优惠措施等各方面比较不同的网上商店,从而使消费者能够根据自己的需要找到最合适的网站,并能买到价廉物美的产品

21世纪是电子商务高度发展的时代，作为亚太地区最大网络零售商的淘宝网，占据着中国80%以上的网购市场份额。因此，对淘宝网的研究无论是从理论上还是现实上都具有重大意义。本文研究的出发点就是针对淘宝商品的大量买家评论数据。

一般顾客在淘宝店铺购买商品之后，都会在评论平台上发表一下对所购商品的看法，而这些评论对潜在买家而言无疑是一笔财富。倘若买家能够从这些评论中迅速挖掘出真实可靠的有效信息，势必会对自己的购买行为产生极大帮助。

新颖信息挖掘

1.1 挖掘模型

新颖信息挖掘就是从文本中挖掘出读者所关心的、有用的、新颖的信息，该技术在冗余信息过滤领域有着广泛的应用[5]。新颖信息挖掘模型主要由三个部分组成，即预处理、分类和新颖信息挖掘（如图1所示）。当某一位买家的评论输入到模型中后，首先借助机器学习方法进行预处理；预处理之后进入分类阶段，该阶段的主要任务就是借助事先给定的主题（或关键字）来过滤不相关的评论；最后进入新颖信息挖掘阶段，该阶段的任务就是通过和历史记录做对比，判断该条评论是否是新颖的。相新预处理关颖买家评论（机器学习分类新颖信息挖评评方法）掘论论

本文中，所有买家的评论将被人为地分为三类：质量、价格与物流供应。因此，我们所关注的是预处理与新颖信息挖掘这两个阶段。 1.2 挖掘算法

文献[6]介绍了新颖信息挖掘算法的两种基本思想，即“一对一比较”与“多对一比较”。本文是基于“一对一比较”这一思想，即通过当前评论记录与其之前每一条记录相比较，获得该条记录的新颖度，然后与预先给定的一个阈值?相比较，若小于?，则认为该条评论记录是冗余的，否则是新颖的。在写出挖掘算法步骤之前，先介绍几个基本概念。（设数据库中已存放CN条买家评论数据记录）

给定主题（或关键字）图1 新颖信息挖掘模型

DB 历史记录定义1.1：设i表示数据库存放的第i条买家评论记录，n表示预先给定的关键词数目，w（i=1,2,?,CN,j=1,2,?,n）表示第j个关键词在i中的权重，则：ijN(1)TN其中，N表示第j个关键词在i中出现的次数，TN表示i中共有多少个单词. wij?定义1.2：令i表示第i条记录，k(1?k?i?1)表示i之前的某一条记录，则i与k的相似度用余弦函数表示为： cos(i,k)=digdk'didk（1?i?CN,1?k?i?1）(2)其中，di?(wi1,wi2,?,win)，dk?(wk1,wk2,?,wkn).定义1.3：令i表示第i条记录，k(1?k?i?1)表示i之前的某一条记录，则i的新颖度N(i)可以表示为： N(i)=1-max(cos(i,k)) (1?i?CN) (3)1?k?i?1其中，max(cos(i,k))表示第i条记录的冗余度.1?k?i?1 新颖信息挖掘的算法步骤如下：

（1）给定阈值?与n个关键词；

（2）浏览数据库中的第i条评论记录，由（1）式算出第j个关键词在i中的权重wij（i=1,2,?,CN,j=1,2,?,n）；

（3）由（2）式算出第i条记录与其之前的每一条记录的相似度（i=1,2,?,CN）；（4）由（3）式计算出第i条记录的新颖度（i=1,2,?,CN）；

（5）根据“一对一比较”这一思想，确定第i条记录是否冗余（i=1,2,?,CN）. 1.3 算法的可行性和有效性分析

文献[7]给出了用F值法来衡量新颖信息挖掘算法的可行性以及有效性。在统计学中，F值法广泛应用于信息检索、文件分类以及查询分类等领域。F值的表达式如下：

2?P?R,（4）P?RMM其中P?表示查准率，R?表示查全率，S表示通过阈值?控制检索出的SA相关信息总量，M表示S中真正是相关信息的数量，A表示系统中的相关信息F?总量.

查准率、查全率以及F值是用来衡量挖掘模型检测新颖信息效率的三个指标，而文献[8]给出了另外三个指标，分别是——冗余查准率（RP）、冗余查全率（RR）以及冗余F值（RF），这三个指标从冗余信息的角度来分析新颖信息挖掘算法的可行性与有效性。冗余查准率和冗余查全率定义如下：

MrMrRP?,RR?SrAr其中Sr表示通过阈值?控制检索出的不相关信息总量,Mr表示Sr中真正是不相关信息的数量，Ar表示系统中不相关信息总量. 定义了冗余查准率与冗余查全率之后，下面给出冗余F值（RF）的表达式：

2?RP?RR RF?（5）RP?RR1 实例

本文所需数据来源于淘宝网上一家手机店铺在2010年内所收到的1269条买家评论记录，将其存放为SQL server 2005中的一张表——comments。在存放数据库里之前，我们人为地将数据分为三类：质量类（标记为1）、价格类（标记为2）与物流供应类（标记为3）。comments包括以下5列：buyerId（买家账号），buyerStar（买家星级），content（评论内容），catid（所属类别），dateTime（评论时间）。表1给出了comments的前5行。

表1 comments表的前5行

按照catid列进行频数分析，如表2所示。

表2 各个类别的新颖率

类别 1 2 3 SUM 记录数 656 267 346 1269 新颖记录数 630 260 321 1211 新颖率 0.9604 0.9738 0.9277 0.9543

限定阈值?从0到1，步长取为0.05，根据第1.2介绍的挖掘算法，从检索新颖信息的角度算出不同阈值下的查准率、查全率以及F值，如表3所示。

表3 不同阈值下算法的查准率、查全率以及F值

?0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 A 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 S 1269 1268 1268 1268 1267 1266 1266 1266 1262 1258 1257 1253 1242 1230 1211 1179 1137 1051 M 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1210 1209 1206 1188 1159 1120 1040 P 0.9543 0.9550 0.9550 0.9550 0.9558 0.9566 0.9566 0.9566 0.9596 0.9626 0.9634 0.9657 0.9734 0.9805 0.9810 0.9830 0.9850 0.9895 R 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9992 0.9983 0.9959 0.9810 0.9571 0.9249 0.8588 F 0.9766 0.9770 0.9770 0.9770 0.9774 0.9778 0.9778 0.9778 0.9794 0.9810 0.9814 0.9821 0.9857 0.9881 0.9810 0.9699 0.9540 0.9195 0.90 0.95 1.00 1211 1211 — 872 385 — 864 379 — 0.9908 0.9844 — 0.7135 0.3130 — 0.8296 0.4749 —

从检索冗余信息的角度，给出不同阈值下算法的冗余查准率、冗余查全率以及冗余F值，如表4所示。（限定?的范围从0.5到0.95，步长仍取为0.05）

表4 不通阈值下算法的冗余查准率、冗余查全率及冗余F值

?0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 Ar 58 58 58 58 58 58 58 58 58 Sr 16 27 39 58 90 132 218 397 884 Mr 15 25 34 35 38 41 47 50 53 RP 0.9375 0.9259 0.8718 0.6034 0.4222 0.3106 0.2156 0.1259 0.0600 RR 0.2586 0.4310 0.5862 0.6034 0.6552 0.7069 0.8103 0.8621 0.9138 RF 0.4054 0.5882 0.7010 0.6034 0.5135 0.4316 0.3406 0.2198 0.1125

根据表4中的数据，借助matlabR2008a软件作出R—PRF曲线，如图2所示。

图2 R—PRF曲线

从表3、表4及图1可以很清晰地看出：当阈值?达到0.65时，RF值达到最大为0.7010，此时F值恰好也达到最大为0.9881。因此，当检索买家评论记录数据库时，建议阈值最好控制在0.65左右。