广州市、佛山市、东莞市、深圳市四个城市,如图1所示(蓝色点代表任务已完成,橙色点表示任务未完成)。
图1任务分布情况图
同样地,将附件二会员坐标导入地图中进行标注,发现有些会员位于广东省外或远离这四个城市,因此我们剔除这些会员信息以及会员编号为B1174的错误信息共13个样本信息。将这些会员坐标点进行聚类分析,用K-means算法在MATLAB中画出如下聚类图如图2:
图2会员分布聚类图
5根据会员分布划分3个区域:蓝色区域(Z1)主要覆盖深圳市;红色区域(Z2)主要覆盖广州市和佛山市;绿色区域(Z3)主要覆盖东莞市。将三个类的质点作为三个区域中心点O1,O2,O3.三个中心点的地理位置见下表1。
表1中心点地理位置O1
经度纬度
113.275723.1235
O2114.068922.6414
O3113.829422.9159
研究划分的3个区域,可以对任务分布数据做进一步分析。
记任务点为Pi,任务点所属区域Zj(j=1,2,3).任务点距中心点的距离可以表示任务的地理位置,该距离越大,任务的地理位置也就越差,任务标价较高。
以任务点Pi为中心,1.5km为半径做圆,该范围内覆盖的会员数为n,其他任务数为m。当一个任务周围的会员密度越大,任务定价越低。
5.1.3问题一模型的建立
认为任务定价w由3部分组成:
w?a0?a??(1)
a0为固定底价,是任务的最低价格,取附件一中的65。a表示赏金,是浮
动价格,受任务位置分布和会员分布的影响而变化。?为受不确定因素影响(如天气、交通管制等)的价格浮动。由于数据有限认为?影响很小,在此暂不讨论。
记z1为任务偏僻程度。
z1?
PiOjPmOj(xi?xj)?(yi?yj)(xm?xj)?(ym?yj)
22222222?(2)
Oj是任务点所属区域Zj的中心点,Pm是离中心点最远的任务点。即离中心
点越远越偏僻。
由于任务分布集中在广东,距离较近,故近似认为任务点和会员点分布在二维平面上,以他们的经纬度作为坐标(xi,yi)。
记z2为会员密度。
6z2?
nm?ninm(3)
ni为任务点1.5km圆域内的会员数量,nm是ni的最大值。记z3为任务密度。
z3?
mm?mimm(4)
mi为任务点1.5km圆域内的其他任务点数量,mm是mi的最大值.z3的提出是对会员密度的矫正,考虑到一个任务点的圆域内可能存在其他任务点,导致会员密度的相对下降。认为m越大,定价越高。
a?C1z1?C2z2?C3z3(5)
将(5)代入(1),忽略?即可得到任务定价公式
w?C1z1?C2z2?C3z3?65
(6)
表2回归方程变量含义
C1C2C3任务偏僻程度的系数,预期为+会员密度的系数,预期为-任务密度的系数,预期为+
从式(6)可以看出,任务定价由固定底价和浮动价格组成,最终定价主要受
三个变量的数值影响,即任务偏僻程度、会员密度、任务密度三个变量。
5.1.4问题一模型的求解
?
任务定价规律
首先将附件一中全部任务点的坐标数据代入(2)可以计算一系列对应的z1。然后根据经纬度与地表距离的换算关系,利用MATLAB统计每个任务点1.5km圆域内的会员数量和其他任务点数量,分别代入(3)(4)进行计算,得到z2z3.
现在我们已知每个任务点的定价w0和z1z2z3的具体数值,用最小二乘法拟合的方法计算(6)中的系数C1C2C3.计算结果如表3所示。
7表3系数计算结果
C18.2233
C2-0.1959
C3?20.78
3.7487
根据方差的计算结果可看出,系数的计算结果比较可靠。给出附件一中的任务定价规律如下:
w?8.2233z1-0.1959z2?3.7487z3?65
(7)
这也符合之前定价规律的探究,即偏僻程度、任务密度与定价成正相关,会员密度与定价成负相关。且偏僻程度对定价产生主要影响作用。
图3定价模型拟合与实际定价对比图
图3表示了(7)的拟合情况,从杂乱的任务点定价散点中找出最贴合实际的一般规律。?
任务未完成原因
观察图1可知,Z3的任务基本都已完成,而Z1任务基本都未完成,这两个区域的任务完成情况比较特殊,故主要研究Z3区域。
首先研究Z3中已完成任务的特点。根据Z3中已完成任务点的数据计算相应的z1z2z3,用最小二乘法拟合的方法重新计算(6)中的系数,得到新的定价规律:
w?8.9122z1-0.1589z2?2.9427z3?65
(8)
???
根据未完成任务点的数据计算z1z2z3,代入上述式(8)中计算w,然后计算
每个未完成任务点的计算定价与实际的差值w-w0。认为当这一差值大于0时,
8定价偏低,小于0时定价偏高。
图4未完成任务的定价评估状况
我们发现89%的未完成任务实际定价均小于计算定价,相比于已完成的任务点,他们的定价偏低。因此我们得出如下结论:
1.任务未完成的主要原因是定价偏低,使会员积极性下降。2.存在地域特殊性,如深圳地区未完成任务情况普遍。
3.可能存在不确定因素的影响,如天气不好、道路施工、交通堵塞、会员个人因素等,但不在本文的研究范围之内。
5.2问题二
5.2.1问题二模型的建立
问题一中的模型主要利用了附件二中会员的位置信息,没有考虑到会员信誉值的影响,在问题二中将主要讨论该因素与定价的关系。
基于第一问的数学模型。同时考虑到会员的信誉值反映会员的活跃程度,建立新的模型。
对会员活跃的程度数据进行打分处理如下表3:
表4会员打分情况
信誉值打分
大于10000
1
1000~10000
0.8
100~10000.6
信誉值打分
10~1000.4
91~100.2
小于10.8