大数据与经济学:特征、原理、影响及未来
在经济学领域,大数据应用还处于初步探索阶段,
但随着海量经济数据的几何式增长,以及网络技术与计算方法的不断完善和更新,将大数据运用于经济学逐渐成为学术界、商界以及社会广泛关心的热点问题之一。文章分析了大数据经济学特征、大数据在经济学领域应用的基本原理、大数据对经济学的影响、应用前景以及面临的挑战等问题。认为大数据与经济学的结合为经济学和其他社会科学提出了新的机遇和挑战,未来大数据可能会带来经济学颠覆性的改变,也有可能成为一门独立的学科和方法论。
大数据作为一种有用的信息资源,在商业、金融等领域发挥着越来越重要作用,也逐渐成为社会科学的国际前沿应用研究内容之一。然而,在经济学领域,大数据还鲜少被用到(据统计,截至2014年12月,google中学术搜索到的与“大数据”有关的研究论文共3026篇,其中仅有29篇是和经济学相关)。但因海量经济数据资源的快速增长,计算技术和能力的不断提高,以及方法论的不断发展,将大数据分析技术运用于经济学已成为一个值得探讨的新课题。展望未来,由于经济学是一门理论与实践相结合的学科,将大数据应用于经济学,有可能会开辟一个全新的经济学发展领域。
一、大数据在经济学领域应用的基本原理
大数据在经济学中应用的基本思路以大样本数据统计与机器学习技术为基础。其中大样本统计的过程概括如下:用N个代入变量得出对应的N个测量结果与K个潜在的预测因子,比如:以居民消费价格CPI指数预测为例,首先通过GOOGLE数据搜索或其他软件,筛选出同CPI有关的一系列关键词(比如粮食产量、原油期货价格、气候温度、价格改革政策等),然后通过这些关键词在文本数据(新闻、微博、评论、研究报告、
学术论文
学术语言文言化的复古倾
向--一个值得关注的语言科学技术报告、学位论文和学术论文的编写格式浅析“教学学术”视角下大学教师教学责任意识剖析传播学术中的“欧洲中心主义”——亚洲中从Ontology的译名之争看哲学术语的翻译原则试论新闻学学术规范研究的依据与路径论析大学教师教学与科研的学术责任中学的学术:一个亟待关注的话题试论学术嬗变中的教育创新环境法学的学术特色与贡献
等)出现的时间频次,计算它们之间的相关关系和逻辑路径关
系,从而得到测量结果N和预测因子K。在许多情形下,每一个代入变量的信息是足够丰富的,但不具有结构性,故可能会产生很多潜在预测因子,因此,需要注意的是:若是过度拟合,即预测因子K的个数可能会远远大于观测变量N的个数时,虽然模型可完美解释观测到的结果,但样本外数据的解释力却很差。在这种状况下,构造一个最
大化样本解释力的模型便成为首要目标,同时构建的模型还不能出现因过度拟合所导致的样本外无力解释的情形。因模型构建不同,使用方法也随之改变,惩罚预测因子的过度使用方式也不同。如Lasso回归模型,在满足一系列约束条件下,依据最小化离差平方和来选择模型系数。通过将样本分为“训练样本”和“测试样本”(“训练样本”用来估计模型参数,“测试样本”用来评估模型)进行过度拟合。而在评估预测效果时,一般交叉使用样本内预测与过度拟合,但目前这种交叉验证的方法在当前的实证微观经济学中也鲜少用到。
机器学习的一个非常重要假设就是机器学习的环境是相对稳定的,也就是样本数据(训练样本与测试样本情形相同)独立产生于同一过程。但由于现实环境会随着时间发生改变,故这一假设并不合理,因此,在高频使用新数据的应用中,往往通过对自身持续“再训练”,从而使得模型可以随着时间与环境的变化对预测结果进行调整。当然,对于机器学习,有些经济学家提出了卢卡斯批判的疑问,即若根据模型的预测结果进行政策调整,则政策调整后的现实结果可能与初始模型的预测结果有差异,因为政策的改变会影响数据间的潜在行为关系,但这一疑问在其他预测模型,比如计量经济模型、结构方程模型和联立系统模型中也都存在。
二、大数据对经济学的影响及前景
如今,随着数据样本容量的急剧增加,使得大数据的使用方式不尽相同。作为一个规律性科学,经济学需要广泛、详细的数据,并运用统计技术来处理新型数据,大数据的出现可能会在社会学与计算机科学间构建一架桥梁,其学科价值可能在于创造新的思维方式,这将会导致对经济学的新思考和研究方法创新,甚至会带来分析经济学方法的质变。
一方面,由于多维度的精细间隔,大数据可以为经济学研究人员提供更多研究变量和视角,可以研究以前难以测度的行为理论,这为经济理论研究提供了一种全新的测量方法。例如:麻省理工大学助理教授Alberto Cavallo设计的“百万价格”项目,该项目旨在通过一个网络程序,获取网上物品价格,继而运用这些数据计算得出通胀指数,该通货膨胀指数就是阿根廷的精确透明通货膨胀指标,其实时价格数据的捕捉能力和准确度,使得该指标作为政府测量通胀的替代选择。又如,谷歌提供的请求式数据选择也提供了一个探索新机会的理由,目前一个备受瞩目的例子就是“及时预报”,在某些方面它可以通过庞大经济社会数据集进行短期精确预测。
另一方面,大数据已与行为经济学相适应,成为产业相关经济规律研究的一部分,并且,大数据在经济学领域已经显示出众多的优越性。大数据已有潜力去挑战理性概念,例如对于经济学家在预测问题上的出错概率,强调样本偏差的方法;或者对于政策刺激的外部效应
问题,强调在社会媒体中情绪化分析出现的混乱问题,总而言之,大数据与先进的建模策略相结合,可以产生更详细、更准确和更有说服力的解释和分析。
从经济学理论的发展历程或者研究思想上看,总体来说,目前大数据分析技术在经济学中的应用还刚刚开始,处于初级阶段和辅助地位,目前还没有出现跨时代、里程碑式的技术进展。相比于比较完善的宏微观经济学理论、计量经济学理论和金融学等理论等,大数据技术的劣势在于没有严谨的、完整的经济学理论作基础,其对不同关键词的选择具有主观性,很难洞悉其背后的因果关系和逻辑关系;其使用的各种数据挖掘技术(比如自然语言处理算法、分段算法和机器学习算法),从技术上讲,这些技术没有突破传统的理论和思路;而且大数据分析技术的原理主要是分析不同关键词的关联关系及其强弱度,方法比较单一,远远不能代替现有的宏微观建模技术和分析方法。
但是,大数据在经济学中的应用前景旷阔而深远。随着时间的延续,数据容量在飞速增长,数据彼此之间的关系也越来越复杂。对于经济学家而言,传统经济领域就已经有较多的数据量:各种金融交易数据,如优惠卡数据、在线消费数据、详细人口数据等间隔性数据。大数据通过对各种媒体和渠道(比如搜索引擎、社交网络、通话记录、传感器、网络日志等)中不同类型的海量的结构数据、非结构数据和半结构数据进行快速计算和分析,能够解析存在于现实社会、虚拟世