随着电子商务、互联网金融、社交网络等的飞速发展,互联网已经成为人们生产生活不可或缺的重要场所。人们在互联网上购物、交流、搜索、浏览的各种行为所产生的数据量越来越大。大数据时代的到来,不仅意味着数据处理技术和处理能力的极大提升,而且全社会的数据资源分布结构也在发生深刻改变。此外,互联网已经从传统的信息传播媒介升华为虚拟的社会空间,越来越多有关人类经济、社会运行的数据被投射到云上。因此,在实时、交互、离散化、非结构化的海量数据中,蕴含着经济社会运行的各种先行指标信号。
当前,中国正处于从互联网大国向互联网强国转变的重要时期。中国互联网产业的规模和实力已经位居世界前列。据统计,全球10大互联网公司中国独占4家,前30家互联网公司有40%以上来自中国1。可以预见,随着“互联网+”战略的深入推进,我国经济运行的网络化、智能化程度将不断提高,基于互联网大数据的宏观经济监测和预测将变得越来越重要。
本文拟对基于互联网大数据进行宏观经济监测预测的现有研究以及基于不同数据源的宏观经济监测预测分析进行初步阐述。
国内学者认为,大数据在宏观经济分析应用中最活跃也是最重要的四个领域为:宏观经济预测、宏观经济数据挖掘、宏观经济分析技术和宏观经济政策2。而利用大数据对宏观经济进行预测方面,“现时预测(Now Casting)”近来受到特别关注。“现时预测”一词最初起源于气象学领域,是对现在已经发生的事由于信息发布滞后等原因难以马上知道准确情况,因而根据其他可得信息进行推测3。一般来说,依赖统计部门的宏观经济数据的发布都存在时间滞后的问题。由于不能及时获取宏观经济发展的数据信息,也就不能对当下的宏观经济形势做出准确判断。比如衡量宏观经济发展的GDP指标,尽管本月GDP是多少这件事已经发生了,但往往到下个月我们才能拿到相关的数据和结果。而在月底估测本月GDP总量就是“现时预测”。“现时预测”利用的数据不再局限于官方统计数据,方法也不受制于传统的统计方法和模型。现时预测说到底就是利用大数据方法和技术对宏观经济进行及时的监测和预测。
目前,利用大数据方法和技术进行宏观经济监测预测已经在国际上引起相当程度的重视,不同机构的学者和研究人员已经进行了大量研究和应用,而且产生了丰硕的成果。但从国内来看,这一领域的研究和应用都处在起步阶段,与国外相比,还有很大发展潜力和空间。
从数据来源渠道来看,国外利用互联网大数据监测预测宏观经济的研究主要有两大类,一类是基于网络搜索引擎的宏观经济监测预测,如谷歌公司研发的Google Trend(谷歌趋势) ;另一类是基于网络社交媒体的宏观经济监测预测,如国外社交网站Twitter(推特)、Facebook(脸谱)、Microblog(微博)。
在利用网络搜索引擎提供的数据方面,Ettredge4 (2005)很早尝试利用网络搜索数据来预测美国的失业率。他分析了World Tracker列出的500个常用关键词和美国失业率之间的关系,发现与失业相关的搜索数据和美国官方发布的失业率之间存在显著的正相关。Choi and Varian5根据Google Trend 提供的“就业”和“失业与救济”目录进行搜索查询,并用查询结果预测美国失业津贴的初始索赔情况。他们发现,通过加入查询结果变量,标准回归预测模型无论在模型拟合度还是平均绝对误差上都得到显著提高和改善。Choi and Varian6还专门写了一篇介绍如何利用Google Trends来预测当下经济活动的文章。他们认为,经济学家、投资人、财经记者每月都在关注政府发布的经济运行情况,但这些结果的发布普遍滞后,这个月的数据往往要等到下个月中旬才能发布,而Google Trends每天都在产生大量与经济发展相关的查询结果,而这些查询结果与当下的经济活动之间必然存在着不容忽视的关系,或许可以对预测当下的经济活动起到非常重要的作用。在此基础上,他们举例说明了如何利用Google Trends预测美国零售业、汽车、住房和旅游销售情况。Bughin7利用Google Insights for Search预测了比利时的宏观经济先行指标——零售业销售和失业情况。结果发现,查询数据对预测比利时的宏观经济波动有非常好的解释能力,比利时从2004年到2011年经济波动的16%―46%可以通过搜索查询的结果来解释。
现在,越来越多的研究在利用Google Trend进行经济监测和预测,除了失业率、汽车销量以外,Google Trend还被应用到房地产、旅游、零售业、个人消费等诸多可以反映宏观经济活动的领域。除了美国,D'Amuri and Marcucci8和Suhoy9分别通过网络搜索引擎提供的数据预测了以色列、德国和意大利的失业情况,还有学者运用同样的方法成功预测了智利等国家的汽车销量。已有的大部分研究都表明,加入Google Trends的搜索结果数据,可以显著提高模型的预测能力10。
在利用网络社交媒体提供的数据方面,Bollen, Mao, & Zeng11发现基于Twitter(推特)平台表达的公共情绪可以用来预测股市变动。这一研究的数据来源于两方面:一是Yahoo?金融发布的道琼斯工业平均指数(DJIA)的收盘价;二是2008年3月到10月,270万推特用户推送的970万条消息。这970万条消息经过情绪评估工具——Opinion Finder和GPOMS被赋值。Opinion Finder根据文本内容可以评估“积极”与“消极”两种情绪;GPOMS根据文本内容可以评估“calm(冷静)”、“alert(警觉)”、“sure(确信)”、“vital(活泼)”、“kind(美好)”、“happy(高兴)”六种情绪。结果发现,在道琼斯工业平均指数(DJIA)和GPOMS中的“calm(冷静)”情绪之间存在相关性。进一步研究发现, “calm(冷静)”情绪可以很好地预测道琼斯工业平均指数在未来2到6天的涨跌情况,而且这种每日预测的准确率高达到87.6%。2011年5月英国对冲基金Derwent Capital Markets建立了规模为4000万美金的对冲基金,是首家基于研究社交网络的对冲基金。该基金通过分析Twitter的数据内容来感知市场情绪,从而指导投资行为。此外,不少研究还利用网络社交媒体数据来预测其他经济活动,如亚马逊网站的售书情况12、电影卖座率13以及网络游戏销售情况等。最近,Bughin14将社交网络、博客、论坛和谷歌搜索数据同时加入到预测模型。结果发现,比利时国家电信公司销量的15%可以通过网络社交媒体数据解释,25%可以通过网络搜索数据解释;加入网络社交媒体和网络搜索数据以后,模型的整体预测能力提高了25%。
从国内的情况来看,申红艳15等把国内利用大数据进行宏观经济分析的研究分为三类。一是用电量与经济增长。大多数研究表明,用电量,尤其是工业用电量与经济增长之间存在长期稳定的均衡关系和因果关系。而且用电量与经济增长之间的这种关系也得到国外学者研究的佐证。Zahid16和Galip17等学者通过实证研究,发现用电量与经济增长之间存在单向因果关系,经济增长会激发对用电量的需求。二是货运量与经济增长。国内外学者通过研究发现,货运量,尤其是铁路货运量与经济增长之间存在交替推拉作用的因果关系18 19。三是银行贷款与经济增长。刘恩猛20发现经济增长和贷款之间存在协整关系和双向因果关系。
在宏观经济监测预测的指数建构方面,2010年,英国著名政经杂志《经济学人》将“克强指数”视为评估中国GDP增长的重要指标。该指数包含三个经济指标,分别是“工业用电量新增”、“铁路货运量新增”和“银行中长期贷款新增”。“克强指数”源于时任辽宁省委书记的李克强总理会见美国驻华大使时表示,他喜欢通过耗电量、铁路货运量和贷款发放量三个指标来分析和预测辽宁省的经济运行情况。《经济学人》杂志根据这三项指标构造了一个指数,并画出这个指数的时间序列曲线,冠名为“克强指数”。“克强指数”被一些国际机构所认可,如花旗银行就用它来对比工业企业利润,并认为它的解释力更强。国内学者的研究也进一步证实了“克强指数”的科学性和准确性。刘慧通过构建“克强指数”与经济增长的VAR和VEC模型,发现“克强指数”的三大指标与经济增长之间存在长期均衡关系和短期调整机制21。2013年7月全国人大财经委员会向中央提交了《企业发展和宏观经济发展关系分析》报告,该报告根据“企业发展工商指数”预测了我国宏观经济将企稳回升的趋势,而后来的经济发展形势证实了这一指数预测的准确性。“企业发展工商指数”由“企业发展工商指数”课题组提出,该指数涉及10个对宏观经济具有显著先行性的指标,可以提前1~2个季度预测宏观经济发展形势。无论从数据规模还是技术手段上,这项研究都是利用大数据技术监测预测宏观经济的一次有益尝试。
在宏观经济监测预测的模型建构方面,国内学者和研究人员也进行了许多大胆的创新和尝试,如国家信息中心的“中国宏观经济模型”、中国人民银行的“季度计量经济模型”以及厦门大学的“中国季度宏观经济模型”。然而,传统的宏观经济监测预测模型都是基于同频数据进行的,高频数据必须要降为低频数据。这样会造成数据信息的丢失,进而影响模型预测的准确性。而且国内现有的宏观经济监测预测模型以年度、季度模型为主,周期较长。但无论是国家的宏观经济政策还是企业经营策略,甚至个人的消费计划都需要对当下的经济形势有准确的把握。吉林大学的刘汉和刘金全验证了混频数据抽样模型(MIDAS)对中国季度GDP的监测和预测能力。混频数据模型(MIDAS)可以利用混频数据,避免高频数据降为低频数据时的信息流失,提高了宏观经济监测预测的准确性。研究发现,出口是造成金融危机阶段中国经济增长减速的主要成因。而且,混频数据模型在短期预测中国宏观经济方面具有比较优势,在实时预报方面具有显著的可行性和时效性22。
在利用互联网大数据监测预测宏观经济方面,张崇23等发现网络搜索数据与居民消费价格指数(CPI)之间存在一定的先行滞后关系。他们建构的模型具有很强的时效性,比国家统计局的数据发布提前一个月左右,而且与传统的预测方法相比,模型还具备一定的转折点预测能力。彭庚24等利用Google提供的关键词搜索数据,采用改进的逐步回归方法分层建立了三个模型来预测失业率。结果发现,三个模型的拟合优度均在90%以上,说明网络搜索数据对经济、社会问题可以进行有效的预测。董倩25等基于百度提供的搜索数据,对全国16个城市的二手房价格和新房价格进行了拟合和预测。结果发现,网络搜索数据不但很好地预测了房价指数,而且比官方数据发布提前了两周时间,具有很强的时效性。
除了利用网络搜索数据以外,与互联网相关的电子商务和业务交易数据也被开发利用了起来。2011年9月,阿里巴巴集团旗下的阿里研究中心针对网络零售消费品的价格情况发布了全国首个“网络零售价格指数(iSPI)。网络零售价格(internet Shopping Price Index)是概括网络零售交易商品一般价格水平的指标。它建立在淘宝交易平台汇聚和实时积累的海量交易行为数据基础之上。目前,淘宝网是国内最主要的网络零售交易平台,基于淘宝网的iSPI可以大体反映国内网络零售渠道的一般物价变动。2012年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数),该指数系国泰君安研究所对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后得到的综合性投资景气指数。旨在通过对中小投资人真实投资交易行为的量化解读,更好地了解投资人对市场的预期以及当前的风险偏好等信息。此外,基于上市公司经营报表统计、券商投行研报看涨看跌指数(可按地域/行业/经营领域细分)的分析,也可以为宏观经济运行提供重要参考依据。
通过回顾和梳理国内外利用互联网大数据对宏观经济监测预测的研究后不难发现,目前国内在这一领域的研究和应用还有很大潜力和空间。具体体现在以下三个方面:
传统宏观经济数据在很大程度上依赖于调查统计。在准确性与时效性的权衡上,官方统计部门通常会为确保准确性而牺牲时效性。这就必不可免地导致数据公布时间的滞后。而为了时效性而放弃准确性,对监测和预测宏观经济形势似乎危害更大。大数据的“大”体现在:一方面,我们可以不再依赖各种统计数据。各种非统数据,非结构数据都可以成为利用的资源。搜索数据、社交数据、微博、微信、论坛等都可以用来监测和预测宏观经济。在这方面,国外已经进行了许多有益的尝试。另一方面,大数据的收集渠道不再局限于统计调查,因为数据类型的多样化拓展了数据收集的渠道和范围,各种文本、图像、视频、广播通过大数据技术和方法都可以成为获取信息的对象和渠道。而且相比较人为因素占很大比重的统计调查,从网页、电子邮件、搜索引擎、社交平台上获取的数据信息在一定程度上更加真实可信。
监测预测宏观经济总量(例如GDP增长率)是国内研究一直关注的重点。但是与国外相比,我们还存在较大差距。差距体现在,一方面国外已经把大数据方法和技术应用到与宏观经济紧密相关的房地产、股市、汽车、旅游、医疗以及失业率等先行领域,而我国在这些反应宏观经济先行领域的研究还比较少。另一方面,尽管大数据进入我国时间不长,但它已经在国际范围内引起了极大关注,各国纷纷将大数据上升为国家发展战略,希望在大数据领域居于世界领先地位。2015年8月19日,国务院常务会议通过了《关于促进大数据发展的行动纲要》,指出”开发应用好大数据这一基础性战略资源,有利于推动大众创业、万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势”。这意味着大数据在中国迎来了发展的绝好时机。所以我们一方面要借助国家政策顺势而上,乘胜追击,使大数据建设和发展步伐赶超国际水平;另一方面,全面铺开大数据在宏观经济各领域的研究和应用,特别是监测预测宏观经济方面,充分利用大数据方法和技术,使大数据不但能够为宏观经济总量监测预测服务,也能为与宏观经济相关的交通、医疗、就业、社保等民生领域服务。
2013年,国家信息中心李俊峰研究员基于“克强指数”中的工业用电量预测我国宏观经济触底回暖。同年10月,专家根据“企业发展工商指数”课题组自研自发的“企业发展工商指数”预测中国将企稳回升,经济形势向好的预测,而后的经济形势印证了预测的准确性。尽管如此,我们还是要看到,我国现有的预测模型因为很大程度上依赖于传统统计数据,所以监测预测周期长,已有的多是年度、季度、月度模型。然而,无论国家宏观经济政策、企业经营策略还是个人消费计划都对整个宏观经济的及时把握有很大需求。当前的宏观经济监测预测能力还不足以完全满足经济、社会发展需要。Vosen等26建立的零售业搜索指数不但成功预测了美国个人消费情况,而且比美国会议委员会消费者信心指数(Conference Board Consumer Confidence Index, CBCCI)和密歇根大学消费者信心指数(The University of Michigan Consumer Confidence Index, UMCCI)在预测方面更加准确,而后两个指数就是基于社会调查的统计数据计算出来的。所以我们必须加快宏观经济监测预测的理论与方法研究,借助国家大数据发展的良好契机,真正服务于国家宏观经济发展,引领大数据世界潮流。
通过回顾国内外现有研究成果,从数据来源的角度,我们建议由国家宏观决策部门牵头,尽快整合互联网相关数据源,构建基于互联网数据的宏观经济非统计指标监测预测应用平台。围绕重点产业活跃度、区域经济关联度、企业生产经营状况、宏观经济走向社会预期、社会消费热点、区域人口迁移、境外投资趋势及风险分析、全国就业形势、大宗商品供求及价格走势、社会通胀通缩预期、重要商品价格异常波动、外贸订单变化趋势、全球经贸合作、国民经济动员潜力等方面,构建大数据宏观经济先行指标和现时预测指标库,建设基于回归模型、时序分析、神经网络等的大数据宏观经济预测方法库和模型库,逐步形成基于非统计数据的宏观经济监测预测体系,提升我国宏观经济形势分析以及重点行业、重点区域发展即时监测的大数据应用能力。具体来说,可以从以下五个方面整合数据资源并开展研究和应用工作:
随着电子商务的发展,目前我国经济运行中的很多交易行为都完全或部分在互联网环境下完成。根据商务部电子商务司测算,2014年我国电子商务交易额达到约13万亿元,而全年社会消费品零售总额为26.2万亿元,我国电子商务交易额已经接近零售业总额的一半27。因此,基于国内主流电商平台的用户消费行为数据进行分析挖掘,是监测我国宏观经济运行的重要渠道。目前,国内电商网站中,阿里巴巴集团对于用户消费行为数据的分析挖掘已经非常成熟,提供了覆盖阿里电商平台数百万种商品的数据,包括淘宝搜索指数、淘宝采购指数、阿里采购指数和阿里供货指数四类数据,并支持按照地域细分。这些数据能够精确反映阿里电商平台用户消费情况,能在很大程度上反映电商行业运行情况,并折射出全国和各区域宏观经济运行的基本情况。但这些数据的缺点则在于,由于其仅为电商数据,不能反映线下交易情况,也难以反映大宗商品交易(如房地产、汽车)和非传统实体商品交易(如旅游、文化、养老、健康)情况。
作为上述主流电商平台网站数据源的补充,以下四类网站数据源的数据对于监测预测宏观经济运行也具有重要参考意义。一是主要房地产门户网站,如搜房网、链家在线、安居客等,这些网站均提供有各地房价走势分析功能,甚至可以细分到省份、城市、区县、乡镇街道和楼盘等区域房地产信息的监测,这对于提高我国宏观决策部门的精细化决策分析能力具有重要意义;二是汽车门户网站,如易车网、汽车之家等,这些网站也都聚集了较为丰富的汽车销售数据;三是酒店旅游类门户网站,如携程网、去哪网、途牛网等,可以反映网民出行、旅游等基本情况;四是比价网站,如惠惠网、一淘网、慢慢买网、盒子比价网等,这些网站收集了国内主要电商网站对于一些一般居民消费品的价格信息,客观上有助于我们监测国内主要居民消费品的价格变动情况。
随着移动通信技术的飞速发展,很多线下网民的行为通过位置定位服务(LBS)技术会被移动服务商记录并保存下来。一些智能移动终端产品服务商就掌控了全国大量人口的地域流动信息,再结合其用户的注册信息数据,事实上已经具备对全国人口流动情况进行精细化统计分析的能力。基于对这些位置移动数据的长期监测,能够发现人口在不同地域之间迁移的信息,再结合对不同地域经济发展、产品结构、人口规模等数据的综合比对和分析,就能够对不同地域的就业情况、旅游交通情况、经济贸易往来情况等信息进行大数据监测分析。
随着社交网络的不断发展,网民会通过微博、博客、微信、论坛等自媒体渠道表达对经济社会运行重大问题的看法和意见。目前,国内一些商业机构,如新浪财经频道就推出了大数据平台,提供了A股、美股和期货市场的新浪财经频道网民关注度和新浪微博网民情感倾向性等数据。后续可以开展更加系统化的基于社交媒体的网民经济预期分析,如分析自媒体渠道网民态度倾向性(按地域、行业细分)、网民关注宏观经济问题热度变化等;开展国内宏观经济研究知名专家学者、学术智库在媒体发表言论的实时跟踪、态度倾向性变化分析等,从而为政府宏观决策提供数据参考。
搜索引擎是互联网用户查找信息的首选途径,因此对搜索引擎用户搜索关键词的分析,是了解互联网用户真实需求的一个重要渠道。目前,百度和360是目前中国搜索引擎市场排名第一、第二的两大搜索引擎服务提供商,两家均提供有搜索指数数据可供公开查询,后续可以整合这两家搜索引擎服务供应商的搜索指数数据开展宏观经济监测预测。搜索指数数据的优点,是能够全面反映互联网用户方方面面的需求信息,而不像电商等网站只能分析用户的某一方面经济行为。但其缺点则是无法精确判断搜索用户的真实意图,同时也难以监控这些用户后续的购买交易等行为。
随着互联网应用的不断普及,证券、期货、大宗商品等金融交易已高度网络化,基于这些在线交易所产生的数据具有很强的挖掘价值。在证券交易行业,券商对于大数据的重要性已经有了高度共识,特别是在市场行情预测等方面,起步非常早。在期货市场以及大宗商品等场外交易市场,对交易数据的综合分析也得到越来越多企业的重视。我国的大宗商品场外交易市场经过十多年的发展,已形成一个新兴行业。在一些重点领域,如棉花、钢材等,大宗商品交易市场的交易量已经占到全国总交易量的一半以上。一些互联网公司同样聚集了该领域的大量数据,如金网安泰公司为全国370多家大宗商品交易市场(约占到国内近2/3合规市场)提供了大宗商品交易平台软件,从而积累了大量原始交易数据。对这些数据源的后续挖掘和分析,对于宏观经济监测预测也具有重要意义。
随着大数据的飞速发展,国际学术界和宏观经济政策制定者已经意识到大数据对宏观经济分析的革命性影响,并逐步尝试将大数据的概念、方法、技术和宏观经济分析结合起来。本文对宏观经济监测分析中的互联网大数据研究和应用进行了初步探讨,希望能够对未来政府和学术界相关研究提供有益借鉴。