摘要:[目的]为强化畜禽业生产决策和政策引导的科学性、前瞻性,有效预测多变量影响下的禽肉市场变化趋势。[方法]本文以白条鸡为例,综合考虑多重因素对白条鸡交易量的影响,提取50个可能与白条鸡交易量预测有关的变量作为数据特征,对比当前主流的机器学习算法,探索性地提出一种基于机器学习的白条鸡日均交易量预测方法,对禽肉产品供需能力进行量化预测。[结果]ElasticNet、RandomForest和GBRT三个算法预测效果均较为稳定,预测效果从优至劣依次为:GBRT、RandomForest、ElasticNet(MAE分别为:25.30、26.67、28.21);随着时间积累和训练样本数量增加,白条鸡日均交易量预测效果逐步提高;三种算法均具备提前三期的稳定预测效果。[局限]考虑到本文采用的数据特征种类和历史数据量较少,且对行业的专业认识较浅,研究尚有不足之处。[结论]本研究对于量化评估、预测重大突发事件对产业产值的影响具有借鉴意义,有望为政府部门预判产业危机、制定产业调控政策提供理论数据支撑。
关键词: 预测方法;机器学习;白条鸡;制定政策
分类号: TP393
DOI: 10.11925/infotech.2096-3467.2020.0323
1 引言
2018年8月以来,中国多个省份先后发生百余起非洲猪瘟疫情,导致猪肉供给不足,价格居高不下,城乡居民食品消费压力剧增。据国家统计局发布的数据,2020年1月全国居民消费价格指数(CPI)同比上涨5.4%。其中,猪肉价格上涨116%,影响CPI上涨约2.76个百分点,是推动CPI同比涨幅扩大的主要因素[1]。为保障肉类供给和价格稳定,缓解生产和消费压力,鸡肉、鸭肉等禽肉对猪肉消费的潜在替代能力受到各方关注,因而对禽肉产品供需能力进行量化预测有助于提高畜禽业生产决策和政策引导的科学性、前瞻性。然而,影响禽肉产量和交易量的市场因素较多,如供给、需求、价格等。此外,节假日、突发事件等短期外部冲击也可能使市场发生波动,给预测的及时性和准确性带来挑战。近年来,机器学习成为国内外学者的研究热点之一,在处理多变量、多时相数据时表现出高精度、高时效等优势,为监测预测禽肉产品供需市场变化趋势提供了新的解决思路。
本文以白条鸡为例,综合考虑春节、突发事件等多重因素对白条鸡交易量的影响,利用主流的机器学习算法提出一种白条鸡日均交易量预测方法,量化评估2020年春节期间畜禽市场需求的变化趋势,为政府部门预判产业危机、制定产业调控政策提供理论数据支撑。
2 文献综述
学术界对国民经济和农业生产领域的预测研究大多采用传统的时间序列预测方法,如指数平滑[2]、自回归移动平均(Auto Regressive Integrated Moving Average, ARIMA)[3]和灰色预测(GM)[4]等模型。按照预测对象划分,主要聚焦在对产量和价格的预测两个方面。
(1)产量预测。李志强等采用ARIMA模型预测内蒙古年度羊存栏量[5];王晓梅通过建立灰色理论GM(1,1)模型对我国主要畜产品年产量做出预测[6];林绍森等比较了常见的指数平滑、ARIMA和灰色预测模型在粮食产量预测中的效果[7]。
(2)价格预测。刘峰等基于白菜月价格的当前值和过去值构建非平稳时间序列ARIMA模型,能较好地预报未来白菜月价格趋势[8]。虽然时间序列方法具有计算简单等优势,但由于该类模型的自变量少,难以在预测中引入市场变化的多重影响因素,无法及时量化节假日、重大突发事件等对畜禽行业造成的冲击。同时,时间序列预测方法的准确度与历史数据的数量存在正相关性,但本文预测对象——白条鸡交易量具有历史数据较少、可获取的影响因素数据较多等特点,从预测的及时性、准确性角度出发,自变量多、因变量少的机器学习预测方法显然更为适用。
主流的机器学习算法有线性回归[9]、弹性网络(Elastic Net)回归[10]、随机森林(Random Forest)[11]和梯度提升回归树(Gradient Boosting Regression Tree, GBRT)等[12],已成功应用于产业供应链、能源、卫生、交通等领域[13-16],相对传统时间序列预测方法具有一定的优势。董莉等基于网络搜索数据和Elastic Net建立的CPI及时预测模型,有效避免了灰色预测等方法的时间滞后性[17]。康传利等研究基于梯度提升回归树的旅游流量预测模型,发现其比指数平滑算法有更高的预测准确性[18]。近年来得到广泛应用的GBRT算法,在处理影响因素复杂且历史数据较少的预测中表现尤为突出,具有较高的预测精度[19]。韩忠明等提出的早期电影票房预测模型,与随机森林模型、决策树模型和非线性回归模型相比,GBRT模型相对准确率最高[20]。
总体来看,目前对畜禽肉产品交易量或产量预测的研究较少,尤其缺乏综合考虑多重影响因素的动态预测方法研究。在自变量类别较多、因变量历史数据较少的情况下,机器学习预测方法较传统方法表现更佳。因此,本文提出一种融合机器学习算法和广泛特征数据的预测方法,尝试对2020年春节期间白条鸡日均交易量进行短期预测,并对比分析预测效果。考虑到在此期间市场同时受到突发公共卫生事件影响,因此在特征选取过程中也纳入了相关数据。
3 融合机器学习算法和多重因素的预测方法
3.1 总体思路
本文综合考虑春节、突发事件等短期变化因素对白条鸡交易量的影响,从鸡禽类产业、互联网舆情信息、网民需求意愿和相关统计数据等多源数据中抽取可量化的数据特征,利用主流机器学习算法预测白条鸡交易量,提出融合机器学习算法和多重因素的白条鸡日均交易量预测方法。同时,对比不同算法的预测效果,探索随着时间增长、训练样本增加时各算法的迭代滚动效果,分析各算法达到稳定预测所需要的训练样本数量和提前期数。总体思路如图1所示。
图1 总体思路
Fig1. General Train of Thought
按照上述思路,笔者提出白条鸡日均交易量预测函数,如公式(1)所示。
其中,
代表白条鸡在第t周的每日交易量,φt-1代表鸡禽类上下游行业市场主体及招聘岗位在第t-1周的变化数据,δt-1代表互联网网民在第t-1周的搜索意愿数据,ξt-1代表第t-1周的相关舆情数据,ηt-1代表其他渠道公开发布的第t-1周相关统计数据,函数f拟采用机器学习数值型预测算法。3.2 白条鸡日均交易量预测特征描述
对白条鸡的日均交易量开展预测前,需要预先设定预测算法所需的数据特征,特征选取的优劣会直接影响预测算法的性能。由于当前及近期白条鸡交易行为已受到农历新年和重大突发事件影响,因此,本研究在数据特征选取过程中,兼顾鸡禽类产业、互联网舆情信息、网民需求意愿、白条鸡相关统计数据等多种趋势变化,综合考虑多方面因素对白条鸡交易量的影响。共提取50个可能与白条鸡日均交易量预测有关的变量作为数据特征,包括市场主体特征30个、舆情信息特征2个、搜索意愿特征14个和统计数据特征4个,利用常见的统计方法对每一类特征进行细分、量化及逐周提取,白条鸡日均交易量预测特征如表1所示。
表1 白条鸡日均交易量预测特征(逐周)
Table1 Predict Characteristics of Dressed Chicken’s Daily Turnover(Week by Week)
特征类别 |
特征序号 |
特征名称 |
特征描述 |
市场主体特征 |
F1 |
BREEDING_ADD_YOY |
鸡鸭等家禽养殖企业和个体工商户新增数量同比值 |
F2 |
BREEDING_CANCEL_REVOKE_YOY |
鸡鸭等家禽养殖企业和个体工商户注销及吊销数量同比值 | |
F3 |
BREEDING_RECRUIT_YOY |
鸡鸭等家禽养殖企业和个体工商户招聘岗位数量同比值 | |
F4 |
FEED_ADD_YOY |
鸡鸭等家禽饲料企业和个体工商户新增数量同比值 | |
F5 |
FEED_CANCEL_REVOKE_YOY |
鸡鸭等家禽饲料企业和个体工商户注销及吊销数量同比值 | |
F6 |
FEED_RECRUIT_YOY |
鸡鸭等家禽饲料企业和个体工商户招聘岗位数量同比值 | |
F7 |
SLAUGHTER_ADD_YOY |
鸡鸭等家禽屠宰加工企业和个体工商户新增数量同比值 | |
F8 |
SLAUGHTER_CANCEL_REVOKE_YOY |
鸡鸭等家禽屠宰加工企业和个体工商户注销及吊销数量同比值 | |
F9 |
SLAUGHTER_RECRUIT_YOY |
鸡鸭等家禽屠宰加工企业和个体工商户招聘岗位数量同比值 | |
F10 |
CHICK_ADD_YOY |
鸡苗种鸡企业和个体工商户新增数量同比值 | |
F11 |
CHICK_CANCEL_REVOKE_YOY |
鸡苗种鸡企业和个体工商户注销及吊销数量同比值 | |
F12 |
CHICK_RECRUIT_YOY |
鸡苗种鸡企业和个体工商户招聘岗位数量同比值 | |
F13 |
MEDICINE_ADD_YOY |
生产禽药企业和个体工商户新增数量同比值 | |
F14 |
MEDICINE_CANCEL_REVOKE_YOY |
生产禽药企业和个体工商户注销及吊销数量同比值 | |
F15 |
MEDICINE_RECRUIT_YOY |
生产禽药企业和个体工商户招聘岗位数量同比值 | |
F16 |
BREEDING_ADD_QOQ |
鸡鸭等家禽养殖企业和个体工商户新增数量环比值 | |
F17 |
BREEDING_CANCEL_REVOKE_QOQ |
鸡鸭等家禽养殖企业和个体工商户注销及吊销数量环比值 | |
F18 |
BREEDING_RECRUIT_QOQ |
鸡鸭等家禽养殖企业和个体工商户招聘岗位数量环比值 | |
F19 |
FEED_ADD_QOQ |
鸡鸭等家禽饲料企业和个体工商户新增数量环比值 | |
F20 |
FEED_CANCEL_REVOKE_QOQ |
鸡鸭等家禽饲料企业和个体工商户注销及吊销数量环比值 | |
F21 |
FEED_RECRUIT_QOQ |
鸡鸭等家禽饲料企业和个体工商户招聘岗位数量环比值 | |
F22 |
SLAUGHTER_ADD_QOQ |
鸡鸭等家禽屠宰加工企业和个体工商户新增数量环比值 | |
F23 |
SLAUGHTER_CANCEL_REVOKE_QOQ |
鸡鸭等家禽屠宰加工企业和个体工商户注销及吊销数量环比值 | |
F24 |
SLAUGHTER_RECRUIT_QOQ |
鸡鸭等家禽屠宰加工企业和个体工商户招聘岗位数量环比值 | |
F25 |
CHICK_ADD_QOQ |
鸡苗种鸡企业和个体工商户新增数量环比值 | |
F26 |
CHICK_CANCEL_REVOKE_QOQ |
鸡苗种鸡企业和个体工商户注销及吊销数量环比值 | |
F27 |
CHICK_RECRUIT_QOQ |
鸡苗种鸡企业和个体工商户招聘岗位数量环比值 | |
F28 |
MEDICINE_ADD_QOQ |
生产禽药企业和个体工商户新增数量环比值 | |
F29 |
MEDICINE_CANCEL_REVOKE_QOQ |
生产禽药企业和个体工商户注销及吊销数量环比值 | |
F30 |
MEDICINE_RECRUIT_QOQ |
生产禽药企业和个体工商户招聘岗位数量环比值 | |
舆情信息特征 |
F31 |
CHICKEN_NUMS |
网民提及鸡肉等相关舆情信息数量 |
F32 |
CHICKEN_ EMOTION |
网民提及鸡肉等相关舆情信息情感值 | |
搜索意愿特征 |
F33 |
SEARCH_ SPRING_FESTIVAL |
“过年”一词百度指数结果 |
F34 |
SEARCH_ CHICKEN |
“鸡肉”一词百度指数结果 | |
F35 |
SEARCH_ CHICKEN_PRICE |
“鸡肉价格”一词百度指数结果 | |
F36 |
SEARCH_ FEED |
“饲料”一词百度指数结果 | |
F37 |
SEARCH_ BLESS |
“扫福”一词百度指数结果 | |
F38 |
SEARCH_ ONLINE_OFFICE |
“在线办公”一词百度指数结果 | |
F39 |
SEARCH_RETURN |
“返乡”一词百度指数结果 | |
F40 |
SEARCH_NECESSITIES |
“年货”一词百度指数结果 | |
F41 |
SEARCH_GREETINGS |
“拜年”一词百度指数结果 | |
F42 |
SEARCH_DISEASE |
“疾病”一词百度指数结果 | |
F43 |
SEARCH_VEGETABLES |
“买菜”一词百度指数结果 | |
F44 |
SEARCH_EPIDEMIC |
“疫情”一词百度指数结果 | |
F45 |
SEARCH_TICKET |
“抢票”一词百度指数结果 | |
F46 |
SEARCH_ CHICK |
“鸡苗”一词百度指数结果 | |
统计数据特征 |
F47 |
PORK_NUMS |
猪肉日均交易量(统计口径) |
F48 |
EGG_NUMS |
鸡蛋日均交易量(统计口径) | |
F49 |
BEEF_NUMS |
牛肉日均交易量(统计口径) | |
F50 |
MUTTON_NUMS |
羊肉日均交易量(统计口径) |
(1)市场主体特征
市场主体特征指鸡禽类相关上下游产业的企业和个体工商户等市场主体变化及招聘岗位数量变化情况。主要包括:白条鸡相关鸡鸭等家禽养殖类、鸡鸭等家禽饲料类、鸡鸭等家禽屠宰加工类、鸡苗种鸡类、生产禽药类企业和个体工商户的注销及吊销数量、新增数量和招聘岗位数量,并进行相应的同比和环比变换处理。其中,该部分基础数据主要来源于两方面,包括国家企业信用信息公示系统的企业登记注册数据,以及国家信息中心从58同城、赶集网、智联招聘、前程无忧等主流互联网招聘网站采集的招聘岗位数据。
(2)舆情信息特征
舆情信息特征指网民对鸡肉等相关信息提及量及情感值变化情况。主要包括:网民提及鸡肉等相关舆情信息的发帖数量和网民的对应情感值等。该部分基础数据主要来源于国家信息中心从微博、微信公众号、论坛、博客等主流互联网平台上采集到的舆情数据。
(3)搜索意愿特征
搜索意愿特征指网民对鸡肉、过年和疫情等相关主题的搜索热度。主要包括:“过年”“鸡肉”“鸡肉价格”“饲料”“扫福”“在线办公”“返乡”“年货”“拜年”“疾病”“买菜”“疫情”“抢票”“鸡苗”等词汇的百度指数。该部分基础数据主要来源于百度指数公开发布的上述关键词网络搜索趋势变化数据。
(4)统计数据特征
统计数据特征指与白条鸡日均交易量有关的其他统计数据情况。主要包括:国家农业农村部信息中心官方网站公开发布的猪肉日均交易量、鸡蛋日均交易量、牛肉日均交易量、羊肉日均交易量等统计数据。
当前主流的数值型预测机器学习算法包括线性回归(Linear Regression)[9]、弹性网络回归(Elastic Net)[10]、随机森林(Random Forest)[11]和梯度提升回归树(GBRT)[12]等。
(1)线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,求解损失函数最小时的参数。求解方式有两种:一是基于均方误差最小化的最小二乘法;二是对自变量进行不断更新,使得目标函数不断逼近最小值的梯度提升法。该算法简单易操作,但在自变量较多时容易过度拟合。
(2)弹性网络回归为了减小过度拟合的程度,用最小二乘法最小化损失函数,并加入权值向量中各元素绝对值之和,与权值向量中各元素平方和的根正则化,是一种结合岭回归和Lasso算法的组合模型。该模型收敛速度较快,尤其在多个特征间存在较强相关性时更易保持稳定性,但在特征选择时会降低原始数据所包含的信息维度。
(3)随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。该模型被广泛应用于分类和回归问题上,主要取决于随机森林的每棵CART树是分类树还是回归树。如果是回归树,则CART树是回归树,采用的原则是最小均方差。该模型的优点是较好地解决了决策树过拟合和精确度低的不足,适用于高维数据预测,但具有运算效率低的缺点。
(4)梯度提升算法可以用梯度下降的思想来理解。若将模型的输出值看作一个变量,使损失函数最小化实际上是一个一维搜索问题,从模型的输出值出发,以负梯度方向来搜索最优值。对于新引入决策树划分的每个区域,分别计算其搜索步长,将新决策树在每个区域的预测值与搜索步长合并在一起,便等效于上面的每个区域重新计算输出值。梯度提升回归树的优点主要是非线性变换比较多、表达能力强,不需要做复杂的特征工程和特征变换,能够防止过拟合。
4 实验数据与评估指标
4.1 数据描述
为有效开展白条鸡日均交易量预测实验,本文采用农业农村部信息中心官方网站上公开发布的一年来白条鸡日均交易量(逐周)数据作为预测目标结果,数据时间范围为2019年2月25日(周一)至2020年3月1日(周日),共53周。同时,为有效提取表1中提到的数据特征,同步抓取了4类数据:
(1)2018年2月25日至2020年2月23日(104周)期间鸡鸭等家禽养殖类、鸡鸭等家禽饲料类、鸡鸭等家禽屠宰加工类、鸡苗种鸡类、生产禽药类企业和个体工商户登记注册数据共522 811条,以及这些市场主体发布的招聘岗位数据共1 147 948条。选取两年作为该数据周期是为了便于同比计算处理。
(2)2019年2月25日至2020年2月23日(52周)期间网民提及鸡肉等相关信息的1 072 805条发帖数据。
(3)2019年2月25日至2020年2月23日(52周)期间“过年”“鸡肉”“疫情”“抢票”等14个关键词的百度指数数据。
(4)2019年2月25日至2020年2月23日(52周)期间农业农村部信息中心官方网站上公开发布的猪肉、鸡蛋、牛肉、羊肉日均交易量统计数据。
此外,为模拟真实预测场景,将最终提取的50项数据特征与白条鸡日均交易量目标结果进行T+1错位映射处理,即利用第T周的数据特征映射第T+1周的目标值(共映射形成52周对应数据),以便开展后续预测实验。
选取数值型预测领域较为常用的评估指标进行实验效果评估,其中,对于评估预测目标值不变的情况,采用平均绝对误差(MAE)和均方根误差(RMSE)进行效果评估[9,13,17-18];对于评估预测目标值随着时序不断变化的情况,采用相对平方根误差(RRSE)进行效果评估[21-22]。这三种指标数值越小则代表预测效果越好。
MAE能更好地反映预测值误差的实际情况,如公式(2)所示,其中yi和yi’分别代表真实值和预测值。
RMSE同样可以衡量真实值和预测值之间的偏差,但面对异常值情况时更为敏感,如公式(3)所示。
RRSE更适用于评估预测目标随着评估流程不同或时序演变而不断变化的情况,如公式(4)所示。
5 实 验
为有效评估利用上述方法预测白条鸡日均交易量的实际效果,本文从数据特征、数值型预测算法、时间序列等视角出发,共设计了4组对比实验:
实验一:分析数据特征对预测效果稳定性影响。即保持表1中的数据特征不变,对4.1节提到的52周实验数据集进行5次随机抽样,并分别对抽样后的数据集应用4种不同数值型预测算法,重点评估多次实验下的预测误差值MAE和RMSE是否存在较大差异,验证预测效果是否稳定。
实验二:对比分析不同算法的预测效果。在实验一基础上,侧重对比4种数值型预测算法在5次随机抽样数据集上预测误差的均值表现,即对比分析哪种算法的MAE和RMSE最小。
实验三:对比分析迭代时间序列下的滚动预测效果。即保持数据特征和预测算法不变,评估随着时间推移(训练样本数量不断增加),白条鸡日均交易量预测效果是否存在明显上升或下降的变化趋势。
实验四:分析预测效果在保持相对较优前提下所需的最小训练样本数量。即保持数据特征、预测算法及数据测试集均不变,通过不断减少训练集样本数量,评估分析预测效果维持在较优的情况下所需的最小训练集。
在上述所有实验执行过程中,分别将表1中的市场主体、舆情信息、搜索意愿和统计数据4方面数据特征映射为公式(1)中的φ、ξ、δ和η变量;分别将LinearRegression、ElasticNet、RandomForest和GBRT这4种数值型预测算法映射为公式(1)中的f函数;此外,对于所有实验数据集,均设定最后一周数据为测试集,其他时间数据为训练集。
5.2 数据特征对预测效果稳定性影响
为验证表1所述的数据特征对白条鸡日均交易量预测效果的稳定性,即在保持数据特征不变的前提下,预测效果不会随着算法的不同和训练集的小部分缺失而导致大幅度波动,对52周完整实验数据进行5次随机抽样操作,每次抽样在上次抽样样本量基础上剔除掉一周数据样本,最终形成52周、51周、50周、49周、48周共5个实验数据集,并分别采用LinearRegression、ElasticNet、RandomForest和GBRT等4种算法测试白条鸡日均交易量预测误差范围,实验结果如图2所示。
(a)MAE (b)RMSE
图2 随机抽样数据集对预测效果稳定性的对比结果
Fig2. Results of Random Sampling Data Set on the Stability
从图2可以看出,无论是MAE还是RMSE,虽然LinearRegression预测结果的稳定性表现不佳,即MAE和RMSE数值相对较高(MAE最高62.76、最低41.78,RMSE最高102.18、最低55.59),但其余三个算法均表现出预测效果的稳定性,MAE和RMSE数值波动范围不大,ElasticNet预测结果的MAE最高最低分别为35.08和25.71,RMSE最高最低分别为53.79和36.59;RandomForest的MAE最高最低分别为30.09和23.33,RMSE最高最低分别为50.09和38.07;GBRT预测结果的MAE最高最低分别为29.24和22.71,RMSE最高最低分别为48.95和36.56。分析原因发现,LinearRegression算法的实验效果不佳主要是因为白条鸡日均交易量预测的数据特征相对较多,而预测样本量相对较少,容易造成过拟合现象。
在上述实验基础上,为进一步分析对白条鸡日均交易量具有最优预测效果的算法,即预测误差值最小,分别对比上述5组随机抽样数据实验中MAE和RMSE的均值表现,如图3所示。
图3 不同算法的预测效果对比分析
Fig3. Comparison with Prediction Results of Different Algorithms
从MAE和RMSE评估结果看,预测效果从优至劣排序分别为:GBRT、RandomForest、ElasticNet、LinearRegression,4种算法的MAE值分别为:25.30188、26.67456、28.21178、50.06592,RMSE值分别为:40.72684、42.47114、43.32624、73.35752,GBRT算法均表现出最高的平均预测准确率,而LinearRegression算法极不稳定,且平均误差值较高,不适用于此类问题研究,因此不再列入后面的实验参照中。
5.4 迭代滚动预测效果分析
为分析随着时间推移即训练样本不断增加情况下,白条鸡日均交易量预测效果的变化趋势,将52周实验样本进行切片处理,具体数据集划分方式如表2所示。
表2 迭代滚动预测实验数据集划分方式
Table2 Data Set Partition Method of Iterative Rolling Prediction Experiment
时间切片 |
训练集时间跨度 |
测试集时间跨度 | |
1 |
第1-44周 |
第45周 | |
2 |
第1-45周 |
第46周 | |
3 |
第1-46周 |
第47周 | |
4 |
第1-47周 |
第48周 | |
5 |
第1-48周 |
第49周 | |
6 |
第1-49周 |
第50周 | |
7 |
第1-50周 |
第51周 | |
8 |
第1-51周 |
第52周 |
即第1个时间切片的训练集由第1周至第44周数据组成,测试集为第45周数据,从第2至第8个时间切片开始,训练集和测试集不断滚动叠加单周数据。其中,数据特征和预测算法与之前实验保持相同设置,由于该种实验方式会导致预测目标值不断变化,因此该部分采用RRSE指标进行评估,结果如图4所示。
图4 不同算法的预测效果对比分析
Fig4. Comparison with Prediction Results of Different Algorithms
GBRT、RandomForest和ElasticNet三种算法的RRSE结果呈现出波动下降趋势,说明随着时间不断积累即训练样本数量不断增加,白条鸡日均交易量预测效果不断提升。以GBRT算法为例,8个时间切片的RRSE分别为124.4436%、162.7494%、139.4145%、74.9973%、53.3966%、41.4741%、2.8766%、13.3162%。此外,可以看出,ElasticNet算法在早期预测时波动性较大(第1时间切片下RRSE的高达339.79%),但后期相对稳定。而RandomForest算法在前4期的预测效果要优于GBRT算法,但随着时间推移GBRT算法在后期预测效果更佳。
5.5 预测所需最少训练样本数量分析
为分析白条鸡日均交易量预测效果与所需训练样本数量的关联关系,即分析预测效果在保持相对较优前提下所需的最小训练样本数量,将52周实验样本进行了不同策略的切片处理,具体数据集划分方式如表3所示。
表3 预测效果与所需训练样本数量分析实验数据集划分方式
Table3 Data Set Partition Method of Prediction Effect and Training Sample Number Analysis Experiment
时间切片 |
训练集时间跨度 |
测试集时间跨度 | |
1 |
第1-44周 |
第52周 | |
2 |
第1-45周 |
第52周 | |
3 |
第1-46周 |
第52周 | |
4 |
第1-47周 |
第52周 | |
5 |
第1-48周 |
第52周 | |
6 |
第1-49周 |
第52周 | |
7 |
第1-50周 |
第52周 | |
8 |
第1-51周 |
第52周 |
即全部8个时间切片均选定第52周数据作为同一预测目标,而从第8至第1个时间切片的训练集时间跨度依次滚动递减,从而分析所需的最少样本数量。由于该种实验方式的预测目标值不变,因此可采用MAE指标进行评估,结果如图5所示。
图5 预测所需训练样本和提前期数分析
Fig5. The Relationship Between the Training Samples Needed for Prediction and the Number of Period Time
GBRT、RandomForest和ElasticNet三种算法的MAE结果呈现出明显下降趋势,说明训练样本数量越多则对白条鸡日均交易量的预测效果越好,此外,从第6个时间切片开始,三种算法的预测效果均趋于稳定,可以表明利用第1~49周数据进行训练便可通过第52周的数据特征预测第53周的白条鸡日均交易量,以GBRT为例,8个时间切片的MAE分别为120.8459、114.4232、116.8219、107.3480、59.8887、11.7666、13.6099、16.8542,从第6个时间切片开始,MAE大幅度下降并稳定在20以下。
6 结 语
本文以白条鸡日均交易量为例,综合考虑春节和重大突发事件等诸多因素对白条鸡交易量的动态影响,提出一种基于机器学习的白条鸡日均交易量预测方法,对比分析了LinearRegression、ElasticNet、RandomForest和GBRT等4种主流算法的预测效果。实验结果显示,除线性回归算法的预测效果稳定性表现不佳外,其余三个算法均具有预测效果的稳定性,且预测效果从优至劣依次为:GBRT、RandomForest、ElasticNet、LinearRegression;随着时间不断积累以及训练样本数量不断增加,白条鸡日均交易量预测效果不断提升;GBRT、RandomForest和ElasticNet算法具备提前三期的稳定预测效果。本研究虽尚有不足之处,如数据特征种类和历史数据量较少等,但对于量化评估、预测重大突发事件对产业产值的影响具有借鉴意义,未来将扩大数据获取渠道、综合考虑畜禽养殖因素等,展开更加深入的研究,为政府部门预判产业危机、制定产业调控政策提供理论数据支撑。