AI绘画

绘制江湖儿女,绘制世间万物

百分点数据科学实验室:基于数据驱动的销量展望模型建构

编者按:销量展望是企业生产经营中的重要环节,但由于将来市场需要和销量来源等存在诸多不确定性,为企业销量展望提升了难度,如何提升产品全生命周期智能决策分析越来越成为企业关注的重点。百分点数据科学实验室多

编者按:销量展望是企业生产经营中的重要环节,但由于将来市场需要和销量来源等存在诸多不确定性,为企业销量展望提升了难度,如何提升产品全生命周期智能决策分析越来越成为企业关注的重点。百分点数据科学实验室多年来在项目中积累了丰富的实践经验,总结了一套基于数据驱动的销量展望模型建构办法,本文将从展望指标、评价办法、案例应用及效果等方面举行分享。

一、销量展望的价值

1. 销量展望的商业价值

由于供应链的滞后性,企业需要根据将来一段时光内的市场需要制定尽量准确的发卖规划,再根据发卖规划制定生产和采购规划。但将来的市场需要是不确定的,如果企业高估市场需要,就会形成库存积压,进而承担库存成本(包括库存费用和资金成本);如果企业低估市场需要,就会形成缺货,进而承担未实现发卖的机会成本。这时,准确、高效地展望市场需要,即举行销量展望,就成为企业降低决策不确定性,最小化库存和机会成本的关键。

2. 数据驱动的销量展望

企业举行销量展望的传统办法是基于人工经验估计,也可以称为专家法。以一个消费品生产企业为例,制定发卖规划有如下步骤:

(1)各个地带发卖代表拜访当地客户收集需要意向,再根据经验判断,制定地带发卖规划。

(2)总部将所有地带的发卖规划汇总,得到全国发卖规划。

(3)总部根据季度或月度业绩指标调整发卖规划,再返回到地带举行确认。

(4)确认后得到最终的发卖规划,交给生产部门。

上述流程本质上是通过收集客户的需要信息,再经过专家经验调整后得到将来销量的展望。这种专家法能够结合长时光积累的交易经验和人的逻辑判断能力,但完全依赖专家法有一定的局限性:

人工经验可能存在偏见(bias),忽略或放大某些影响销量的因素,例如总部调整发卖规划时可能高估营销政策的影响。专家法有较高的时光成本,无奈对大量商品举行展望,例如对于一些销量很小的品规,地带发卖可能选择忽略,不花时光采集信息。

数据驱动的销量展望可以办理上述课题。数据驱动的销量展望是指利用算法挖掘大量历史数据中可复现的规律,再用这些规律建立模型展望将来销量(图1)。

图1 数据驱动的销量展望

算法挖掘数据中规律的过程其实本质上和人工判断的原理类似,都是在可能影响销量的因素和销量之间建立联系。销量的影响因素包括:销量的历史趋势、周期性、节假日、产品属性、渠道属性、营销投入、竞争情况等(图2)。

图2 销量展望的影响因素

二、销量展望的难点

1. 世上没有水晶球

尽管销量展望十分重要,但在实践中举行高质量的销量展望并不容易,尤其是展望的准确率往往不尽如人意。在深度学习算法已经可以超越人类水平举行人脸识别的今天,为何销量展望仍然如此之难?在讨论这个课题之前,我们首先要明确将来销量不确定性的来源。不确定性可以分类三类(图3):

图3 不确定性的来源

(1)未知但可知:指数据中的随机性,即噪音形成的不确定性。

(2)博弈结果:指系统内参与者对其他参与者行为的预期形成的不确定性。

(3)复杂系统:指复杂系统中极小参数变化经过非线性转换形成的“黑天鹅”类不确定性。

在这三类不确定性中,展望模型只适合办理第一类,而人脸识别就符合第一类不确定性:人脸的结构和特点千百年来变化非常缓慢。第二和第三类不确定性从定义上来说无奈在历史数据中积累足够多的案例,展望模型也就无奈学习相关规律。将来销量的不确定性恰恰不仅来自第一类不确定性。举例来说,竞争对手的行为(定价、新品)会影响企业的销量,但这是竞争对手的行为是基于企业本身策略的预期制定的(博弈结果),无奈通过历史数据展望。“黑天鹅”类的不确定性就更容易理解,去年发生的新冠疫情就是一个鲜明的例子。换而言之,即使我们能收集图2中所有影响销量的因素,也不可能百分之百准确地展望销量。因此,在建立销量展望模型时,我们不能以一个理想的准确率作为指标,而是将模型与基线对比,评价模型带来的效率和准确率提升。

2. 展望、指标和规划

除了展望办法的局限性,销量展望的另一个误区是企业通常会混淆展望、指标和规划三者的关系,形成展望的边界模糊,在实践中无奈展现价值。根据展望专家Hyndman[1]的定义:

展望(forecasting)是基于历史数据(历史销量)和将来可能发生的事件(营销投入),尽量准确地估计某个变量将来的数值(将来销量)。指标(goals)是企业希望将来发生或达成的事件(销量增长30%)。规划(planning)是企业对于展望和指标的应对措施,即需要做什么(营销投入增长15%)才能让展望和指标一致。

在本质项目中,企业一般会每个月制定下个月的发卖规划。由于发卖规划具有考核效力,下个月的本质销量和发卖规划具有很高的相关性。因此,为了得到准确率较高的展望模型,建模人员通常会将发卖规划作为特点加入销量展望模型。但销量展望模型的目的就是为了指导交易人员更加合理地制定发卖规划,那么到底应该先有销量展望,还是应该先有发卖规划?

出现这个课题的根本原因是没有区分展望、指标和规划。在上面的例子中,发卖规划本质上是指标,也就是企业希望完成的销量。销量展望模型不应该使用发卖规划作为特点,发卖规划应该在展望结果的基础上制定。相应的,在评价模型表现时,也不能将模型的展望偏差率同发卖规划和本质销量的偏差率直接对比。

我们使用发卖规划作为特点是因为发卖规划是一些通常无奈观测到的变量的代理变量(proxy variable)。例如,为了完成发卖规划,基层交易人员会加大拜访客户的频率,但拜访次数没有记录,所以模型无奈捕捉这类信息。因此办理这个课题的根本办法是更加全面地收集数据。

三、销量展望办理方案

销量展望属于时光序列展望课题,时序展望通常采用传统时光序列模型,例如ETS和ARIMA,对单序列举行建模。为了提升准确率,可以进一步举行多个时序模型的融合。但该办法在销量展望领域有一定局限性。我们从分析销量展望的技术挑战出发,决定最终模型办理方案。

1. 大规模多层级多时序课题

课题描述:销量展望可以理解为一个多层级多时序课题。具体来说,销量可以根据产品、地理等维度划分为多个时光序列。以一个有两级产品(品类和品规)和两级地理(地带和门店)管理体系的企业为例,最细的时序维度是地带-门店-品类-品规。一个较大规模企业可能需要展望数万,甚至数十万个时序。因此,模型需要对大规模时序组合举行展望。

另一个课题是时序之间存在附属关系,例如品规属于品类,门店属于地带。建模时需要考虑时序之间的交互关系,并且保证附属关系成立,例如品规销量汇总等于品类销量,门店销量汇总等于地带销量。

办理办法:为了捕捉时序之间的交互关系,并且允许相同层级的时序共享信息,我们选择多时光序列联合建模的办法,不使用传统的单时光序列模型。具体来说,我们将最细维度时序(地带-门店-品类-品规)的全部数据输入模型,再通过特点工程提取时序类特点(图4)。在展望阶段,我们对最细维度时序展望结果举行汇总,得到更高层级时序(如品类和门店销量)。

图4 时序特点工程办法

由于以上建模办法针对最细维度时序,在汇总后,更高层级的展望不一定达到最佳效果。一种改进办法是对更高层级时序(品类或地带)分别单独建模,再用Forecast Reconciliation办法统一和优化各层级展望结果。

2. 多步展望课题

课题描述:多步展望是指我们关注多个指标,例如展望将来1-3个月每个月的向量。传统时序模型的应对办法是将T+1时光的展望结果作为T+2时光的输入值,用来举行滚动展望。这种办法的课题是可能形成展望偏差累计。例如,如果模型有展望偏大的课题,那么每步展望时该课题都会放大。

办理办法:我们对每个展望指标时光(T+1,T+2等)分别建立模型,使多步展望更加稳定,代价是需要训练展望指标时光倍数的模型。

3. 间歇性需要课题

课题描述:对最细维度时序建模时,会出现部分时光发卖量为零的情况,这种情况被称为间歇性需要,在销量展望领域是一个常见课题。训练数据中存在大量零值会形成模型偏见,降低准确率。

办理办法:我们采取两个步骤办理这个课题。首先,我们将有大量连续零值时序视为已停产状态,从训练数据中剔除,不对其举行展望。在筛选完时序后,还会有间歇性需要存在。我们根据本质数据情况采用以下办法或办法组合应对:

使用Tweedie Loss等对零值敏感的损失函数训练模型。使用Hurdle Model,先训练一个分类模型展望销量是否为零,再训练一个回归模型展望在销量非零情况下的销量。

四、销量展望评价办法

销量展望模型的评价办法多种多样,可以分为技术指标和交易指标两类。

1. 技术指标

技术指标用来评价模型在验证集或本质生产中的展望准确率。最常用的技术指标是平均绝对百分比偏差(MAPE),其定义如下:

MAPE的优点是作为一个百分比偏差,非常易于交易人员理解。但MAPE有两个显著课题,导致在本质应用中会得到不直观的结果:

(1)MAPE是非对称的:当展望值大于本质值时,MAPE是没有上限的,而当展望值小于本质值时,MAPE最大为100%。

(2)MAPE在本质值为零时无奈计算,这在间歇性需要常见的销量展望领域是严重课题。

为了办理上述课题,人们提出对称平均绝对百分比偏差(sMAPE),但sMAPE存在自己的课题。

我们在实践中采取MAD Mean Ratio作为技术评价指标。该指标适用于间歇性需要场景,并且同样是一个百分比偏差,易于理解。

2. 交易指标

交易指标用来评价模型应用后对交易产生的本质影响,是比模型准确率更加直观和有效的评价指标。交易指标需要根据具体交易设计,还是以消费品企业为例,与销量展望模型相关的交易指标包括库存周转率、订单拖欠率等。

五、对于交易设计的启示

根据项目实践中积累的经验,我们总结两点对于交易设计的启示:

(1)如果想最大程度挖掘数据中的价值,那么设计相关交易和IT系统时需要充分考虑数据分析和建模的需要。举例来说,一般交易系统的数据库设计不会考虑时光切片数据的保存,这就形成分析和建模时无奈获取历史时点的数据,进而形成时光泄露等课题。

(2)销量展望是一种技术工具,需要和交易流程结合才能发挥作用。即使模型达到令人满意的准确率,如果混淆了展望、指标和规划,对模型产生不切本质的预期,或者模型结果无奈被交易人员理解和接受,模型也不会对交易产生本质影响。

六、项目应用案例

1. 背景和需要

某医药企业生产数百种OTC药品,并通过多级分销商体系在全国举行发卖。为了满足企业复杂的经营交易,供应链管理十分重要。该企业的供应链可以抽象为物料流和信息流,两者统称为产销协同链条,具体如下:

物料流:原料仓库-生产线-成品仓库-物流-渠道仓库-发卖。

信息流:需要展望-渠道订单-总部规划-生产规划。

该企业产销协同链条面临以下课题:

(1)产销协同管理链条不同环节数据未打通。

(2)管理环节彼此独立,整个供产销协同执行过程预警信息不统一。

(3)发卖展望不够快速和准确,供销协同动态调整不够快速。

针对第三点课题,实施项目的办理方案为基于历史发卖和库存数据建立销量展望模型,以大幅扩展举行销量展望的品规范围,并且提供更加准确和更高频率的展望为指标。具体而言,由于该企业的最细管理粒度为地带-门店-品类-品规,我们需要对超过90,000个时光序列举行建模;展望频率为月度;展望周期为3-16个月。

2. 方案和效果

上述需要完全符合第三章节中描述的销量展望技术挑战,因此我们按照该章节提供的办理方案设计项目中的建模策略:我们对全部时光序列举行联合建模,对每个展望指标时光分别建立模型,并使用Hurdle Model应对间歇性需要课题。特点方面,我们使用基于销量、库存、营销政策等类型数据衍生出的数百个特点。算法方面,我们采用适合结构化数据并且高效的LightGBM。

利用时序交叉验证办法(Time-series crossvalidation),我们验证模型在历史数据上的MAD Mean Ratio表现,和采用展望模型之前的人工基准办法比较,模型在主要品规上降低了15%展望偏差,取得较好效果。

参考资料

[1] Hyndman, R.J.,& Athanasopoulos, G. (2018) Forecasting: principles and practice, 2ndedition, OTexts: Melbourne, Australia. OTexts.com/fpp2. Accessed on <2021-03-23>.

百分点数据科学实验室成立于2015年,以“大数据科学+”为核心理念,致力于机器学习、深度学习及复杂统计理论办法的研究与创新,结合百分点科技集团交易优势,围绕应急风险展望、产业分析、区域经济分析、环境监测、消费者洞察、供应链优化、设备故障监测等交易场景,构建数据科学算法模型,落地智能决策应用、开展产学研合作、培养数据科学人才等。以AI和BI为重要支撑,数据科学实验室已服务数字城市、应急管理、生态环境、公共安全、零售、媒体出版、制造、汽车、金融等众多行业客户,帮助客户降本增效和科学决策。

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注