APP推广合作
联系“鸟哥笔记小乔”
统计模型:如何基于时序分析,预测余额宝的申赎金额?
2021-10-08 16:21:47

 统计模型用好了,预测准确性也很高。


今天和大家分享一个14年下半年作者独立负责的、基于时间序列模型的预测项目:余额宝的申赎预测。

01—项目背景

大家都用过余额宝。


用户将资金转入余额宝,在行业上叫“申购”;将资金转出余额宝,或者用余额宝进行转账、购买等,在行业上叫做“赎回”。总的申购量大于赎回量,对于余额宝来讲,就是净流入;反之是净流出。


好几亿余额宝用户,每天都会发生巨量的申购赎回行为。15年的时候,每天流入流出的规模都在百亿级别。且随着余额宝用户的活跃度不断提升,申赎的规模也不断扩大。


这给余额宝的资金管理带来了巨大的难题。


第一个问题就是,今天(或者近期)余额宝是净流入还是净流出?如果是净流入,基金经理需要将净流入的资金尽可能投资出去,避免滞留手中导致基金收益率下降;如果是净流出,基金经理则需要提前预留到账资金,应对资金赎回压力。


其次的问题是,到底净流入或者净流出的规模有多大?这就是一个典型的预测问题。如果预测的精准,基金经理可以预留比较少的资金安全垫,提升收益率。


因此,我基于余额宝的历史数据,建立了时序模型,预测未来一段时间(7天、14天、30天)以及当天的申赎金额。随着对业务理解的不断加深,预测模型的精准度也不断提升。最终实现当天预测当天的精准度在99%左右,预测未来7天时间的精准度平均95%以上,预测未来30天的精准度在90%以上。


有意思的是,在15年的5月份,阿里的天池大赛也搞了一个赛题,就是预测余额宝的申赎金额。如下图:



链接如下,感兴趣的朋友可以看看,题目里的数据进行了脱敏,且只提供了13年-14年8月份的训练数据,来预测14年9月份一个月的情况


https://tianchi.aliyun.com/competition/entrance/231573/introduction


这个赛题现在已经长期开放了。当初我还作为赛方到现场听了一些团队的分享。

02—余额宝申赎的一些规律

首先讲讲业务在数据上的一些规律,这对建模过程至关重要。每个因素、每个业务规律,都是影响预测准确性的因子。也是模型的业务解释方向。

(1)关于申购

先看申购。先看一个总体转入金额的走势:



申购层面,影响的因素主要有星期周期因素、工资发放因素、阿里活动因素、节假日因素、收益率因素、支付宝的自动转入等。


星期周期:这个是比较明显的因素。由于受到基金特点的影响,在每天15点以后申购的行为将记为次交易日申购。因此周五15点以后的申购将与周一的申购一样,白白浪费周末两天的收益损失,因此周六周日申购很少。


月度工资发放:这个主要和工资的发放有直接关联。很多用户会在发工资后直接转入余额宝。因此工资发放日会带来更多申购。日期往往是1号、10号、15号、月末。


阿里系活动:这个和阿里经常做的活动密切相关。


节假日:和星期因素类似,大型节假日期间申购会丧失收益,因此转入很少。用户会在节假日之前转入。


余额自动转入:很多支付宝用户开通了余额自动转入余额宝。每天凌晨到9点会系统自动转入。


收益率:余额宝收益率的高低会影响大家转入的多少。


为了便于分享,关于影响因素的拆解,主要罗列以上这些。

(2)关于赎回

再看赎回,以下是赎回的金额走势:



在赎回层面,影响的因素主要有星期因素、还信用卡、节假日、消费活跃情况、阿里活动、收益率(及资本市场情况)、转出到卡转账等。


星期因素:和申购类似,周末的赎回是延期到账的。因此整体周末的赎回是要远少于申购的


还信用卡:还信用卡日期经常固定在每个月几个比较大的日期,尤其是下旬的还卡金额较多


节假日:在很多节假日前用户会有较多资金需求,倾向转出


消费活跃:很多用户是用余额宝进行支付的。总体消费的活跃上升,会带来余额宝的赎回也上升


阿里活动:主要就是双十一等大促,对余额宝的赎回影响巨大


资本市场:在股市疯涨、IPO重启的时候,打新资金、流入股市的资金对余额宝赎回产生不小影响。


关于余额宝的申赎影响因素,以上是比较主要的一些,暂时分享到这里。

03—模型的建立

模型的核心逻辑,采用的是时间序列的分解法,将每日的申赎结果,认为是四个因素影响的:长期趋势因素、季节因素、星期因素、其他因素。最后用乘法模型,将每个因素参数相乘:



具体建模过程如下:

(1)数据的预处理

首先进行申购和赎回数据的预处理,进行异常值的剔除。主要包括大额机构的申赎、双十一大促等。


白名单机构的大额申赎,往往单笔金额就好几亿,对模型是有影响的,因此首先要剔除。另外双十一的活动,由于过于低频,且每年情况不一样,也进行数据的剔除。


另外,由于13年余额宝处于飞速发展期,在数据使用上,我直接用14年的数据开始建模,排除业务爆发期的影响。因此大约有8个月的数据作为建模数据。

(2)长期趋势因素的确定

这里的长期因素,其实主要就是上文分析中提到的收益率因素、用户余额宝使用活跃情况等。


从上面的截图中也可以看出,余额宝的申赎金额总体都在上涨趋势中。这里要预测的,就是该趋势。


具体实现上,在做完数据预处理的基础上,进行线性回归模型的建立。



上图其实是个示意图了,数据已经到了17年了。在当时的建模情况下,我使用的数据就是近半年的数据作为长期趋势的预测。过长的数据做预测,将失去意义,并不能很好反映当前的状况。因为历史数据会有较大干扰。

(3)周期因素的确定

长期趋势因素确定后,用每天数据与长期因素做除法,排除掉长期因素的影响,只剩下周期因素等因素。


这里的周期因素,其实包括了星期和月度因素。


星期因素影响因子的确定,有很多办法,我是将历史同周期进行了求动态均值,即最近3个月平均值。



获得星期的参数后,再次用排除长期趋势的参数除以星期参数,排除星期的影响因素,此时主要是月份的影响因素了。


针对月份的因素做同样的处理,则得到月度的因子参数,如下是申购的:



从这个图中明显看出,1号、10号、15号确实是申购的小高峰。


申购、赎回,基本都是基于相似的逻辑,进行处理。

(4)其他因素的确定

到这里,我们获得了长期趋势因素、月度因素、星期因素的因子。但根据第二章节中提到的,影响申赎的因素,还有节假日、活动等。这对节假日,需要再进行专门性的参数获取。


根本方法和之前也是一致的,用排除长期趋势、周期因素的数据后,专门讲节假日(国庆、春节等)前后的数据拿出来,做参数。但是由于当初是14年,可用的数据不多,因此对于长假的预测效果不是很好,但是3天小长假的数据表现还可以。

(5)预测过程

到这里,基本各类参数的计算,就算完成了。在做预测的时候,按照上述的过程,用各个因素进行乘法计算,即可获得未来一段时间的预测结果。


另外,在实践中,其实还有一个场景更高频一些,就是当天预测当天。比如目前是上午11点,预测今天截止下午3点的申赎。针对这个场景,在原来的模型基础上,做了一些调整。主要是加上了当日的数据走势。



由于能看到实时数据,而且只是预测当天数据,输入模型的数据采用了昨日数据以及当天的情况,因此这个预测精度极高,往往达到99.5%以上。


关于余额宝的申赎预测,就先分享到这里,很多细节内容一方面我已经没有原始数据了,另一方面确实写不完。所以就先把预测的思路框架写这些,欢迎各位小伙伴继续关注~

-END-

首席数据科学家
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
超级nice便签砖
超级超级超级奈斯!
1000羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
首席数据科学家
首席数据科学家
发表文章59
用数据科学的方法赋能业务,发挥数据价值,做业界最好的数据科学家。
确认要消耗 0羽毛购买
统计模型:如何基于时序分析,预测余额宝的申赎金额?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接