APP推广合作
联系“鸟哥笔记小乔”
这可能是你看过最“硬核”的小红书算法
2022-07-04 10:16:15

这是一篇哈佛医学院的HMS学术文章,一个叫Nsoesie和他的小伙伴们分析了医院停车场的车辆数量和互联网搜索趋势,得出了疫情最早在19年8月在武汉开始。当然这一说法被哈佛医学院自己否了,理由是不适当和不充分的数据、对统计方法的滥用和误解,以及挑选互联网搜索词。事情并没有随着问题的发现终止,Nsoesie这些人的说法得到了媒体的广泛报道。

 

我们来把整个时间进行简单概括,大致就是——很多数据说明医院里的车多了;车多了,肯定是看病的人多了;看病的人多了,肯定是得了新冠肺炎;同类类比,南京中华门景区旁边是市第一医院,直线距离1.1公里。除了一个小停车场、一个巷子、医院地下停车场,没有其他停车位,小停车场和巷子日常是停满了的。国庆假期到了,医院停车场满了。得出的结论是——南京爆发疫情了。

如果从现象推原因,事实会差多少?上不了台面的科研骗局,但是用脚投票的大众选择相信,不相信的人却别有用心的传播。

对应到运营行业中,是不是很像整天方法论、刀法、套路、核心、SOP的某些人?从结果拆方法,方法汇总复用告诉100个人。只要有1个人做好,就可以说“你没有做好,别人能做好,是你的问题”。哲学中有个朴素的观点是“实践是检验真理的唯一标准”,而实践之所以作为真理的检验标准,这是由真理的本性和实践的特点决定的。

做火了一两个账号/甚至没做过账号,总结出的运营经验语句都不通顺,前后经不起推敲,而大家已经掏钱上车了。如下图,其实所有需要分发内容的APP都是这个逻辑。

所以这篇内容我不会写那些网上一搜就会搜到10篇有9篇一样的小红书算法内容,同样和上篇内容一样做不到通俗易懂,甚至枯燥,看了不知所云。但相信我,看完你们会有很大的收获。也许业务中的一些小的问题终于得到确认,可能看待小红书运营的角度更加的多元化,或者学会了更加具象的思维。想听刀法、方法论、扯淡的可以点右上角的×了,如果你们想从更底层去一点点认知自己在做的平台,这篇内容如果对你们有帮助那就太好了。我扒了很多论文、论坛以及找来了不少小红书公开演讲的PPT梳理总结,与实际业务相结合,欢迎关注点赞留言。

很多人经常说小红书算法,大部分人从产品角度出发,少部分人从运营角度出发,几乎没有人从技术角度出发。算法是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。定向A➡定向B,可能是男性和女性,也可能是国王和皇后。我们应该先解释A和B,而不是讨论怎么从A➡B。

从产品角度出发没有什么大问题,但是有两类大点,即产品的背景及使用。产品的背景包括解决什么需求、具体的使用场景是什么样、目标用户是什么。产品的使用包括体验、UI、美工、交互。我看了大多数人对小红书算法的分析,是从UI角度出发,即使用者界面出发,其实是相当不准确或者说浅层次的。UI角度出发,抖音和小红书相似程度是非常高的。抖音的首页-推荐、关注、同城和小红书的首页-发现、关注、同城基本一致,消息页和我

的页面也基本一致,那么算法和逻辑就一致吗?

差的太多了,反映到结果上,我们抖音和小红书同样的都做了200万粉左右,一个基本没有任何变现,一个收益很高。后来我们反复复盘,平台就像那些年我们追的女孩子,没有人永远年轻,但总有人正在年轻。即使运营了很多年,我们对当初的这个女孩也时常感到陌生。而平台也总会诞生新的机会,给后来者遐想空间。

话不多说,让我们简单的梳理小红书算法。不少段落取自ArchSummit深圳演讲-赵晓萌(小红书算法架构师,负责机器学习应用)、2019阿里云峰会·上海开发者开源大数据专场小红书实时推荐团队负责人郭一的发言、以及秦波(推荐引擎北京工程负责人)、马尔科(小红书大数据组工程师)的帖子/PPT。如有侵权,联系修改或者删除。

小红书社区是一个分享社区+电商的APP,分享社区通常意义上都是以女性为主,少量话题引导。每天平台生产的内容,要如何转发分发给用户,让用户看到用户想看的,这是算法需要解决的问题。

对于小红书来说,社区提供用户黏性,为电商引流,电商把这部分流量变现,在APP里形成闭环,社区和电商互相推动。对于算法团队来说,有社区的用户数据,有用户在电商版块的行为数据,如何把两边的用户行为连接起来,更好的理解用户,是算法的根本出发点。

现在大家普遍认可的都是下面这个流量分发模型,系统根据用户互动效果进行评分的体系是CES。实际上太笼统了,ces评分也不知道是出现在整个推荐流程中的第一步、第二步、第三步,还是反复计算。接下来我会通过具体的一些案例,从技术的角度去解释。

如果有看过我上篇讲搜索流量的小伙伴应该有印象,一篇笔记的搜索流量相对稳定占位,而推荐流量是笔记成为爆款的核心。小红书线上推荐的流程主要分为三步。第一步,从小红书用户每天上传的笔记池中选出候选集,通过各种策略从千万条的笔记中选出几千个候选集进行初排。第二步,在模型排序阶段给每个笔记打分,根据小红书用户的点赞和收藏行为给平台带来的价值设计了一套权重的评估体系,通过预估用户的点击率,评估点击之后的点赞、收藏和评论等的概率进行打分。第三步,在将笔记展示给用户之前,选择分数高的笔记,通过各种策略进行多样性调整。

那么小红书是如何从每天的笔记池中选出候选集进行初排的呢?

小红书的内容图文并茂,用户产生的内容图片多,质量很高。用CNN(卷积神经网络)提取图像特征,用Doc2Vec(文本到向量模型)提取文本特征,通过一和简单的分类器就能把用户分到主题中,而主题是人工标定的上百上千个主题。这是初排。

CNN和Doc2Vec具体是怎么提取笔记进行分类的?

关于图片的识别,小红书是一个非常视觉的社区,图像很多,小红书用图像提取特征就已经能达到良好的效果,准确率大概是85%时覆盖率能达到73%左右。加上文本以后效果更好,准确率达到90%,覆盖率达到84%。

图片这是第一个在内容创作中需要注意的地方,对图像的夸张识别到什么程度?

我们有一次发幼儿、中小学的教育案例,拍到了角落翻开来的书上关于母婴胎教类的两行字,肉眼都看不清,违规发警告说涉及到婴儿遗传等敏感内容,账号不被推荐3天。后来反复查找原因,才发现这个问题。这里再举一个更常见的例子,涉及到了GBTD模型里的机器深度学习。小红书上流行分享治痘,有很多脸上有很多痘痘怎么治好的笔记,怎么把这些观感其实不适的内容推荐给要看的人是一个问题。当小红书尝试用CNN model做这个事的时候,发现无论照片是全脸漏出、半脸、1/4脸甚至只有少量的脸部器官,都可以很好的识别甚至识别图里的文本,对反作弊有一定的帮助。所以,不要在图片上进行任何夹带私货,图片识别+图片文本识别,基本上准确率有90%。

再讲一下文本的向量表示,文本的向量表示有非常多种,其中一个比较有名的向量表示叫做 Word2Vec,是 Google 提出来的它的原理非常简单,其实是一个非常浅的浅层神经网络,根据前后的词来预测中间这个词的概率,优化预测的时候模型就得到了词的向量表示。同样的这个词的向量表示在空间里也是有意义的,相似的词也处在相近的空间里。这个模型比较有意思的是,把向量拿出来随时可以做向量运算

女人到男人之间的那个指向的向量,和皇后到国王之间是一样的,所以我们知道其中三个,就能算出另外一个。假如我们的笔记重点是“自驾”和“露营”,Word2Vec据前后的词来预测中间这个词的概率,可能是装备、路线、西藏、过夜、海边、周边、攻略,推送到对应的用户页面。

用户画像和笔记画像是什么?在算法中扮演什么角色?

 

小红书推荐预测模型已经演化到了GBDT+Sparse D&W的模型。主要有9个预测任务,包括click、hide、like、fav、comment、share、follow等。点击、保持、喜欢、评论、分享、关注。点击是小红书最大的模型,一天大概产生5亿的样本进行模型训练。GBDT模型中的笔记分发,有非常多的用户行为统计,产生了一些静态的信息和动态特征,用来描述用户或者笔记。

通过用户画像和人口统计信息来描述用户,比如性别年龄这些静态信息。笔记分作者和内容两个维度,比如作者打分、笔记质量、标签、主题。动态特征虽然不多,但是非常重要。动态特征包括用户在浏览和搜索中有没有点击、有没有深度行为等类似的用户反馈。这些交互的数据有一个实时的pipeline从线下直接放到线上的模型里,在线上会利用这些数据对点击率等交互质量的指标进行预测,然后根据用户和笔记的隐形分类进行推荐。

关于动态特征的提取,小红书用的是Doc2Vec模型,也叫做相关笔记。相关笔记的要求是什么?推荐的笔记和用户在看的笔记,最好讲的是一个东西。比如说同一款口红、同一个酒店、同一个旅游城市、同一款衣服,可能不是一个酒店,但是是类似的酒店。

可能不是同一个旅游城市,但可能是类似的旅游城市,是不是很难理解?那我们再具体一点,我如果看的是亚特兰蒂斯这种级别的酒店,那么小红书就不会给我推荐格林豪泰,而是类似同等级别的酒店。如果我经常搜的是雪山/草原/沙漠,那么就不会给我推荐上海/北京/广州这种人文和城市景观突出的地方。

有一点需要注意的是,TFIDF model 虽然基本要求词是一样的,但它可以把一类笔记找出来,就是讲用户心理、描述用户心情的笔记,因为用户描述心情用的词汇很接近,所以这个方法也会把扩展的内容找出来。“绝绝子”是非常明显的一个语气词或者形容词,在小红书有461万+篇笔记。

最核心的实时归因场景业务,是如何制作用户的行为标签的?

用户画像比较简单,不会存在过多的状态,而实时归因是整个实时流处理中最关键的场景。实时归因将笔记推荐给用户后会产生曝光,产生打点信息,用户的每一次曝光、点击、查看和回退都会被记录下来。

 

看一下下面这张图,四次曝光的用户行为会产生四个笔记曝光。如果用户点击第二篇笔记,就产生第二篇笔记的点击信息,点赞会产生点赞的打点信息。如果用户回退,就会显示用户在第二篇笔记停留了20秒。实时归因会生成两份数据,第一份是点击模型的数据标签,下图中第一篇和第三篇笔记没有点击,第二篇和第四篇笔记有点击,这种数据对训练点击模型很重要。点赞模型也和上面几乎完全一样。

 

CES评分参与在算法中的什么阶段?

整个线上推荐的流程,只有在模型排序阶段给每个笔记打分。笔记在笔记展示给用户之前,小红书会选择分数高的笔记通过各种策略进行多样性调整。Score=pCTR*(plike*Like权重+pCmt*Cmt权重...),CES如果参与其中,只是非常小的一部分。我通过爬虫把爆文笔记爬了下来并做成CES形式的Excel表格分析,无论是表现各项数据关系的散点图还是曲线图,都没有一个有规律的图表,所以CES最多用在冷启动,聊胜于无。

综合以上,最后我们还是用比较通俗的话去解释这篇内容想要论证或者体现的观点:

1. 小红书算法是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。不应该从使用者界面或者从已经成熟的账号中去梳理总结方法论,因为梳理总结的只是一系列机制中特别琐碎的小点,更不应该形成所谓通用的方法论。大家工作业务开展也是,很多运营文章一下子就把整个运营流程说全了,我更建议从算法开始了解,工作也是从你实际的理论和认知中开展,并不是照葫芦画瓢。给你飞机让你照葫芦画瓢,好的,你来造。

2. 不要做公司想要推广的内容/你喜欢的内容,而是要做算法觉得用户想看的内容,毕竟算法需要解决的问题就是——把平台生产的内容,转发给用户,让用户看到用户想看的。

3. 对于小红书,算法的出发点是如何把社区的用户数据和电商版块用户的行为数据链接起来。现在小红书的盈利模式主要集中在达人种草,其实是算法团队不够优秀,没有办法提供足够优秀的中台支撑。无论是电商或者广告,其实大家都怨声哀道。

前台主要面向客户以及终端销售者,实现营销推广和交易转换。中台主要面向运营人员,完成运营支撑。后台主要面向后台管理人员,实现流程审核、内部管理以及后勤支撑,比如采购、人力、财务、OA等系统。

算法岗在各大公司招聘线中也是发OFFER最高的一档,目前来看,想做视频内容电商的算法人才会倾向于去抖音和快手。想做传统电商的,会倾向于去阿里或者拼多多。至于图文和纯文形式的电商或者广告,其实各家做了很多年都做的不是特别好。小红书图文能做好,得益于70%的用户群体是女性,社区氛围搭建的生活氛围非常精致。

4. 选择合适的内容很重要,如果内容小众又刚需,那么小红书通过策略选出的候选集相对容易选到我们的笔记。在整个笔记出现在大批量用户的过程中,我倾向于CES评分没有参与在内,预测模型实际上扮演着很大的作用。体现在实际运营中就是,一张图片一句话的笔记火的一塌糊涂、老账号发什么什么火,因为预测模型。

5. 小红书算法对图片的优先级非常高,并且有至少85%的准确率。如果加上文本以后,准确率能达到90%。所以无论是正常的图文、下水不报备的笔记、违规引流的笔记,算法一直是可以清晰无误的查出来的,只不过是运营中台对账号处理的松紧程度有关。例如哪个月要封账号,哪个月要查资质,哪个月要抓引流,算法都有数据,人为去干预就好了。

6. 关于文本的动态特征提取,大家可以重点看一下上面说的预估词以及相关笔记,是一个非常有趣但是又很实用的模型算法,我从普通用户的角度,觉得抖音和小红书这块做的很不错。

7. 小红书算法对笔记内容的好坏,取决于用户画像和笔记画像。用户画像一般是静态信息,注册账号的时候就完成了一大半,性别年龄这些。笔记画像包括做着打分、笔记质量、标签、主题。(主题是我上面提到的人工分类的几百个算法里的主题,并不是下面带的标签或者内容主旨)

8. 在我们浏览推荐页的时候,可以多看看一屏的内容(四篇笔记),特别是用别的账号刷到自己账号的时候,如果一屏还有其他和你一样类目的笔记,重点研究,算法认为你们各方面都差不多,都展示了给用户看。

老赵说运营
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
老赵说运营
老赵说运营
发表文章3
老赵说运营
运营人,专注内容营销,分享干货、提供价值。
确认要消耗 羽毛购买
这可能是你看过最“硬核”的小红书算法吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接