大数据推荐怎么做(为什么大数据推荐最“懂”我？)-鸟哥笔记

为什么大数据推荐最“懂”我？

　　随着信息技术、互联网技术以及移动互联网的高速发展，人们从信息匮乏时代进入信息爆炸时代。人们越来越难以从大量的信息中找到自身感兴趣的信息，信息也越来越难展示给可能对它们感兴趣的用户。

　　如何让用户更快地找到想要的信息，如何让用户发现自己潜在的兴趣和需求，这对正在互联网化的全社会都是至关重要的。在此背景下，推荐系统应运而生，推荐系统的任务就是连接用户和信息，并由此创造价值。因此，以推荐算法为核心的产品受到了大家越来越多的关注。

　　一、推荐和搜索有什么不同

　　推荐与传统搜索不一样的地方，就是用户其实并不清楚自己的需求，或者他们的需求很难用简单的关键词来表述，又或者他们需要更加符合自身口味和喜好的结果。因此就需要基于用户需求、口味、喜好等信息发现机制的推荐系统（最简单的推荐系统流程如下图所示）。

　　推荐系统流程图

　　构成推荐系统的主要元素如下：

　　1.目标对象集合：要推荐的商品或内容，如图书、音乐、视频、广告等；

　　2.用户数据：用户的属性信息、用户的行为、用户的兴趣爱好等；

　　3.场景：用户所处的环境，如网络环境、什么时间正在做什么等；

　　4.推荐算法：根据用户对物品或信息的偏好（包括用户对物品的评分、用户查看物品的记录、用户的购买记录等）与用户的画像数据进行拟合，学习什么样的用户会喜欢什么样的物品这样一个模型。

　　推荐算法中包含3个重要模块，每一块涉及到的具体算法我们在后续文章中详细介绍，以下只介绍每一模块算法所要实现的结果。

　　（1）召回模块：由于电商平台中的商品数量繁多，比如在某电商平台的商品数约3亿件，商品的类目有10000多组，大的品类也有近40个，因此推荐系统不可能对所有商品进行模型预估，所以需要设计一些召回策略，在庞大的商品池中筛选出几百件或几千件商品，通过多种召回方法进行组合召回，最终得到用户的几百或者上千个候选物品集，在召回模块中，一般使用简单的特征进行快速查询，比如，根据用户最近点击的物品召回相似物品、根据用户兴趣类目召回物品等。

　　（2）排序模块：针对召回模块的候选物品集进行精排，根据用户的所有标签特征、物品的特征以及交叉组合特征，通过排序模型计算，得到用户对候选物品集的评分。排序模块使用的特征比召回模块复杂，目的是计算精确的预测值。

　　（3）后排模块：后排也就是后置排序，在得到用户对候选物品集的评分结果后，如果不进行后排，将会按照评分从高到低下发给用户进行展示。通常这里需要对排序列表进行调整，比如运营干预、优先级调权、指定下发规则等。

　　5.推荐结果集：这里是一个推荐结果或一个推荐结果排序集合。

　　二、标签体系

　　接下来重点说下标签体系。

　　一个推荐系统效果好与坏最基本的保障、最底层的基础是什么？如果让我来回答，一定是标签体系。这里说的标签主要是针对目标对象的，对电商平台来说就是每一件商品；对音乐平台来说就是每一个首歌，对于新闻资讯平台来说就是每一条新闻。在抖音、快手等短视频为主的APP中，画像中那些用户实时变化的兴趣点大都也是来自于标签体系，依据用户长期和短期行为中对于视频搜索、点击、收藏、评论、转发等事件，将视频的标签传导到用户画像上，就构成了用户的实时画像和离线画像中的各个动态维度，在这样的基础上，对用户进行内容的个性化推送，来有效促进APP的活跃并拉长用户生命周期。

　　以资讯类APP为例，简单来说就是建立两套标签体系：

　　一是，给文章进行分类，也就是我们俗称的给文章打标签。

　　二是，给用户打标签，也就是用户看了哪些类型的文章，相应的就会获取到自己的兴趣偏好标签。

　　01

　　▼

　　给文章打标签

　　那么标签体系是如何实现的呢？首先我们先看如何给文章进行分类，以日常所见的资讯类app为例，他们在搭建内容标签的体系基本上趋于一致，但也有一些细节上的差异，最主要的问题，在于文章内容的分类很难穷尽，一开始只能参考市面上已有的分类，并结合一些资料制定一整套内容兴趣偏好体系，在指定分类时，遵循MECE（相互独立，完全穷尽）原则，基本达到了相互独立完全穷尽。

　　然后就要对内容进行分类了，主要采用有监督的学习的算法，但在实际中面临两个问题，由于选择了有监督的学习，就面临必须要提供有标注的样本的基础。一般情况下有三种方式获取样本：

　　第一种方式是用人工对文章进行标注，优点是准确，缺点是效率低，对于算法要求大量样本的要求，成本非常高。

　　第二种方式则是通过一些开源网站提供的关键词进行模型训练，比如可以从搜狗词库获取，优点是成本低，但缺点也很明显，由于不同的分类体系对部分分类的理解不一致，导致分类并不够准确，后期需要耗费大量的人力进行矫正。

　　第三种方式是和一些资讯类app进行合作，获取他们的文章以及分类作为样本。

　　算法模型的训练原理，即通过对样本数据进行分词，抽取实体，建立特征工程，将每一个特征词作为向量，拟合出一个函数，这样当有新的文章时，该文章通过分词，并通过模型计算出结果。但模型并不是能够有样本一次性就能准确的，模型还需要进行测试和矫正。

　　至此，文章打标签的部分就已经完成了。

　　02

　　▼

　　给用户打标签

　　说完给商品打标签，那又如何给用户打标签呢？有两种常用的方式：统计类方式和算法类方式。

　　统计类是以用户一段时间阅读的文章类型作为用户的兴趣偏好。而算法类则会增加更多的影响因素，包括文章阅读的数量、阅读的时间间隔、文章与当前热点事件的关系、用户个人属性（年龄、性别、学历等）等等。前者在算法资源不足同时运营需求量大的情况下可以先行，而后者可以在前者的基础上切分一部分流量对算法模型进行验证和调整，不断优化。

　　由于统计类基本是由人工进行打标签的，从选择文章，到选择用户，再到文章和用户的匹配，而资讯文章的类别非常多，总体的标签量有可能成千上万，当用户数量非常庞大时，单靠人进行打标签，是绝对无法完成的。针对这样的情况，需要利用算法的方式打标签，一般根据用户的个人画像、用户的阅读行为等属性，利用聚类等机器学习算法对用户进行分类，在同一类别里的用户，共享着相同的标签，只要用户能被分到某一用户群中就能自动打上标签，这样，既解决了用户覆盖量的问题，也可以对用户进行精准推送。至此，用户也都有了属于自己的标签，从而可以根据用户不同点击、阅读数据对不同的用户进行不同的文章推送。

　　总的来说，个性化推荐系统本身并不神秘，归根结底还是对海量物品数据和用户行为数据进行分析和挖掘，也许算法规则略有不同，但最终目的殊途同归，都是要达到最精准的个性化物品推荐，从而实现千人千面。

本文系作者：赵同学授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

大数据推荐怎么做

﻿为什么大数据推荐最“懂”我？

为什么大数据推荐最“懂”我？