APP推广合作
联系“鸟哥笔记小乔”
用户画像分析:如何通过用户热词反推用户特征
2017-12-27 10:13:00


导语:本文分享点是通过用户热词反推用户特征,希望对用户研究、商业分析、数据分析的同事有帮助。



01 什么是用户画像?为何要做用户画像?


在进腾讯前,听说互联网产品都喜欢做用户画像调研,但成功应用没几个。进公司后看了几份用户画像报告,基本点面都覆盖了,数据和分析也没什么偏差,但不知道解决哪些问题。所以这里我先探讨两个问题,什么是用户画像,为何要做用户画像。


刚入调研的行业时候,觉得调研是无所不能,后来觉得调研无所能。其实关键是我们想清楚两个问题:一是我们解决什么问题,二是用户能回答哪些问题。


自从进了腾讯,才大概了解到一个产品工作流程:

商业分析->产品交互DEMO->供应商BD->产品设计->前后台开发->市场推广->用户运营->售后客服->商业分析(重头开始,迭代2)


可以看到,我们常面对三类问题:产品设计、市场和技术。针对这三类问题,用户能回答哪些?答案是显然的:


● 技术问题:用户无法回答。

● 产品设计:产品需求问题,用户仅能意识到浅层问题,但不思考需求背后逻辑、需求主次关系等,故他们的回答仅能参考。所以说产品设计不需要看用户调查。交互设计问题,我们可看用户能否完成主要任务,评估交互操作是否符合用户基本习惯,如信息主次是否分明、色彩色块引导是否合理、图标是否存在认知混乱、逻辑结构是否易于记忆。可见,用研在产品设计方面有所帮忙,但有一定的局限性。

● 市场问题,向哪些用户推广,在哪些渠道推广,推广什么。这些问题都可以通过用研得到结果,可见用户研究对市场推广有较大帮助。


回到刚才第一个问题,什么是用户画像?这个是什么不重要,重要的是我们要解决什么问题。一般而言,用户画像是解决市场推广问题,较少解决产品设计问题的调研报告。



02 做用户画像的前提条件:其实我们早已有解决方案!


作为一个用研同事,我们经常面对两个问题:一是调研报告出来后就凉在那里,似乎没起什么作用;二是产品同事经常报怨,不知道用户有哪些需求,如何解决目前困难。


如前面谈及,用户研究不是无所不能,它仅是提高产品/市场工作效率的工具之一,但不能代替各同事专业技能。或许有人说,这是你们用研没有做好做得深入,没有突破。实际上,让用研同事入门产品设计或品牌推广专业技能,大概需要半年时间,然后才能提出一些专业解决方案。但没人等得起半年,最多等2周,所以调研报告解决不了产品经理的问题。后来,作为用研,我调入到产品组,再后来调入品牌组,每个组呆了半年,自己切入产品设计和品牌推广具体工作,才知道大概需要是哪些东西,如何解决。但假如大家没有这个条件,可让产品经理先说说潜在几个解决方案,然后每个方案需要获取哪些数据来验证是否可行。这样用研项目才会有价值。用户研究再深,也不能代替设计师的活,画出蒙罗丽莎。



03 我们为何要做用户画像?


在品牌组常被问到一个问题:用户具有哪些特征,他们喜欢什么东西?当这个问题经常被提问,就有觉得有解决的必要,其实不是,是我们看到这个答案如何应用:

1.我们希望根据用户心理诉求,策划一些有共鸣的话题/活动,以便SNS传播分享。

2.我们希望根据用户品牌喜好,寻找一些异业品牌、娱乐节目、明星偶像合作,用曝光资源换取优质品牌合作,提升会员的美誉度。

3.我们希望根据用户生活形态,在线下渠道/商家推广会员品牌,投放更加精准。

从上述可以看到,我们回答“用户喜欢什么东西”是有应用价值,因此我们清楚我们需要收集哪些数据,调研哪些问题。



04 真实世界与用户画像的距离


(1)问卷调查法


传统用户画像调研,基本都是通过用户访谈+问卷调查完成。在报告综述的时候,基本都是采取调查数据来总结归纳。但后来我们多少发现,无论我们问了多少个问题,用户画像还是不清晰的。例如,QQ会员用户喜欢看电影,比非QQ会员用户高出10%,但我们不能以是否喜欢看电影作为QQ会员用户核心特征。因为在看电影这件事情上,也有很多非QQ会员也喜欢。如此情况经常发生,是否喜欢逛街、购物、旅游、看书、听音乐、玩游戏等等,您会发现我们很难用几百个问卷调查指标来将QQ会员用户生活形态描绘出来,因为95%指标都缺乏显性差异。这就是现实世界:mess。假如用户问卷调查数据描绘一群人的生活形态,就像下图的感觉,模糊大概知道是两个人,但有点看不清。



若回想为何看不清用户形态,总结原因有两个:


①笔触太粗:即我们提问指标不够多,问卷调查一般可覆盖用户生活形态的100个指标,但在这100个指标中找出有效指标,估计不到10个。


②颜色太少:很多时候我们仅能问用户是否喜欢某件事情(2选项),或根据“非常喜欢”、“喜欢”、”一般“、”不喜欢“、”非常不喜欢“(5选项),甚至评分制(10选项),用户根据自己感知打分,敏感度还是有限的。一般情况下,像评分制,用户根据自己感觉打分,一般仅能区分5-6级别差异。但现实世界是,在一件事情态度上,可以有几千种态度差异,后面会讲述。


(2)外部调查数据与内部后台数据结合法


后来我们尝试将用户后台数据全部提取,大约有300-500个指标。但受信息安全限制,我们仅能拿到自己和合作部门数据,而电商数据、豆瓣阅读喜欢的数据,基本都是缺乏的。不过有了后台数据,用户画像是稍微清晰点。这里清晰并不单是数据指标多,而是纬度更多。因为这300个指标中,经过因子分析,我们发现用户尽在10个纬度上是有差异。意思是说,这300个指标可整合为10个指标,来描述用户差异,其余大部分指标都是基于这10个指标演变而成。下面可以概括有哪些指标:


● 年龄相关:年龄、学历、职业、收入强相关

● 活跃相关:登陆数、关系链数、C2C消息数、群数、群消息数强相关

● 付费习惯相关:各钻开通纪录、财付通充值消费等强相关

● 等级相关:Q龄、现有等级、每天加速

● ……


经过更多纬度,我们可将用户画像描写得更细,如下图。现在大家还是猜得他们是谁?相信很多人会猜到是一个成年男人和小孩,但不太确定他们特质。这就是将外部调研数据和内部后台数据结合输出的用户画像报告。



(3)文本挖掘法


经过后台数据补充,我们可以发现更多有区隔性的特征指标,但用户内心诉求还是不太清楚。在这个时候,我们跟微趋势团队探讨如何利用文本挖掘技术,来还原用户画像。抽象地理解,我们想让每个点不仅是黑白两个颜色,而是有6万4千多个的真彩色。转换成操作方法,就是在一个事情态度上,我们不希望仅检测用户用户是否喜欢,而是检测到他喜欢哪些东西。但这里有几个挑战点:


① 豆瓣、电商、大众点评有详细用户偏好数据,不单止知道用户喜欢阅读玄幻小说,还知道他喜欢看那几本,如70后,80后,90后喜欢言情小说是不一样的。而我们是缺乏这些生活类数据。


② 腾讯优势在于SNS,用户数据就是UGC内容。那么,我们能否拿UGC的内容,分析用户常提及哪些关键字,以此判断用户的特征?


于是,我整理了两个样本,分别是100w会员用户和100w非会员用户,提取最近一个月在腾讯微博所发布文本内容,用微趋势系统做文本挖掘,看看用户常提及那些词。


操作流程是顺利的,但微博文本中存在大量广告杂质,几乎占据整体数据量50%。即使经过数据筛选清洗,用户高频次的词往往集中在两块:


生活用词:如知道,没有,可以,喜欢,开心,幸福,流泪,需要,觉得,希望等。这些词是日常用,故提及率很高,但缺乏具体的含义。


最近流行词(又称新词):如特么,光棍节,牛逼,期中考试,黄钻,年费,呃呃呃呃呃,微博,坑爹,洗个澡。这些新词是基于对比原有词库,机器发现最近出现很多,但受节假日、活动运营、广告等因素严重影响,并非用户原始想法,故有效性也很低。


看来,在无限定主题情况下,用机器挖掘高频次热词来归纳用户特征是困难,微趋势文本挖掘技术更适合在特定关键词下一级关联分析,如QQ会员用户经常提及斗战神,微趋势可以分析用户在提及斗战神时候,关联提及哪些热词,那么我们就知道他们对斗战神的想法是什么。这非常适合做专题分析和传播。


(4)热词反查法

假如在没主题或关键字限制情况下,机器挖热词是困难的,那么我们能否反过来,拿我们想测试热词列表,反过来计算每个词被提及的频次?于是,我们根据百度风云榜(http://top.baidu.com/)整理一份热词表,共有2300个当下热词,来分析用户提及哪些词语/事物更多,以此作为用户画像标签。



我们计算会员用户不同年龄的提及热词的差异,找出不同年龄会员用户关注哪些类目(如科幻片、喜剧片、剧情片),还算出不同年龄用户分别喜欢看哪些不同的科幻片(如13-15岁喜欢看雷神2,23-29岁喜欢看速度与激情)。通过这次用户喜好数据,我们就得出QQ会员用户画像及心理诉求。到此,我们可以看到在某一个纬度上面,用户有千万种态度。用户画像也更加colorful和清晰。好吧,看得出是林志颖和kimi:)



回顾我们日常语言内容,会受到两个因素影响:


①社会流行:如最近流行电影、电视剧、段子、口头禅、网络新词等等。这些语言不管什么人都喜欢使用,成了社会流行。所以,我们日常生活中会提及很多社会流行事物。这些词语的特点是提及率高,用户间无差异。


②个人因素:70后和90后的说话词语是不一样,这是受年龄因素影响;屌丝和白富美说话内容是不一样,这是受经济因素影响。所以,我们可根据某群体的高频提及关键字,来作为这群用户的标签。


所以,若要找出不同年龄的QQ会员用户差异,通过“该年龄会员用户提及该词频次/会员用户提及该词频次”公式即可实现。


在统计关键字提及频次方面,有以下注意事项:


①关键词太长:用户会较少提及,如饥饿游戏2星火燎原,很多人会在微博上输入全称,故我们将关键字缩短,改为饥饿游戏2。


②关键词过于常见:如最近一部电视剧叫《晴天》。用户在微博上会因日常生活常提及这个词,故我们得剔除,不纳入分析。


③品牌词:微博上广告内容占总体信息量50%,拿品牌词统计关键字提及频次难以客观。


最后,利用热词表的提及频次来描述用户画像,他的优点和缺点在于同一地方。优点是,我们可以拿不同项目类型热词表,来查看用户在某个类目上的态度,如航空公司名称、牙膏牌子。只要热词越独特,其统计经准确性越高。只要有一批用户微博文本内容,我们就可以扩展很多类目描绘。但它的缺点是一致的,就是我们得整理出一份全面的热词表,且每个热词都有自己的独特性和当下流行性,不能像企鹅、老虎那样通用。



04 未来是大数据?


刚才提及,用户淘宝的购物数据、豆瓣电影/阅读数据、阿玛逊和当当的书单、百度关键词,用这些数据来描绘用户画像会更加清晰。原因是他们的数据更加精准,是用户喜好、搜索、购买行为数据,故百度、阿玛逊和豆瓣推荐一般都很精准。


其实,在大数据这个词发明之前,统计学、数据挖掘学都发展很多年。以前我们会用大量数据来做关联分析(如买啤酒的人倾向买纸尿布),或做聚类分析(如开通QQ会员有4个细分市场)。所以大数据并不是什么新鲜的事情。只是回到我们第一个问题,我们需要解决问题,只是用户画像,而不是预估用户下一次购买的商品。所以我们的数据精度就没有那么吹毛求疵。当然,我们自身也没这块数据,也是不足。其实,说这段话的意思是,做调研,做什么事情,可以多尝试,但有时候得回过头来看,我们的问题或目标是什么,而方法招式都是辅助的。

最后,POST一下照片原图,看看他们的帅照,哈哈。


注:文中图片均来自网络


作者:邬嘉文

来源:企鹅风讯(ID:Tencent_FSight

本文为作者授权鸟哥笔记发布,转载请联系作者并注明出处。

运营那些事儿
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
运营那些事儿
运营那些事儿
发表文章38112
确认要消耗 羽毛购买
用户画像分析:如何通过用户热词反推用户特征吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接