APP推广合作
联系“鸟哥笔记小乔”
快到年底了,聊聊数据可视化
2020-12-18 17:20:00

    年底快到了,又到了“打工人”做汇报的时候,也许你负责市场部,可能你是销售负责人,或者仅仅汇报个人在几个项目中的表现,无论怎样,你都不可能把原始数据展示给大家,你或多或少会采用某种“可视化”的方法,直观传达你想表达的重点信息,那么问题来了,可视化包含什么,怎么做可视化,有哪些方法可以做好可视化?

 

    有人把可视化简单理解,不就是Excel上画画图表吗?可以说这属于可视化,但仅仅是可视化在Office软件里的一种表现形式,可视化的历史及发展远不止于此,比如这个1812-1813年拿破仑进军莫斯科的历史事件的流图可视化(作于1869年)被誉为史上最好的统计可视化。




    可视化对应两个英文单词:Visualize(可视)和Visualization(可视化),前者是动词,意即“生成符合人类感知”的图像:通过可视元素传递信息。后者是名词,表达“使某物、某事可见的动作或事实”;从我们比较熟悉的角度来说,可视化是利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,也就是对某个原本不可见的事物中(如大量堆叠的数据)形成可感知的可视信息(如图形、符号、颜色、纹理)的过程或能力。

 

    可视化实际上综合了计算机图形学、设计、心理物理学、数据科学和人机交互等多门学科,它们之间的关系是,心理学和设计学是基础,而计算机将其推到了智能层面。

 

    我们用一个很简单的例子来说明什么是可视化,来看第一幅图,请你找出“5”


    接下来第二幅,请你找出“5”,发现容易多了,可视化就是这个含义,将要表达的东西一目了然呈现。


    用科学的解释是,它运用了视知觉里的“前注意视觉”原理, 人的“前注意”这套系统掌控我们分辨视觉差异在哪里,而不用理解整体事物是什么,所以在这阶段人几乎不需要努力,甚至意识不到它的发生,自然而然地“看”到了。

 

    在信息学科中,最基本的模型是“数据、信息、知识、智慧”即DIKW,它以数据为基层架构,按照信息流顺序依次完成数据到智慧的转换。而看着是反过来,尽可能让用户以少量的认知成本,迅速理解你要表达的含义,进而对整个数据集、整体业务有一个全面的认知。

 

    数据可视化是商业智慧(BI)的集中表现形式,现在越来越多的企业有了BI部门,商业智能是对商业信息的收集、管理和分析的过程,目的是使得企业各级决策者获得知识或洞察力,促使他们对企业做出有力的决策,BI要提取出数据中的商业价值,再通过可视化的方式分析、解释、呈现给更多的用户,后面这个过程是和数据可视化是重合的,如下图:

来源:https://webpages.uncc.edu/krs/courses/6010/ 及 百度大数据报告


    我们再简化一下,只有三个环节:数据、设计和故事。起初是“数据”,但数据不够直观让用户读懂,就有了“设计”,最后,根据可视化设计,提炼成为“故事”或者“知识”,自己可以得出结论,或者演示给别人。




数    据


    数据是可视化的基础,这点甚至已经深入到每个可视化工具中,比如Tableau,首先需要导入用户数据,否则不可能生成一个新的数据可视化图。

    全球数据产生量到2020年,将达到35.2 * 1021字节,像淘宝每天在线商业交易日志高达50TB,包括类目、商品信息等“物理”数据,还有用户产生的下单、评论、社交互动等消费行为数据,这些都是数据可视化的原材料。


1、数据收集

 

    通常企业里面至少有两个部门管理数据,你可能在BI部门或市场部门,不过你要找到数据部门的同事,可能还要经过运维部门来提取日志,他们会问你,到底你要什么数据,把需求说清楚,还有很多线下数据,你都要想清楚。

 

    不同的公司获得数据范围不一样,在这篇文章,我们假设是营销、消费场景,还是建议你阅读一下我们已经分享过的《CDP的12种常用数据来源》,里面列明了可能获取的数据来源:


 

1) 线下店面线上销售数据

2) 网页浏览数据

3) 市场调研数据

4) 客户服务数据

5) 销售部门数据

6) 广告平台产生的数据

7) 网络数据分析后的数据

8) 营销自动化平台产生的数据

9) 用户会员数据

10) APP产生的数据

11) 考古数据(比如存在以往计算机里的数据,故纸堆里的数据)

12) 可穿戴设备以及更多的物联网数据

2、数据清洗


    数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。由于上述数据来源非常广泛,我们要清洗掉数据中的“噪声”、“数据错误”、“数值重复”,将不完整的数据做适当补充。

 

    这个过程里需要将“数据格式”调为统一的格式,也许你习惯采用在Excel录入处理数据,但大部分数据并没有那么简单。有大量非结构化数据,你需要学会使用别的方法,比如会用分隔符分割你的文本,会从JSON转为CSV,会找到XML格式的数据,实际上市面上有一些格式转化、清洗的工具可以助你一臂之力,像OpenRefine、trifacta wrangler、Mr.Data Converter(免费的) 等等。


来源:trifacta wrangler系统界面


3、数据整合与集成

 

    整理完数据之后,恐怕你还不能马上使用,因为数据仅仅是被格式化好的数据,你要按照一个标准整理到你想要的数据集里面。

 

    以我们熟悉的淘宝商品数据举例,可能你清洗过的数据,只能是

“优衣库、男装、160/76A/XS、存货50件”,这一条数据,仍然是比较凌乱,用户的阅读是组块化的,价格、运费、尺码、颜色等,你需要整理到对应的组块里。



    可视化分析通常使用的数据整合,同我们在Excel表里整理的数据还有很多不同,通常Excel表是不用连接数据源的,它基本上使用同一张表里的数据,而随着数据的复杂度增加,我们是需要建立虚拟的整合方式,构建一个虚拟层,供很多可视化分析的接口调用,而现在更为复杂的数据联机存储方式,连数据源都不在同一个地方,需要实际位置不同数据源的集成。

 

    在数据整合的基础上,我们利用统计和数据挖掘的方法,对数据进行分析,包括探索式数据分析,然后得到一些信息,再通过可视化的方式加以直观呈现。

来源:联机分析处理OLAP(数据分析的一种方法)


    实际上,数据分析的信息与可视化是一张纸的两面,是可以相互转化的,就好像你在展示数据表与图一样,背后用得都是同一套数据分析和挖掘的方法。但可视化的意义又在于,它能够超越一般的数据分析,这里想举一个经典的例子,统计学家F.J. Anscombe构造的Quartet是一组四个数据集,它们的统计数据非常相似,但是将它们可视化之后却完全不同。




设    计


    设计是一种狭义的“可视化”,正如前述,它要从已经形成了一定分析与挖掘的数据中,通过图形形成可被用户直观理解的“视觉编码”。

 

    正如数据可视化专家Alberto Cairo在他的书中“The Functional Art”说道:对于任何图表和可视化,其首要和最主要的目标是要其成为一个工具,从而让你的眼睛和头脑能够感知超越器官之外的事物。

 

    可视化的设计原则,是各个公司或专家的经验总结,这里想引用蚂蚁集团的“AntV”设计原则,AntV 经过大量的项目实战经验,总结了四条核心原则:准确、清晰、有效、美,这四条原则按重要等级先后排序,相辅相成且呈递进关系。

 

1. 准确

 

可视表达时不歪曲,不误导,不遗漏,精准如实反应数据的特征信息。如下图:某基金收益率趋势图,合理的值域区间可以反映真实的数据波动趋势。

 

来源:蚂蚁Ant Design


2. 清晰

清晰包括两个层面,结构清晰与内容清晰

结构清晰:数据可视化呈现的是一幅作品,它是制作者分析思路的呈现,其布局决定阅读者的浏览顺序。可视化领域可以参照Tableau的界面,比如解释美国不同地区的销售情况,可以用地图以及趋势图来表示。

 来源:Tableau



内容清晰:用图形解释需要遵从一定的符号学规则,因为人受到教育以及在生活中的长期认知已经形成了一定的习惯,你就要用尽可能合适的图形来“解释”,如果你还不是很清楚什么代表什么,可以阅读Cleveland和McGill所著述的论文“数据分析的图形化感知和图形化方法”,已深入了解人们如何是编码以及利用色彩的。

 

如果在解释过程中,无法用图形、颜色来说明,不要吝惜,要用少量文字在上面有所解释,或者用好图例,深代表什么,浅代表什么。


3. 有效

 

    可视化设计是有重点的,让用户更加关注什么, 克制不冗余,避免信息过载,用最适量的数据-油墨比(Data-ink Ratio)表达对用户最有用的信息。可视化的目的就是用可视的方式尽量减轻用户的观看负担,不要让用户反复去找。

来源:百度


4. 美

 

可视化设计中还要体现一定的美学因素,好的形式表达可以更加容易吸引用户的注意力,人们可以通过对图片的探索,来发现原始数据中存在的关联,引起他们的思考。所以可视化的美,一定是合理利用视觉元素进行映射,运用格式塔原理对数据进行分组,既能帮助用户更快的获取信息,在一定程度上建立一种秩序美、规律美。

 

稍微提醒一下,再“美”的东西,也不要忘记坐标轴、图例和数据来源等基本数据元素,毕竟不是一篇艺术作品。

 

这里想举一个综合的例子,Ventusky这个可视化网站,可以即时显示世界各地天气的总趋势,左侧是一些关于气候的不同维度。选择不同的维度,地图会根据位置的情况来进行展示,下方是时间维度,可以查看历史的天气

https://www.ventusky.com/ 


故    事

 

    我们回想一下可视化的目的,最终是为了发现蕴藏在数字背后的信息、真相,这个故事首先是要讲给自己听的,然后再讲给别人,故事能够激发出思想,展示出以前难以理解或解释的观点,而讲故事的方式是既简单又复杂的艺术。


1. 讲故事的原则

· 带领观众/用户组块理解和领悟大规模的数据

· 进行直观的比较和对比

· 发现趋势和模式

· 反映可能会被忽略的问题


比如这个前后对比,就可以这样表达

之前
之后


Tableau还有一个“数据故事类型”及说明,也是很好的经验总结


 

数据故事类型

说明

 

随着时间而改变

其作用:使用年表来说明一个趋势。

开头讨论:为什么会发生这种情况,为什么会一直发生?我们能做什么来阻止或促使这种情况发生?

 

下钻查询

其作用:设置上下文,以便您的受众更好地了解特定类别中发生的事件。

开头讨论:为什么这个人、地点或事件与众不同?如何比较这个人、地点或事件的表现?

 缩小

其作用:描述您的受众关注的内容与大局的关系。

开头的讨论:您关注的内容与大局相比会是怎样?一个方面对大局有什么影响?

 

 对比

其作用:表明两个或多个主题的差异。

开头讨论:这些项为什么会不同?我们如何能使 A 表现得像 B?我们应该关注哪个方面,哪个方面做得很好?

 

十字路口

其作用:当一种类别超过另一种类别时突出重要的转变。

开头讨论:是什么原因导致这些转变?这些转变是好还是坏?这些转变如何影响我们计划的其他方面?

 

 

因素

其作用:通过将主题分成不同类型或类别来解释主题。

开头讨论:是否存在我们应该更多关注的一个特定类别?这些项对我们关注的指标有多大的影响?

 离群值

其作用:显示异常或事件的特别异常之处。

开头讨论:为什么此项不同?


2.  善用大屏

 

有人讲到可视化,言必提“大屏”,接下来与和领导展示,面子工程挂钩,有人认为这种“大屏”可有可无,实际工作还是要用电脑“踏踏实实”看数据做分析。我第一次看到“大屏”是2010年前后在阿里巴巴工作的时候,它把产生的每一单从发货地到收货地做了一个动态弧线展示,可以发现每秒钟都有无数订单升起,看起来是很震撼,现在阿里应该已经展示不过来了,但我们当时从上到下都是有数据分析的,而且产品和运营都是在指导行动,虽然也有展示,实际的数据管理同样深入人心。


我个人是这样看待这个问题的:

 

第一, 有些场景确实需要综合决策,比如公安警情分析、疫情群防群控、或者到一个单位内部的生产流水线的进度、各生产设备运营情况,这一点无论是政府还是企业来讲,数字化转型大趋势已经有了,通过数据化决策意识在加强。

第二, 现场决策提升效率,这对于解决实际问题很有好处,过去都要层层审批人工决策,现在大家现场决策,避免人工干扰,高层看到的也是一手、准确的数据,他也好决定判断,现场人都在,找谁问一下。

第三, 对于团队内部的自我激励,目标量化考评(KPI、OKR)、各团队完成进度,做成可视化,每天在办公室或会议室的显眼之处展示,对完成好的团队是一种鼓励,对尚未完成的团队是一种激励

第四, 还有的公司把竞争对手的情况、行业宏观经济的情况,在大屏上展示,时刻洞悉市场的脉搏

 

    其实讲故事的方式,还有很多。同时,故事亦可反过来指导可视化整个项目的行动,获取什么数据,怎么进行可视化设计、展示。在我们越来越强调机器学习的今天,可视化反倒是建立在人类对图像规律的识别远强于计算机这一假说上的,它的实质是利用人的心理特性来产生某种直觉,进而强化某种思考,接下来指导特定行动。



签约作者介绍

陆易斯,互联网和金融复合背景,多个从零到一的产品规划者,曾在百度、搜狗、阿里巴巴、京东、去哪儿等公司,现任诚美创投投资总监,关注消费科技与企业服务方向。




精选文章



职场类:
月薪3万的优化师:5必须4不能和4个容易踩的坑

超全!优化师面试的“潜”规则指导手册~

来看看你的同行,作为优化师,他们最害怕什么?

ocpc智能化投放时代,优化师会失业吗?


宁阿姨专栏:

宁阿姨专栏|我做了4年信息流,经历过这些震惊的时刻

宁阿姨专访|讲真,你以为的不是你以为的


干货类SEM:

2020年SEM小搜投放指南:竞价小渠道你做到极致了吗?

ocpc不好控制?高能优化师也可以试试ecpc

百度搜索OCPC效果不好?大搜OCPC的7种出价玩法解析


信息流投放:

加薪指南:信息流账户效果差?教你超实用的账户放量技巧

教你几招 “高转化” 的信息流实操技巧,直接C位出道


媒体机制、创意类:
用这套数据分析终于爆量了!!之前你就没找对方法

投了几千万,搞懂的广告竞价机制在这!

优化师头秃从写创意开始?不妨用这个拯救你的发际线~

批量上计划,创意写不出直接抄?按照这3步,轻松产出高质量创意


知识问答:

同是做ocpc,为何你的不起量+无效果?5千字经验总结(上)

同是做ocpc,为何你的不起量+无效果?5千字经验总结(下)

如果你的Ocpc没有效果,建议先了解这11个知识点-上

如果你的Ocpc没有效果,建议先了解这11个知识点-下




来个“分享、点赞、在看”呗

运营那些事儿
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
运营那些事儿
运营那些事儿
发表文章38310
确认要消耗 0羽毛购买
快到年底了,聊聊数据可视化吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接