APP推广合作
联系“鸟哥笔记小乔”
简单5步,轻松学会数据可视化
2022-12-07 10:10:51

TCC 推荐:大家好,这里是 TCC 翻译情报局,我是张聿彤。作者对现有的可视化工具专职为部分数据可视化人群和职能的现象不满意,认为不能孤立的看数据处理的每个步骤下的数据可视化。他认为最好的看待数据可视化的方式就是不要受限于角色或工具,而是专注于在数据处理过程中哪里需要使用到数据可视化。作者介绍了在数据生命周期中,数据可视化是如何参与到每个阶段并产生影响力的。

如今你能看到的任何地方,特别是在数据驱动的组织机构,你会发现数据可视化。数据可视化是现代公司缔造影响力的关键要素,存在于每个工具和工作流程里。它不仅仅是数据工程师、数据科学家、数据分析员的工作中重要的部分,也是那些职位名称中不带“数据”的人的工作重要部分。数据可视化出现在产品演示中,在 Slack 上的临时通讯中、在提交给股东的领导层报告中,甚至在营销材料中。

我们希望改变人们经常在数据可视化中看到的 以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。

在 Noteable,我们很清楚地设计了视觉可视化来反映当今人们在工作中如何使用数据,而不是他们在 15 年前如何使用数据。无论数据工作者的职位名称是什么,无论数据消费者在解决的问题是什么,我们正在研究他们的期望是如何增长并融合的。我们希望 改变人们经常在数据可视化中看到的以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。我们感觉通过从其他方法中引入优势,会鼓励数据可视化表达的多样性。这意味着,即使我们在开发一个 计算笔记本【1】产品,我们仍然需要跳出传统笔记本的局限性,去看数据可视化,并将其置于更广阔的背景下,即每个人如何使用数据可视化。

(【1】计算笔记本(computational notebook):指能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中的工具。是特别适合数据科学使用的平台,能让数据科学家在同一个文档中编写代码、分析数据和插入可视化。)

1. 现有的工具往往倾向到具体工作/职能

1. Existing tools tend to be specific to the job/function

创建可视化数据的设计工具无处不在的呈现与反映在各方面并没有改变。现有可用的工具通常与某个具体的使用案例相关,并针对案例进行优化。如果你是数据科学家,你会专注于验证方法,通常你会使用 Jupyter notebooks 或者 RStudio;如果你是分析师,你可能会使用 Tableau 或者 Looker;如果你需要制作说明图表,你是软件开发你可能会使用 D3,如果你不是开发你可能会选择 Powerpoint;如果你从业于金融或人力资源,你可能会选择Excel。

2. 很多工具在数据科学兴起前已存在

2. Many tools were designed before the data science boom

这些工具是在数据素养更低、数据驱动的组织机构更少、以及技术限制导致工具功能受限时设计的。当行业继续发展,很多工具随之发展的过程和特定的数据、数据处理方法及专业角色结合得太过紧密,导致这些工具让人感觉过于专业化,例如主要为数据分析师使用的BI(商业智能)工具。

数据处理方法和工具的紧密耦合也是数据角色演变后的结果,随着它们的成熟,反而加强了让工具定义工作:研究生课程宣传如何通过学习 python 计算笔记本成为一名数据科学家,训练营告诉你要学 D3 软件这样你才可以成为一名数据可视化开发,无数的工作坊帮助你学习 Tableau 软件来成为一名分析师。

但是由 分析师 / 数据科学家 / 产品经理 所做的工作并不是离散的、孤立的数据可视化片刻。在这些领域中用的某一数据处理方法在本质上和在另一领域用到的没有任何不同。恰恰相反:如果将一种方法中使用到的技能和方法结合到另一种方法中,可能会非常有用。

我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。

这就是为什么我们应该避开“分析师做的数据可视化与数据科学家做的不一样”的观点。我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。这就是便利规则被创建的原因,例如“不要用饼图”或“从不使用彩虹配色方案”或“最大化你的 数据墨水比 【2】”。即使在孤立状态之外的进行数据分析任务时,这些便利规则仍会受到挑战,但这些步骤是将原始数据转化为洞察和行动的过程的一部分。这个过程横跨从早期对数据的完全探索到最后给股东和领导层的汇报。

(【2】数据墨水比(Data-Ink-Ratio):图形中的数据墨水量除以图形中的总墨水量,即在展示介质/页面上,用于展示数据所用的“墨水”量与介质/页面上全部“墨水”量之间的比值。其中数据墨水指的是图表中不可删除的核心内容。数据墨水比值越大,即意味着数据可视化图表中的冗余信息越少,不可删除的核心内容越多。)

3. 数据可视化生命周期

3. The Data Visualization Lifecycle

简单5步,轻松学会数据可视化

最好的看待数据可视化的方式就是不要受限于角色或工具,而是专注于数据处理过程中哪里需要使用到数据可视化。这些孤立离散的步骤中每一个都需要数据可视化的特别功能,从对原始数据的探索数据分析,到验证数据的假设、解释数据模式,再到将生成的图表产品化为定期的报告和其他数据资源。

组织或机构试图寻找数据的日子早已将一去不复返了,现在他们轻易能获得大量数据,而挑战变成了:如何从中定位正确的数据并将这些数据摘要给到正确的人。

让我们来看下每个步骤,了解当今数据可视化如何应用与支撑工作。

1)探索性数据分析

简单5步,轻松学会数据可视化

探索性数据分析(EDA)指的是 当数据可视化是用来理解数据的模式和形状,而不是来解释解释这些模式。当它最常放在数据科学的背景下讨论时(使用例如 ggplot2 和 vega-lite 等工具优化数据处理方法),它的最佳案例是数据访问问题。组织或机构试图寻找数据的日子早已将一去不复返了,现在他们轻易能获得大量数据,而挑战变成了:如何从中定位正确的数据并将这些数据摘要给到正确的人。

为了支持探索性数据分析,数据工程师持续性的工作就是部署数据可视化来展示数据源的形状、数据的沿袭【5】、以及它们如何加入到其他数据中。在数据集还是分析师/数据科学家的眼中独有的秘密之前,数据工程师早已在创建数据集并评估数据健康时用上了数据可视化。在这些数据源的视觉表达中,部分可能会继续保留来提供有关数据源状态的持续性报告,但一旦 数据集【3】合或 数据工作流 【4】完工,大部分的此阶段数据可视化会被抛弃。

(【3】数据集(dataset):一组数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。)

(【4】数据工作流(data pipeline):数据工作流沟通了数据源和数据应用的目标,包含了一家公司内部的数据流动全过程。它是一个贯穿了整个数据产品或者数据系统的一个管道,它连接了不同的数据处理分析的各个环节,将整个庞杂的系统变得井然有序,便于管理和扩展,因此让使用者能够集中精力从数据中获取所需要的信息,而不是把精力花费在管理日常数据和管理数据库方面。)

(【5】数据延袭(data lineage):通常定义为一种数据生命周期,其中包括数据的来源以及数据随时间推移的位置。该术语还可以描述数据经过不同过程时会发生什么。)

用来构建这类模式的工具,例如 Superset,强调直接插入您的数据,让您可以在不同的图表和设置之间快速切换。这种快速高效地可视化任何数据集的能力,无论它是关于什么的,再怎么强调都不为过。任何数据可视化处理的第一步几乎总是先看一看表格的一些行,不是因为这是可视化数据的最佳方式,而是因为表格几乎适用于所有数据集。通常股东仅需要访问并概览数据,他们会接受表格视图,因为这快捷又方便。

探索性数据分析(EDA)在数据科学的领域特别突出,它在一开始与上面已经描述的类似,但很快就转向更集中的方法,这些方法属于数据可视化生命周期的下一步。

2)假说的生成和验证

简单5步,轻松学会数据可视化

数据可视化中最和工作相关的方面是生成和验证假说。这和探索性数据分析(EDA)很像,但是更加具体,因为它在单纯的探索之外更深入数据的清晰申明。

在数据科学的工作流程里,假说的生成和验证是通过具有分面等强大功能和处理几乎能处理所有类型数据的工具 —— 比如 ggplot2 和 vega —— 来完成的。这些工具通常还提供可用的功能来展示统计数据的显着性和不确定性,这是数据可视化生命周期里的其他部分所缺少的。统计测试,特别是 A/B 测试,可能会使用更定制化的界面并利用统计摘要的复杂表格来展示,为了方便那些非数据科学家进行假说的验证。

机器学习是数据可视化在假设生成部分占有重要地位的另一个主要领域。数据可视化可能提供非常不同的形式来支持机器学习的工作流程:目标是优化特定数字(例如混淆矩阵的某些方面)以验证你的假说,然后对随机样本进行可视化来尝试确认没有偏差。

3)说明图

简单5步,轻松学会数据可视化

验证假说是不够的,你必须向观众解释它。可能存在同样有效的竞争方法,即使没有,公司也没有无限的资源来追求每一种验证方法。数据可视化仅让建立它的人能理解是不够的,它需要被那些参与到围绕可视化数据决策的的人们所无障碍地理解并相信。这是从业人员真正的盲点领域,他们会很惊讶在他们分析中用到的图表在报告中没有那么有效。

即使这个假说简单到是“这件事很重要”,下一件需要做到的事就是让这个假说对于不熟悉原始创建者的数据集和方法的受众而言更加清楚。你可以使用正式的 BI (商业智能)工具以及数据可视化库来完成此操作,它们能风格化并装饰那些在早期步骤中创建的简朴且杂乱的图表。

有效的说明图依赖于所有有效沟通的法则:编辑、上下文(情景)和 清晰度。在前期数据分析探索中使用到(用来展示尽可能多的值)的配色方案被更深思熟虑过的颜色所取代,这些颜色强调了被分析的数据中的关键主题。图表中元素上的标签(比如如坐标轴)的格式更经过深思熟虑并弱化(不要那么视觉显眼)。遵循无数的数据可视化指南中描述的最佳实践,图表获得了一个标题和一些文本来配合读者。注释和上下文图表进一步说明和简单图表不同,说明图是为更多人设计的,而不仅仅是为了原始图表创建者们。

4) 产品化

简单5步,轻松学会数据可视化

让图表变得可阅读并不是最后一件事,因为它需要让它的受众阅读和分发。大部分数据可视化指南忽略了这步,除非他们处理看板(dashboard)—— 他们真心地认为数据可视化的产品化的唯一方式就是把图表都塞到看板里。但是图表们有其他触达到它们受众的形式,无论是通过自动邮件、演讲还是备忘录。产品化改变了图表,它能让图表:增强合作(比如可以评论)、便于分享、易于交互和自动更新(或者用邮件报告的方式定期发布)。

因此,产品化可能就像让在 Apple 和 Netflix 这样公司里的数据可视化工程师们去搭建一个完全定制化的分享应用一样,非常复杂和昂贵。或者产品化可能就像截图一个图表并把它塞到一个用于会议分享的文档里一样简单。现代的BI(商业智能)工具有能改进共享(它们工具构建的)看板的功能,其中还包括将看板共享为电子邮件报告。在定制化的应用和标准化的BI(商业智能)工具之间,还有例如 Dash 和 Streamlit 这样的看板库,可以快速地从上文提到的探索性数据分析(EDA)和假说生成这两个模式中生成看板。

除此之外,最有争议的莫过于将图表的图片嵌入文档了。数据可视化的产品化,能像在 Notion, Coda, Quip, Confluence 或者 Google Docs 中插入图表一样简单吗?在很多情况下,便于分享和提供评论功能,是产品化的核心需求,但这已经通过在线文档里的静态截图完成了。这是最优解吗?还差得远了。图表不能够再继续动态更新、截图的人们可能会不小心裁剪掉关键信息。但很明显,鉴于这种能够在图表上分享和评论的方法的频率,收益仍大于缺陷。

5)战略方向

简单5步,轻松学会数据可视化

产品化可能看上去也像是在数据额可视化生命周期里的最后一步,但不是。除了在演讲中的直接影响力之外,图表还(消极地和积极地)有助于使用数据的知识共享、最佳实践和指南。图表是一个公司的生命之血。如果公司想要改进它如何使用数据可视化,他们只能在评估如何使用数据可视化时才能做到这一点。

即使没有积极的数据可视化评估,图表仍然影响着一个公司的战略方向。因为图表提纯和强调了指标。这些我们展示的指标、特别是在数据可视化生命周期中从探索活到产品化的指标,是认真投资的结果。它们影响决策,但也影响着之后的指标。这就是为什么数据可视化是指标设计的一个关键方面。

类似地,数据本身以及数据的转变需要可视化。数据沿袭(数据生命周期)不仅包括ETL【6】 过程中创建的数据、也包括让数据在语义上足够有意义来让公司使用且决策的必需步骤。

(【6】ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。)

最后,每个公司产生的图表是公司里的人需要看的。这似乎是一个显而易见的观点,但图表通过提高或限制数据素养的方式表示数据。如果你的所有图表都是条形图或者折线图,那么你所有的指标都只会是那些可以在那些条形图和折线图图表上出现的那种,并且你所有的决策都将是基于这些指标的那种。但是,如果你有显示不确定性、分层数据、地型图、过程图、地图和其他数据类型的图表,那么你的公司将能够根据此类数据做出决策。

因此,即使图表已成功被部署,它仍然会影响你公司的数据素养。如果你想了解更多相关信息,请查看我的文章——《图表能做什么》。

4. 支持整个数据可视化生命周期

4. Supporting the Entire Data Visualization Lifecycle

我决定与他人共同创立 Noteable 公司的原因之一是我坚信受众和数据工具的融合,这是我在 2018 年 Tapestry 的主题演讲中提出的观点。

在我尝试预测未来时,我建议将“Dashtellingbooks”作为数据讲故事、看板和计算笔记本的融合。自从那时起,我意识到构建支持现代数据可视化的产品不仅仅只需要不同工具形式的简单组合。在数据可视化上,我们需要关注的不仅仅是工具的产出;我们需要考虑这些工具如何适应现代数据方法,数据可视化发生在数据生命周期的每个点,而不仅仅是在最后。这就是我们在 Noteable 公司处理数据可视化的方式。这就是每个想要利用数据可视化的公司都应该采用的处理方式。

在 Noteable 公司,我们正在创建一个能支持整个数据可视化生命周期的工具:我们利用计算笔记本的力量来让我们的用户能探索、解释和拓展他们的数据。

对于数据可视化生命周期的每一个阶段,在未来我会写得更加详细,并阐明如何以整体化的方式去处理数据可视化的产品设计与应用设计,能更好地使用户能够充分利用数据可视化生命周期。

如果你想阅读更多的关于“为什么发展你的数据文化是公司成功的关键之处”的文章,看看我们Noteable公司首席执行官(CEO) Michelle Ufford 的文章 —— 2021 年数据驱动领导者指南(第 1 部分)。

对我们在 Noteable公司 的工作感到好奇吗?看看Noteable首席技术官(CTO) Matt Seal 的文章 —— Noteable:适用于现代数据团队的交互式计算笔记本文档。

TCC翻译情报局
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
TCC翻译情报局
TCC翻译情报局
发表文章82
连接知识,了解全球精选设计干货
确认要消耗 羽毛购买
简单5步,轻松学会数据可视化吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接