很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
本文对正在成长的初、中级数据分析人员相当友好,也特别适合产品经理、数据运营等相关岗位。字数较长,可以先马后看。
本号会持续更新体系化的数据分析技能、思维文章,文章内容来源都是数据禅心团队超十年累积的经验。
这些经验已经被集结成书,也已经被制作成付费课程。
但在这个号,大家可以免费学习,请关注“数据禅心DataZen”不要迷路。
如果看完能学以致用,即使不点赞收藏,就是对码字老师最大的支持啦~
本文转载自曾津老师知乎账号“恒河沙'DataZen”。
曾津:
首位CDAIII 数据科学家
资深数据产品经理
商业分析总监
从事数据分析相关的工作超10年,
数据分析实战-方法工具与可视化》作者
本文为大家介绍如何用数据很规范的描述现状。本文为《数据分析七武器》系列文章中的第1篇。接下来会有连续2篇文章,请随时关注~
本文约7000字,阅读时长20分钟左右。码字不易,需要您的鼓励,点赞、收藏和喜欢~~
《数据分析七武器》旨在为初级数据分析师及相应转行为数据分析师的其他岗位的同学提供一个数据分析工具箱,我称之为数据分析七武器。我将分三篇文章为大家介绍这七种方法。
数据分析七武器
方向1 现状分析——做到胸中有丘壑
我们通过分析指标的表现,能够了解目前业务现状如何,以及发生了什么问题。现状分析看似简单,但是实则大有门道。许多数据分析师对业务进行数据现状分析时往往只是在做简简单单的“看图说话”——只是就着图表去描述数据的起起落落。这是远远不够的。对于一个专业的数据分析师而言,做现状分析的时候是有一整套方法论体系的。
对应分析工具:
一个受过良好训练的数据分析师在针对业务做现状分析的时候常用的手段有两种:一是探索性数据分析(EDA);二是趋势分析。
在数据分析师的日常工作中,对数据指标进行描述恐怕是每天绕不开的工作。这种工作看似没有技术含量,毕竟看图说话”并不难“。但是如何能够利用统计学理论更加规范地去描述数据呢?这里面就大有门道了。这就类似跑步这种运动,谁都会认为自己会跑步,但是真正地能用标准的起跑动作、跑步姿势进行跑步的人却非常少。
在统计学中,对数据进行概括性描述的过程,被称为探索性数据分析( Exploratory data analysis, EDA)。探索性数据分析是上个世纪六十年代,美国统计学家John Tukey提出的。他认为:“探索性数据分析是基于对数据集的分析以概括数据集的主要数据特征、且常常伴随可视化方法进行解读的一种方法。在这一过程中,是否使用模型都可以,更加重要的是探究数据能够在模型和假设检验任务之外能告诉我们什么信息”。
探索数据分析一般按照如下步骤进行:
我们来通过一个案例了解一下:
案例一 探索性数据分析
HighTrip公司旗下商务精品酒店和青年旅店的营收情况
HighTrip公司旗下商务精品酒店和青年旅店的营收情况的探索性分析
以上的案例中,我们用了”量级>波动>相关>原因“的顺序说的。量级、波动、和相关都有各自的指标进行描述。
描述量级和集中趋势有三大指标:均值、中位数和众数,如下:
(1)均值
集中趋势中最重要的指标就是均值(mean),均值反应了事物的平均水平。均值并不仅仅是一个数据指标,而是一类数据指标的概称。常见的均值有四种:算术平均值、加权平均值、几何平均值、调和平均值。其中算数平均数和加权平均数相对更常用。而算数平均数和加权平均数是应用较多的两种均值。
算数平均数:
算数平均数是指在一组数据中所有数据之和再除以这组数据的个数。
加权平均数:
加权平均数会考虑不同情况的重要程度或者出现概率,来计算数据的量级水平。
w是权重
均值有一个非常大的缺点就是容易受到极端值的影响。这就是我们常常提到的“XX被平均了”。我们经常能看到“被平均”的笑话,比如:
这些都说明,算数平均数指标容易受到极端值的影响。如果观测到的数据指标中存在一些极端值或者异常值,我们就不能简简单单地使用算数平均数代表指标总体的量级水平了。此时我们就需要用到后文中会介绍的中位数和众数指标了。
几何平均数一般用来计算平均增速或者平均变化率。调和平均数是一个指标中每个数字的倒数的算术平均数的倒数。这两种均值应用较少,我们在这里就不做过多的赘述了。
(2)中位数
所谓中位数,就是指将一组数字从小到大排列,排在中间位置的那个数。在一组数字中,一半的数字比这个数字小,一半的数字比这个数字大。
中位数的优点是不受极端值的影响。如果某数据指标容易出现异常值或者极端值的话,使用中位数测量会比使用均值测量更好一些。
比如有5个人,身高分别是175cm、165cm、165 cm 、180cm、226cm(姚明) 。如果计算均值,五个人的平均身高为182cm。这个结果显然是不合理的。在5个人中有3个人都是身高不足180cm的。但如果用中位数来衡量这5个人整体的身高水平的话,这5个人身高的中位数为175cm,显然能够更好地代表 这一组数据的平均水平。
在我们日常的工作中,很多指标是存在极端值的。在这样的情况下如果仅仅关注均值,将很难使得真实情况展现在我们面前。
(3)众数(mode)
变量中的众数就是指出现次数最多的值。一个变量可以有多个众数。众数相对于中位数和均值而言,用得比较少。
众数指标的缺点就是众数没有利用所有的信息。但是众数也有一些优点。一是众数和中位数一样,也不受极端值的影响。二是众数还有一个特殊的用途,就是众数可以去衡量离散变量的集中趋势,而均值和中位数都不能描述离散变量的集中趋势。
描述波动是指通过离中趋势(divergence tendency)数字特征表示数据指标的波动水平。
对于数据指标,我们希望其表现相对稳定的。如果一个数据指标的波动较大,则我们很难理解这个指标背后的规律,无法预测其变化趋势,也将会承担更多的风险。在金融行业中,收益指标的波动甚至常常直接被视作风险。
我们用来表示离中趋势的数字特征通常有极差、标准差、方差和变异系数四种。
(1)极差(range)
极差实际上是一组数字的最大的变动范围。可以用如下公式表示:
极差=最大值-最小值
极差计算简单,但在现实生活中用的比较少。原因是极差这个指标非常容易受到异常值的影响。
一个替代的指标是四分位极差 。当最小的25%的数据与最大的25%的数据都被去掉后,极差所剩的部分称为四分位极差( interquartile range, IQR ),简称四分位差。
(2)标准差
标准差是用得相对比较多的衡量离散趋势的指标,其公式为:
其中 σ代表标准差,μ代表均值, Xi代表指标中的每一个值,N代表指标中数字的个数。许多初入门的分析师一看到数学公式就头大,标准差的公式又是一个数据分析师必须要掌握的公式,那么这个公式应该死记硬背记忆吗?不应该!学习数据分析相关的统计学知识、记忆统计学公式的正确方式,应该是先去理解理论和公式背后的含义再去记忆。
那么我们接下来介绍如何理解记忆标准差公式。
关于标准差指标为什么可以代表一组数据的波动情况的理解
高中数学老师在黑板上写下的距离公式
用点到均值所在直线的平均距离来衡量波动
以上,就是我们基于理解去记忆标准差公式的过程。我们在学习统计学知识和公式的时候,切忌死记硬背。我们应该综合利用类比、演绎、图示等多种方法去理解公式和理论。
总体标准差和样本标准差
我们刚才介绍的标准差公式
是在总体样本情况下的标准差公式。但是在数据分析师的实际工作中,我们常常不会用全量的指标数据去对观察波动,而仅仅会基于一部分数据去计算其标准差衡量波动(抽样场景)。
比如我们计算DAU标准差时,我们通常计算的是某一段时间内每日DAU的标准差,而不会将所有日期范围内的每日DAU都从数据库中抽取出来去计算标准差。我们会利用抽样计算的标准差(某一段时间的)去估算总体标准差。
抽样标准差的公式如下所示:
这个公式从形式上来讲和总体标准差公式很像,但还是略有差别。因为,抽样标准差并不是真正的总体标准差,而仅仅是对总体标准差的估算。
方差是标准差的平方,同样用来表示一组数据指标的波动。其公式如下:
总体方差:
抽样方差:
方差在实际中应用得相对较少,原因是方差在量纲上和均值不能直接比较。
(3) 变异系数
当需要比较两组数据波动时,如果两组数据的测量尺度相差太大,或者说数据量纲不同,直接使用标准差来进行比较是不合适的。
在若干年前,我经历了一次减肥的过程(当时的我体重为95公斤)。当时采用了节食、运动等多种方式。而自己也常常抵受不住诱惑大吃大喝导致偶尔的体重反弹。所以我每个月的体重波动都在2.5kg左右(抽样标准差)。而我的一位90后女性同事Amy当时也在减肥,但是她的体重基数只有46~49kg,而她每个月的体重波动在1kg左右(抽样标准差)。此时能说明我体重的波动就一定比她大嘛?并不能,因为我体重基数较大,我体重增加和降低都相对会更容易;而这位女同事的体重基数较小,体重变化也会更小。
在两组数据量级不一样而又需要比较二者波动的时候,我们就不能直接比较其标准差或者抽样标准差。我们应当消除测量尺度和量纲的影响,再进行比较。此时我们会采用变异系数指标来对不同量级的数据指标的波动进行衡量。变异系数的公式如下:
我们最常用的衡量两组数字相关性的指标是皮尔森相关系数。皮尔森相关系数的公式如下:
如果两组数字的相关系数为1,说明两组数字呈现完全相同的变化趋势(同升同降)。如果两组数字的相关系数为-1,说明两组数字呈现完全相反的变化趋势。如相关系数为0。说明两组数字之间不存在线性相关的关系。
在利用皮尔森相关系数度量相关性的时候,我们有两点需要注意:
一是皮尔森相关系数是一种衡量两组数据的线性关系的指标。如果是非线性关系,皮尔森相关系数的衡量效果可能不是特别好。此时我们需要找其他的相关系数进行衡量。衡量不同类别数据的相关系数有数十种,如斯皮尔曼秩相关系数、点二列相关系数等等。大家如果有兴趣可以进行深入的探究。
二是相关不等于因果。我们知道了两个因素或者维度相关性高,并不一定能推断其中一个因素是导致另一因素发生变化的原因。他们可能只是量级上的同升同降关系。比如以下的案例:
常吃海参的人群平均智商真的更高
冰棍销量越高,游泳死亡人数越多
很明显,这两个案例中表现的相关关系并不是因果关系:
常吃海参的组智商更高,这可能是因为一般只有有钱人家能经常吃到海参;普遍来看,有钱人家的受试者能够接受更加良好的教育,见更多的世面,所以他们在智商测验上也许表现得更好。
另外,冰棍销量和游泳溺亡人数的数字呈现正向相关的关系是因为:一般天气越热冰棍的销量就越好,与此同时天气越热大家越愿意去游泳,游泳的人越多,溺亡的人就越多 。
通过以上两个案例,我们可以看出,不能仅仅因为两个因素之间有相关性,就判定它们之间存在因果关系。
数据分析师要判断变量之间是否存在因果关系,需要借助许多其他信息。一方面,数据分析师要基于对业务的理解来判断是否存在因果关系。只有数据中体现出来的相关关系从业务角度来讲是合理的,数据分析师才能说两个变量之间有一定的因果关系。这也是分析师的工作为什么不能脱离业务的原因。另一方面,从方法和工具上来讲,要界定两组变量的因果关系,数据分析师还需要利用A/B测试、因果推断的方法做进一步的研究。
另外,我们还可以通过线性回归算法判断相关性:
线性回归分析是用来确定两个或多个变量之间存在的定量线性关系的方法。线性回归算法是一种已经有近200年历史的算法,可以帮助我们获得一个变量和另外一个或者多个变量的量化关系。
比如,我们可以通过线性回归分析验证如下的量化关系:
趋势分析,就是指描述数据指标的在时间序列上的变化方向和规律。通常我们有两种方式来对数据指标进行趋势分析:一种是利用线性回归的方式进行趋势分析;另一种是利用时间序列的方法来进行趋势分析。
简单的场景下,我们可以通过线性回归算法来判断数据的变化方向。那么,具体应该如何操作呢?
我们可以对日期时间进行编号,并以之为自变量,以指标在每个时间点上的数值作为因变量。此时拟合的线性关系就是因变量随着时间的推移而发生的变化首先,我们对日期进行编号,生成自变量。
例如我们认为T日代表当日,我们要计算i天前到昨天的因变量变化趋势,我们就可以将这个命题转化为计算T-i到T-1日(昨天)的数据指标变动趋势。我们基于日期生成一组变量。我们令T-i为起始时间,值等于1,T-i+1为2,……T-1为i-1。我们令这一组变量为自变量。然后,我们拟合出自变量(时间)对于指标变动的线性函数关系:
此时系数 β1的意义为随着时间的流逝,指标y平均变动数量。如果 β1为正,就意味着在这段时间内,随着时间的流逝,我们的指标y是呈现正向变动趋势的,也就是增长趋势。反之如果 β1为负,说明随时间流逝,指标y呈现负向变动趋势.
案例2 Panda公司购买率数据趋势分析
我们可以通过excel完成回归
(1)选择折线-右键-【添加趋势线】
(2)右侧出现【设置趋势线格式】模块。在模块中的【趋势线选项】中选择【线性】。在下方勾选【显示趋势】和【显示R平方值】
(3)或者直接使用Excel公式求得截距和系数,具体公式可参考linest(y,x)。
另外,我们也可以通过时间序列分析的方式发现数据指标的趋势线特征。时间序列相关内容将在以后发表,学习内容较深,大家也可以先关注。
预告文章1:容易上手的时间序列分析1:基本流程及ARIMA(需要有数科python基础);
预告文章2:容易上手的时间序列分析2:Prophet模型(需要有数科python基础)
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2025 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)