APP推广合作
联系“鸟哥笔记小乔”
常用数据分析工具优劣势对比
2022-04-16 16:00:00

1、数据分析工具比较

数据分析软件是数据分析师的利器,就相当于厨师手中的菜刀,数据分析师掌握一些数据分析工具能够极大提升工作效率,毕竟我们是与数据打交道,难免会处理各种各样的数据。学习数据分析软件应该带着目标去学习,比如基于解决某个数据问题,这样会让自己学习速度很快,但有个缺点是,这样学习出来的技能可能不是体系化的。我个人也不是很喜欢照着一本教科书按部就班的学习,这样往往学习很慢,而且会学一些后续可能没有太多用的东西,同时,没有跟实践结合的学习也难以深刻,学习效率会很低。

对于学习数据分析软件,我的建议是,先了解数据分析软件最基本语法,然后针对具体问题和场景学习,最后再去找权威教程系统性的学习,这样会让学习效率很高,特别是你熟悉了一种数据分析软件之后,再去学习其它数据分析软件时,效率会很高。

现在主要的数据分析软件有:SAS、Python、R、IBM Modeler、SPSS、Excel、SQL(严格来说不是分析软件,但是特别常用,所以列出)等,数据分析工具多种多样,数据分析师只要能够深入掌握一样工具就行,基本就能处理绝大多数的数据分析需求,没有必要求多求全,当然每一样工具有其优势,也有其劣势。

数据分析工具总结


2、数据分析工具功能

总的来说,数据分析工具主要是用来做三方面的事情:数据预处理、数据可视化、数据建模。只要掌握这三项技能,基本就能从技术上处理所有的数据分析问题,当然数据分析最重要的还是对业务的理解以及与业务部门、高层的良好沟通。

数据分析工具总结


2.1、数据预处理

数据预处理主要是对原始数据进行各种基本处理和统计,包括数据导入、探索性分析、缺失值处理、数据准确性验证、统计分析等,以便后续进行深入的分析,数据分析在这个阶段主要做以下几方面的事情:

1.1、导入、导出数据集,包括各种格式,如txt、xls、csv等;

1.2、变量操作,包括变量命名、改名、生成新的变量、改变变量顺序、改变变量类型等;

1.3、排序和去重,对数据集按照指定变量排序,去掉数据集中的重复记录;

1.4、条件筛选,按条件筛选相应内容,保留符合条件的记录或变量;

1.5、汇总统计,包括各种统计量,如求和、平均、方差、分位数、最大最小值、计数等,包括分组汇总;

1.6、多表关联,包括左右关联、求合集、求并集、求交集等;

1.7、分组统计,按照某个字段分组进行统计;

1.8、填充缺失值、处理异常值等;

1.9、爬虫,从网络上爬取数据,并整理成结构化数据。

2.2、数据可视化

数据可视化主要是以图表的方式将数据结果呈现出来,使结果更加生动易懂、突出要旨,俗话说,字不如表,表不如图,就是说的这个道理。可视化图表主要分为以下几类:

2.1、趋势类,主要用于反映事物变化趋势,包括柱形图、折线图、面积图等;

2.2、对比类,主要用户探索不同群体间的差异,包括双柱形图、双折线图、雷达图等;

2.3、构成类,主要反映事物的结构,包括饼图、树状图、旭日图等;

2.4、分布类,主要反映事物的分布状体,包括散点图、气泡图、热力图、地图、词云等;

2.3、数据建模

数据建模就是通过算法来识别事物间存在的潜在规律,有些事物间的潜在规律是肉眼识别不了的,需要相应的算法来识别,能够预测事物发展趋势和用户行为。主要模型包括以下几类:

3.1、分类模型,包括逻辑回归、决策树、贝叶斯、支持向量机(SVM)、KNN、随机森林、神经网络等算法,主要用来分类,支持精确营销,是使用最广泛的算法模型;

3.2、指标预测,包括线性回归、指数平滑、移动平均等算法,主要用来预测未来发展趋势,提前做好预判;

3.3、关联模型,包括Apriori、FP-growth等算法,主要用来进行关联推荐;

3.4、推荐系统,包括协同过滤等算法,主要用来进行个性化推荐;

3.5、文本挖掘,包括词频、语义情感分析等,主要是分词技术,主要用于进行舆情分析、处理用户反馈、收集用户意见等;

3.6、深度学习,现在深度学习使用很广泛,它是一种深度神经网络,主要用于图片识别、人脸识别、语音识别、视频识别、自动驾驶等领域。

3、常用数据分析工具

在我的实际工作中,主要用到的数据分析工具有:Excel、SAS、Python。

3.1、Excel

相信Excel是大家最熟悉也是使用得最多的数据分析工具,它有较好制表、画图能力,还能够利用函数和数据透视表进行一些数据处理,但是高级数据分析功能基本没有,数据超过10万行处理起来就已经很吃力了,但是精通了Excel,还是能够做出很多牛逼的东西(会VBA)。

数据分析工具总结


3.2、SAS

SAS是我使用的最多的数据分析工具,SAS公司也是世界上最大的商业化数据分析公司。SAS拥有自己的语言,需要编程,数据预处理、建模、数据可视化都不在话下,强大的单机处理能力,我曾在自己的笔记本上处理过30亿行的数据(但是也很慢,基本一晚上,不过其它软件基本都卡死)。SAS的缺点主要是安装包太大(十几G,还容易安装失败),基本都是盗版的(正版上百万),操作界面特别丑。

数据分析工具总结


3.3、Python

Python是我最近一年开始使用的数据分析工具,开源语言就是好,各种第三方包,各种最新算法,功能很强大。用Python做爬虫和文本处理特别方便,画图能力也很强。现在业界很多数据挖掘工作都是基于Python进行,安装最新的Syder,里面集成了很多常用的第三方包,可以直接使用。

数据分析工具总结


3.4、其它数据分析工具

专业数据分析工具:R、IBM modeler、SPSS、Eviews

数据分析语言:SQL、Scala

文本编辑器:Everedit、ultraedit

赵同学
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
超级nice便签砖
超级超级超级奈斯!
1000羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
赵同学
赵同学
发表文章6505
确认要消耗 羽毛购买
常用数据分析工具优劣势对比吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接