云图计划wiki(人工智能最大的潜力究竟是什么)
资讯
2024-02-18
444
1. 云图计划wiki,人工智能最大的潜力究竟是什么?
说到人工智能,很多人心目中就会想起施瓦辛格所扮演的终结者,或者《I, Robot》里面经典的机器人形象。如今,伴随着阿尔法狗和阿尔法元的出现,所有人都不得不承认,人工智能时代已经来了。而今天我们探讨的就是人工智能对于金融产业的彻底颠覆——当人工智能入侵金融的时候,哪些岗位将会被最终沦陷?
11月2日,在香港召开的2017博鳌亚洲青年论坛,正式将关注的视角聚焦于人工智能对于整个产业的冲击,并就此展开了一系列的探讨。与会的人士有香港工业总会名誉会长钟志平博士、硅谷知名投资人张璐以及凡普金科创始合伙人兼爱钱进CEO杨帆。作为金融业的代表人物,杨帆的观点很有代表性。
他以金融举例说,传统零售信贷走完从申请、资料录入、信审到尽职调查和最终批核的流程,大约需要1周时间,而用人工智能+大数据技术建立的模型,则可以把这个过程缩短到以秒计。顺着杨帆的话,我们不妨就人工智能入侵金融做两个预测。
一、人工智能将会抢走哪些金融人的饭碗?
金融业作为世界各个产业中最为璀璨的一颗明珠,向来被称为高薪富豪的诞生地,在各大高校之中,金融专业一直都是最热门的专业,然而即使是这个被称之为高门槛、高收益的专业,在人工智能的大潮之下依然面临着大量的竞争与替代,机器人将有可能对金融产业进行全面的颠覆。
近年来,人工智能技术逐渐从实验室走到寻常百姓家,由于数据和人工智能的天然联系,金融业成为了人工智能首先的冲击领域,目前国内外各大金融机构都在尝试使用人工智能替代纯粹的人工操作,帮助一般的金融人提升工作效率、降低企业成本。
在我们日常常见的金融交易当中,像信用评估、银行贷款、个人金融、量化投资、资产管理、市场研究、保险市场、投资分析、贷款催收、企业财务、通用预测、合规风控都有着人工智能的影子,都有可能被人工智能所替代。
根据高盛提供的数据,在2000年的时候,作为世界最大的投资银行,高盛集团的现金柜台股票交易员多达600名,人声鼎沸、人来人往的交易大厅是当时高盛最为热闹的一个场所,然而20年不到的时间,高盛所拥有的现金股票柜台交易员的数量已经骤减到2名,从600到2的转变,则直接与高盛全面的人工智能应用有着密不可分的关系。
在当天的论坛上,杨帆也作出了这样的预判:面对着人工智能日益快速的自动化发展,以及自我学习的能力,金融业正在成为首当其冲的进攻领域。根据他的判断,人工智能正在通过算法的全面提升,实现着自我的不断革新,类似司机这样的纯粹技术工种有着最大的被取代可能,而金融业更是一个和数据、算法等互联网技术密集交流的行业,这样的行业远比其他非算法行业有着更大的人工智能扩展纵深,人工智能在金融有着其他行业难以比拟的天然竞争优势,很多工作都会被人工智能所替代。比如凡普金科今年上线的自动建模机器人Robot Modeler水滴,通过对算法的全面革新已经可以替代人类完成大部分的金融建模工作。还有像选股、投顾这样的工作也开始被机器人选股、智能投顾所替代,人工智能正在用其独特的竞争优势,取代着人类在金融行业的领军地位。
根据杨帆及其领导的爱钱进这些年关于人工智能的市场实践来看,一些单一重复性高且薪资水平较高的岗位是最容易被取代的。类似于银行柜员、客服人员、风控人员等等,在面对人工智能的时候往往完全没有抵御能力。
相反,那些要求更多创新能力和协调能力的工作,则不那么容易被取代。我非常认同杨帆的这个观点,即人工智能并非是单一存在,它需要算法、芯片等一系列围绕人工智能的产业链,一大批全新的工作将会出现,金融业相比于现在更需要像程序员、算法工程师、硬件设计生产人员,培训人工智能成长、审核人工智能道德和合法性的人员出现。只要顺应潮流,积极投身于风口领域,增强自己的快速学习能力,用开放的心态、系统的思考才能让自己在人工智能的大潮之中立于不败之地。
所以,人工智能对于整个金融业的影响将会是结构颠覆性的。
二、人工智能对金融的变革
除了人工智能之外,整个金融科技正在深刻地改变着我们熟悉的金融市场,互联网金融作为最早接触金融科技的领域,也正在被人工智能飞快地革新着。以杨帆所在的凡普金科为例,人工智能已经开始对整个业务进行了全面的变革,其主要变革领域在以下几个方面:
一是对于练股选股的全面修炼。在资本市场上,如何选股一直都是所有市场投资者最为痛苦的一个难题,因为市场瞬息万变,在这样的市场上,资本市场遵循的是随机漫步的原理,随时都会出现让大家意想不到情况,但是人工智能正在用其巨大的分析能力,综合市场上各种信息,从而实现对于市场的掌控,举例来说,像凡普金科旗下的智能量化投资平台——会牛,通过结合大数据、机器学习、自然语言处理等人工智能技术,已经实现了在海量的信息中挖掘出有价值的数据,研发出属于人工智能的技术指标,并且具备了舆情分析、事件驱动的模型,从而实现了很多传统分析师需要熟练练习多年才能够掌握的股票画像能力,让股民的投资效率得到了真正的提升。
二是对于风险控制的改进。风险一直都是金融业作为重要的领域,风控的好坏将会直接影响金融的发展,凡普金科在风控领域的探索就是通过自主研发的“FinUp云图”,有效连接内外多元数据,通过机器学习和自然语言处理形成了一个用于风控的完整知识体系。在“FinUp云图”的深度学习中,真正模仿了人类大脑的行为,自动发现隐藏在复杂关系的中的风险点,从而挖掘出潜在的欺诈行为,将整个互联网金融的风控实现了流程的再造和变革,在贷前审核阶段,通过反欺诈引擎进行数据分析和处理,在贷中管理阶段,通过数据的动态分析实现实时不良状态的预警,在贷后管理阶段通过催收评分,添加事后标签的办法反馈至3R引擎进行处理,从而实现了风控的全面提升。而爱钱进的产品条线中已经全面引入了“FinUp云图”的相关技术,这些年的实践下来,爱钱进的风控能力呈现出快速的上升态势。
三是对于金融建模的革新。前面的人工智能应用还仅仅是人工智能的金融参与领域,而金融建模的人工智能则是实现了机器人化,凡普金科所设计的自动建模机器人Robot Modeler水滴模仿了人类建模分析师的思维方式,从取数生成指标建立模型到开发上线,实现端到端的自动交付,将原先需要1-2个月的复杂流程简化到了只需要1天,这样的设计真正实现了机器人的金融化,这样的建模能力有效地促进了其业务的发展。
通过智能动态风控系统“FINUP云图FinUp云图”与自动建模机器人Robot Modeler水滴的有机结合,凡普金科已经实现了从获客、运营到风控、贷后各个环节的全面应用,让金融服务效率得以提升,运营成本得以进一步降低。
可以预计,随着人工智能的进一步发展,基于人工智能的图像理解、语音识别和自然语言处理都将在金融业务的各个环节得到应用,当人工智能快速发展的时候,也许金融将有可能得到一个质的提升,这个时候对于普通人来说,大家可能需要进一步警惕了,只有不断提升自己的创造力,不断地去学习,拥有机器人取代不了的能力,也许才有可能在不断科技化的金融业中得以逆市求生。
2. 如何学习数据分析?
想要成为数据分析师,给大家分享一份初级的入门指南!
它包含Excel、数据可视化、数据分析思维、数据库、统计学、业务、以及Python。
这七part 的内容刚好涵盖了一位数据分析师需要掌握的基础体系,也是一位新人从零迈入数据大门的知识手册。
第一part:Excel
每一位数据分析师都脱离不开Excel。
它是日常工作中最常用的工具,如果不考虑性能和数据量,它可以应付绝大部分分析工作。虽然现在机器学习满地走,Excel依旧是无可争议的第一工具。
Excel的学习分为两个部分。
掌握各类功能强大的函数,函数是一种负责输入和输出的神秘盒子。把各类数据输入,经过计算和转换输出我们想要的结果。
在SQL,Python以及R中,函数依旧是主角。掌握Excel的函数有助于后续的学习,因为你几乎在编程中能找到名字一样或者相近的函数。
在「数据分析:常见的Excel函数全部涵盖在这里了」中,介绍了常用的Excel函数。
清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
关联匹配类:lookup、vlookup、index、match、row、column、offset
逻辑运算类:if、and、or、is系列
计算统计类:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
时间序列类:year、month、weekday、weeknum、day、date、now、today、datedif
搜索能力是掌握Excel的不二窍门,工作中的任何问题都是可以找到答案。
第二部分是Excel中的工具。
在「数据分析:Excel技巧大揭秘」教程,介绍了Excel最具性价比的几个技巧。包括数据透视表、格式转换、数组、条件格式、自定义下拉菜单等。正是这些工具,才让Excel在分析领域经久不衰。
在大数据量的处理上,微软提供了Power系列,它和Excel嵌套,能应付百万级别的数据处理,弥补了Excel的不足。
Excel需要反复练习,实战教程「数据分析:手把手教你Excel实战」,它通过网络上抓取的数据分析师薪资数据作为练习,总结各类函数的使用。
除了上述要点,下面是附加的知识点,铺平数据分析师以后的道路。
了解单元格格式,数据分析师会和各种数据类型打交道,包括各类timestamp,date,string,int,bigint,char,factor,float等。
了解数组,以及相关应用(excel的数组挺难用),Python和R也会涉及到 list,是核心概念之一。
了解函数,深入理解各种参数的作用。它会在学习Python中帮助到你。
了解中文编码,UTF8、GBK、ASCII,这是数据分析师的坑点之一。
第二part:数据可视化
数据分析界有一句经典名言,字不如表,表不如图。
数据可视化是分析的常用技巧之一,不少数据分析师的工作就是通过图表观察和监控数据。首先了解常用的图表:
Excel的图表可以100%绘制上面的图形,但这只是基础。
在「数据可视化:你想知道的经典图表全在这」中介绍了各类数据分析的经典图表,除了趋势图、直方图,还包括桑基图、空间图、热力图等额外的类型。
数据可视化不是图表的美化,而是呈现数据的逻辑之美,是揭示数据的内在关联。了解图表的维度和适用场景,比好看更重要。比如桑吉图就是我一直推崇的图表,它并不知名,但是它能清晰的揭露数据内在状态的变化和流向。案例是用户活跃状态的趋势。
Excel的图表操作很傻瓜化,其依旧能打造出一份功能强大的可视化报表。「数据可视化:教你打造升职加薪的报表」教给大家常用的Excel绘图技巧,包括配色选取,无用元素的剔除、辅助线的设立、复合图表等方法。
Excel图表的创造力是由人决定的,对数据的理解,观察和认知,以及对可视化的应用,这是一条很长的道路。
图表是单一的,当面板上绘制了多张图表,并且互相间有关联,我们常称之为Dashboard仪表盘。
上图就是用分析师薪资数据为数据源绘制的Dashboard,比单元格直观不少。我们常常把绘制这类Dashboard的工具叫做BI。
BI(商业智能)主要有两种用途。一种是利用BI制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量。这部分工作完全可以交给BI自动化完成,从数据规整、建模到下载。
另外一种是使用其可视化功能进行分析,它提供比Excel更丰富的交互功能,操作简单,而且美观,如果大家每天作图需要两小时,BI能缩短大半。
在「数据可视化:手把手打造BI」教程中,以微软的PowerBI举例,教大家如何读取数据,规整和清洗数据,绘制图表以及建立Dashboard。最后的成果就是上文列举的分析师案例。
BI还有几个核心概念,包括OLAP,数据的联动,钻取,切片等,都是多维分析的技巧,也是分析的核心方法之一。
后续的进阶可视化,将和编程配合。因为编程能够提供更高效率和灵活的应用。而BI也是技术方向的工具,了解技术知识对应用大有帮助。
第三part:数据分析思维数据分析能力的高低,不以工具和技巧决定,而以分析思维决定。
在一场战争中,士兵装备再好的武装,进行再严苛的训练,若是冲锋的方向错了,那么迎接他们的唯有一败涂地。
分析思维决定一场「数据战争」中的冲锋方向。只有先养成正确的分析思维,才能使用好数据。
既然是思维,它就倾向于思考的方式,Excel函数学会了就是学会,分析则不同。大多数人的思维方式都依赖于生活和经验做出直觉性的判断,以「我觉得我认为」展开,好的数据分析首先要有结构化的思维。
麦肯锡是其中领域的佼佼者,创建了一系列分析框架和思维工具。最典型地莫过于金字塔思维。
这篇文章简述了该思维的应用,「快速掌握麦肯锡的分析思维」。你能学会结构化思考,MECE原则,假设先行,关键驱动等方法论。
除此以外,还有SMART、5W2H、SWOT、4P4C、六顶思考帽等,这些都是不同领域的框架。框架的经典在于,短时间内指导新人如何去思考,它未必是最好的,但一定是性价比最优的。数据分析思维,是分析思维的引申应用。再优秀的思考方式,都需要佐证和证明,数据就是派这个用处的,「不是我觉得,而是数据证明」。
现代管理学之父彼得·德鲁克说过一句很经典的话:如果你不能衡量它,那么你就不能有效增长它。如果把它应用在数据领域,就是:如果你不能用指标描述业务,那么你就无法有效增长它。每一位数据分析师都要有指标体系的概念,报表也好,BI也好,即使机器学习,也是围绕指标体系建立的。
下图就是一个典型的指标体系,描述了用户从关注产品、下载、乃至最后离开的整个环节。每一个环节,都有数据及指标以查询监控。
不同业务背景需要的指标体系不同,但有几个建立指标的通用准则。这篇文章深入介绍了「如何建立数据分析的思维框架」。你将区分什么是好指标、什么是坏指标、比率和比例、指标的结构、指标设立的维度等概念。
数据分析不是一个结果,而是一个过程。几乎所有的分析,最终目的都是增长业务。所以比分析思维更重要的是驱动思维落地,把它转化为成果。
数据分析思维是常年累月养成的习惯,一周时间很难训练出来,但这里有一个缩短时间的日常习惯。以生活中的问题出发做练习。
这家商场的人流量是多少?怎么预估?
上海地区的共享单车投放量是多少?怎么预估?
街边口的水果店,每天的销量和利润是多少?怎么预估?
这些开放性问题起源于咨询公司的训练方法,通过不断地练习,肯定能有效提高分析思维。另外就是刷各种CaseBook。
优秀的数据分析师会拷问别人的数据,而他本身的分析也经得起拷问。
第四part:数据库
Excel很容易遇到瓶颈,随着业务的发展,分析师接触的数据会越来越多。对大部分人的电脑,超过十万条数据,已经会影响性能。何况大数据时代就是不缺数据,这时候就需要学习数据库了。
即使非数据岗位,也有越来越多的产品和运营被要求使用SQL。
很多数据分析师戏称自己是跑SQL的,这间接说明SQL在数据分析中有多核心。从Excel到SQL绝对是处理效率的一大进步。
教程内容以MySQL为主,这是互联网行业的通用标准。其实语法差异不大的。
新手首先应该了解表的概念,表和Excel中的sheet类似。「写给新人的数据库指南」是一篇入门基础文章,包括表、ID索引、以及数据库的安装,数据导入等简单知识。
SQL的应用场景,均是围绕select展开。增删改、约束、索引、数据库范式均可以跳过。新手在「SQL,从入门到熟练」教程会学习到最常见的几个语法,select、where、group by、if、count/sum、having、order by、子查询以及各种常用函数。
数据还是分析师薪资数据,它可以和Excel实战篇结合看,不少原理都是相通的。
想要快速掌握,无非是大量的练习。大家可以在leetcode上做SQL相关的练习题,难度从简单到困难都有。「SQL,从熟练到掌握」教程中将会带领大家去刷一遍。
join对新手是一个很绕的概念,教程会从图例讲解,逐步提高难度。从一开始的join关联,到条件关联、空值匹配关联、子查询关联等。最后完成leetcode中的hard模式。
如果想要更进一步,可以学习row_number,substr,convert,contact等函数。不同数据平台的函数会有差异,例如Presto和phpMyAdmin。再想提高,就去了解Explain优化,了解SQL的工作原理,了解数据类型,了解IO。知道为什么union比or的效率快,这已经和不少程序员并驾齐驱。
第五part:统计学
很多数据分析师并不注重统计学基础。
比如产品的AB测试,如果相关人员不清楚置信度的含义和概念,那么好的效果能意味着好么?如果看待显著性?
比如运营一次活动,若不了解描述统计相关的概念,那么如何判别活动在数据上的效果?可别用平均数。
不了解统计学的数据分析师,往往是一个粗糙的分析师。如果你想要往机器学习发展,那么统计学更是需要掌握的基础。
统计知识会教大家以另一个角度看待数据。如果大家了解过《统计数据会撒谎》,那么就知道很多数据分析的决策并不牢靠。
在第一篇教程「解锁数据分析的正确姿势:描述统计」,会教给大家描述统计中的诸多变量,比如平均数、中位数、众数、分位数、标准差、方差。这些统计标准会让新手分析师从平均数这个不靠谱的泥潭中出来。
箱线图就是描述统计的大成者,好的分析师一定是惯用箱线图的常客。
第二篇「解锁数据分析的正确姿势:描述统计(2)」将会结合可视化,对数据的分布进行一个直观的概念讲解。很多特定的模型都有自有的数据分布图,掌握这些分布图对分析的益处不可同日而语。
直方图和箱线图一样,将会是长久伴随分析师的利器。
统计学的一大主要分支是概率论,概率是度量一件事发生的可能性,它是介于0到1之间的数值。很多事情,都可以用概率论解释,「概率论的入门指南」和「读了本文,你就懂了概率分布」都是对其的讲解。
包括贝叶斯公式、二项概率、泊松概率、正态分布等理论。理论不应用现实,那是无根之木,教程中会以运营活动最常见的抽奖概率为讲解,告诉大家怎么玩。
其实数据分析中,概率应用最广泛和最全面的知识点,就是假设检验,大名鼎鼎的AB测试就是基于它的。俗话说得好,再优秀的产品经理也跑不过一半AB测试。
何为假设检验?假设检验是对预设条件的估计,通过样本数据对假设的真伪进行判断。
产品改版了,用户究竟喜不喜欢?调研的评分下降了,这是用户的评价降低了,还是正常的数据波动呢?这些都是可以做假设检验的。它可以说是两面两篇文章的回顾和应用。
「数据分析必须懂的假设检验」依旧以互联网场景讲解各种统计技巧的应用。假设检验并不难,通过Excel的几个函数就能完成。它的难点在于诸多知识点和业务的结合使用,实际公式不需要掌握的多透彻,了解背后的意义更重要。
统计学是一个很广阔的领域,包括方差分析,时间序列等,都有各自不同的应用。大家若感兴趣,可以去阅读各类教材,没错,教材是学习统计学最优的方式。我这类文章堪堪算入门罢了。
第六part:业务
对于数据分析师来说,业务的了解比数据方法论更重要。举个例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。这个案例中,我们只知道送货员的送货水平距离,根本不知道垂直距离。这是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。业务形态千千万万,数据分析师往往难窥一二。我的公众号业务部分也涉及了不少,大家可以通过这几篇文章了解。
一篇文章读懂活跃数据;深入浅出,用户生命周期的运营;获取新增用户,运营都应该知道的事;运营的商业逻辑:CAC和CLV;从零开始,构建数据化运营体系;读懂用户运营体系:用户分层和分群,这些都是互联网运营相关的内容,或多或少涉及了不少业务方面的概念,数据分析人员可以选择性的挑选部分内容。了解业务的数据分析师在职场发展上会更加顺利。
而在「最用心的运营数据指标解读」中,我尝试总结了几个泛互联网领域的指标和业务模型,它们都是通用的框架。
产品运营模型:以移动端APP为主体,围绕AARRR准则搭建起数据框架。包括Acquisition用户获取、Activation用户活跃、Retention用户留存、Revenue营收、Refer传播,以及细分指标。
市场营销模型:以传统的市场营销方法论为基底,围绕用户的生命周期建立框架。包括用户生命周期,生命周期价值、用户忠诚指数、用户流失指数、用户RFM价值等。
流量模型:从早期的网站分析发展而来,以互联网的流量为核心。包括浏览量曝光率、病毒传播周期、用户分享率、停留时间、退出率跳出率等。
电商和消费模型:以商品的交易、零售、购买搭建而起。包括GMV、客单价、复购率、回购率、退货率、购物篮大小、进销存,也包含SKU、SPU等商品概念。
用户行为模型:通过用户在产品功能上的使用,获得精细的人群维度,以此作为分析模型。包括用户偏好、用户兴趣、用户响应率、用户画像、用户分层,还包含点赞评论浏览收藏等功能的相关指标。
除了上述的几个常见模型,数据分析还有其他分支。比如SEO/SEM,虽然可以归类到流量模型,但它并不简单。比如财务分析,商业的各种成本支出也需要专人负责。
在业务知识外,业务层面的沟通也很重要。业务线足够长的时候,沟通往往成为老大难的问题。
业务学习没有捷径,哪怕掌握了诸多模型,不同行业间的业务壁垒会是分析师们的门槛。金融的各类专有领域知识,电子商务不同产品的特性,这些都会影响到分析报告的质量。
在早期,新人最好选择一到两个领域深入了解其业务,然后以此拓展边界。
第七part:Python/R
第七周是最后的学习环节。
是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘、BI、爬虫、可视化报表都需要用到编程。掌握一门优秀的编程语言,可以让数据分析师升职加薪,迎娶白富美。数据分析领域最热门的两大语言是R和Python。R的优点是统计学家编写的,缺点也是统计学家编写。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。
Python则是万能的胶水语言,适用性强,可以将分析的过程脚本化。Pandas、Numpy、SKLearn等包也是非常丰富。
这里的教程以Python为主。
「开始Python的新手教程」将会教大家搭建数据分析环境,Anaconda是功能强大的数据科学工具。Python建议安装Python3+版本,不要选择Python2了。
Python的语法相当简洁,大家print出第一个hello world顶多半小时。就像在Excel上进行运算一样方便。
「开始Python的数据结构」介绍给大家Python的三类数据结构,列表list,元组tuple,以及字典dict。万变不离其宗,掌握这三种数据结构以及相对应的函数,足够应付80%的分析场景。函数式编程为Python一大特色,Python自身就提供不少丰富的函数。很多都和Excel的函数相通,掌握起来非常迅速。另外还有控制流,for、while、if,通常配合函数组合使用。
「了解和掌握Python的函数」教大家如何自定义函数,丰富的函数虽然能偷懒,但是不少场景下,还是需要自己动手撸一个。
能够调第三方包解决,就使用第三方的函数。如果是一个频繁使用的场景,而第三方依靠不了,就自己编一个函数。如果是临时性的场景,写得粗糙点也无所谓。毕竟分析师的代码能力不要求工程师那么严格,所以Python的学习尽量以应用为主,不用像分析师那么严格。
包、模块和类的概念属于进阶知识,不学也不要紧。
「Python的数据分析: numpy和pandas入门」介绍了数据分析师赖以生存的两个包,numpy和pandas,其他Python知识可以不扎实,这两个最好认真掌握。它是往后很多技能树的前置要求。
array,series,dataframe是numpy和pandas的三个数据结构,掌握它们,便算是入门了。后续的两篇教程都是实战。
「用pandas进行数据分析实战」以分析师的薪资作为实战数据。Excel、BI、SQL,一路走来,大家想必对它无比熟悉,这也是最后一次使用它了。教程通过Pandas的各类功能,绘制出一副词云图。
最后一篇教程,将结合以往的知识点,包括业务指标,可视化,描述统计学等内容。「用Python分析用户消费行为」,完成它,不说登堂入室,但也是一位合格的数据分析师了。
它使用某网站的用户消费数据,计算各类常见指标:用户的客单价、人均购买量、回购率、复购率、留存率、平均生命周期等,真正做到融会贯通。用一份数据报告作为毕业作品,也是七周系列最好的结业证书了。
对于没有技术基础的同学,第七part最吃力,但已经完成到这一步,不妨让自己咬咬牙学习下去。
最后
如果能够看完到这里的同学,相信你是对数据分析真正感兴趣的。
3. 大海中行驶的航母有可能被大海的力量掀翻吗?
请问一下各位海员,你们去过非洲的好望角吗?我们船载重量20万吨,但每次走到好望角海域,那种感觉就像我们平常做过山车一样,并且船舶一晃就是几天,说实话虽然现在航海技术很发达了,航母被大海掀翻的可能性还是有的。
我没有在航母上工作过,但是我是一名远洋的商船船员,并且我们船的长度比航母还要长几十米,就像一个巨型的不倒翁一样航行在海上,首先给大家科普一下,我们船员在深海之中遇到大风浪时的真实状态。也许大家就能够想象的出来航母是不是有可能被大海掀翻了。首先:对于大多数人来说在陆地上基本上没有见过太大的风,也许在每年夏季台风入境的时候,沿海地区的民众才会觉得风力很大。其实船舶行驶在深海之中,这种情况是特别普遍的,十二级的大风对于船舶来说就像我们人类吃饭一样普遍,因为海上是没有任何遮挡物的,船舶受到风的力量那真的是实实在在的存在。也许很多人不明白,真正能掀翻船舶的并不是风,而是海里的浪。因为风大而起的浪力量并不是太大,对于船舶的摧毁也是特别有限的,可怕的就是涌浪,很多时候看似海面风平浪静,实际上海底波涛汹涌。这个时候的船舶就像飘落在水里面的一片树叶一样,有时候左右摇摆,有时候前后摇摆,而此刻我们船员在船上工作,不仅要握紧栏杆,双腿时刻要叉开保持稳定,一旦松手,就能在船上来回滚动,这种感觉就像我们平常玩的“网红桥”感觉一样。
其次:不管是商船还是航母都有一定的生活区,这种感觉就和我们平常小区里面生活一样,有单独的房间,卫生间。房间里面摆满了生活用品。由于船舶特殊的环境,每个房间的桌子柜子以及床都是固定不动的。但是桌子上会摆放我们的生活用品呀!比如电脑,书籍,洗发露,牙膏牙刷之类的。当船舶遇到大风浪的时候,我们根本来不及收拾这些东西,所有的物品全部摔落在地上,并且随着船舶的摇晃,掉在地上的物品一直来回滚动,发出噼里啪啦的声音,就连床上的被子铺的整整齐齐的,也能被晃落在地上,这个时候船员只能抱着固定好的沙发腿,眼瞅着自己的物品随着晃动来回的砸向自己而束手无策,因为这个时候的船员根本站不起来,即便把东西捡起来,根本没有地方放,毕竟全船都在摇晃。我做了六年的船员,换了四台电脑,每一台都被摔的粉碎,这真的没有办法去避免。
最后:不管风浪有多大,船舶一直处于航行状态,越是风浪大的时候,船员们的工作越多。因为随着船舶的剧烈晃动,各种机械设备也很容易出问题,驾驶台里面各种报警器很容易响起来。我曾经多次在船舶晃动的时候,爬着从自己房间到船舶驾驶台值班,即便是爬着我的脸也被左右晃动的船舶墙壁撞的鼻青脸肿。最后终于爬上来驾驶台,一个大浪打过来,船舶迅速向右边倾斜,并且角度特别大,我从左边一下子被晃动的幅度带到了右边,身子狠狠地撞在了墙上,就这样随着船舶左右摇晃,我在驾驶台左右两侧来回跑动。最后用自己的皮带把自己固定在了驾驶台上的栏杆上。不知道大家有没有这种感受,越是头晕难受的时候,越想上吐下泻。我第一次上船的时候,船舶晃的时候,我一边坐在马桶上,两只手狠狠地拉住马桶两侧的扶手,突然还想吐,手拉着栏杆,头低不下去,就这样直接仰着头喷射了出来。坐在马桶上拉着肚子,两只手使劲的拉着马桶两侧的栏杆保持稳定,突然嘴里面还吐了出来,眼睛里面还流着泪,脸色苍白,那种画面你们可以想象一下,多么凄惨!
其实航母在遭遇大风浪天气下,遇到意外的情况还是有的,一般表现为以下几个方面。第一:我们都知道不管是航母还是商船为了保持稳心,重心都是非常低的。我们平常看到在海面上航行的船舶感觉很大,其实船舶水面以下我们看不到的部位会更大。水面以下的部分都是空心的,我们专业术语叫做“压载舱”,遇到大风浪的时候,压载舱里面大量注入海水,让船的底部尽可能的重,就类似于不倒翁的原理。但是在遇见极端的海况之下,船舶左右摇晃的特别厉害,一旦超过了船舶承受的摇晃角度一下子就倒扣了过来。我们可能在公园里面都玩过小游船,如果一个人在上面左右使劲晃,超过一定的角度一下子就倒扣了过来。而我们商船和航母也是一样的道理,特别是航母他们的生活区在一侧,并不是一个对称的船舶,所以发生倒扣倾覆的可能还是有的。
第二:很多时候大风浪天气并不能直接掀翻船舶,但是它能间接的摧毁船舶。为什么会这样说呢?大风浪天气下,船舶的左右摇晃,操纵性能急剧下降。这种感觉就像大风天气下,我们在马路上骑自行车,怎么蹬都蹬不动,最后一使劲把脚蹬子蹬掉了。船舶在海里也是一样,各种设备仪器,包括最为重要的螺旋桨都是有一定的负荷的,我们大风浪天气下必须顶风顶浪航行,一旦顺风顺流,船舶基本上就不可控制了,把握不了方向了。而如果一直顶风顶流,螺旋桨以及其他设备仪器一直高负荷运转,一旦设备崩溃,主机停车,船舶的结局就是随风漂流,最后撞上暗礁或者其他船舶,导致船舶漏水,最后慢慢的倾覆。即便再先进的航海技术我们能够保证设备仪器一定能够经得住大风大浪的洗礼吗?所以航母还是有可能被大风浪掀翻的。
第三:不管船舶有多么先进,上面的设备仪器多么精良,要知道最终驾驶船舶的还是我们船员。通过前面的介绍大家也许能够看的出来船员在大风浪天气下是多么的痛苦,多么的不堪。要知道即便再不晕车,即便再能忍,每个人的生理都是有极限值的,一旦超过了极限,没有人能够正常清晰的操作船舶了,那么船舶也只能随风漂流了。特别是航母一出海就是一个编队,旁边的其他船舶也非常多,一旦有这种情况,船舶相互之间乱撞,最后的结果也是船舶进水沉入海底。另外大风浪天下下,船舶的航向是不好把定的,一旦偏航船舶搁浅,危害也是非常大的。所谓的搁浅就是船舶直接被架了起来不能移动了,但是船舶都是用钢板拼接的,一旦搁浅,船底受力不平衡,很容易把钢板折断,严重着直接船舶断成两截,进而沉入海底。
我相信肯定有人会问:美国的十一艘航母全世界乱跑,基本上没有靠过港口,不是一直很安全吗?他们是怎样做到的呢?现在为了充分保证航母的安全,全世界有航母的国家都有了一套相对完善的应对措施,就拿我国来说吧。首先:目前我国的辽宁舰已经完成了多次深海演习,完全具备了远洋打击能力。在远洋航行就要注意恶劣的海况天下。在航母上成立了一个专业的海洋气象部门,他们时刻分析航母行走的路线是否有台风天气。一旦发现有,会立马上报进行研判,从而避开台风区。全世界的航母都是这样,首先会选择绕开台风区,毕竟台风都是有一定的行走路线的。而我们商船之所以不绕,是因为商船主要考虑经济效益,绕路会增加油耗,所以商船是不会绕的。并且商船只能接收陆地上发的气象信息,也不能及时的做出绕行反应。
其次:有时候台风的路线很诡异,变幻莫测,并不能按照气象专家的预判去行走。航母也会出现绕不开台风的情况。这个时候也是有办法的,他们会立马开会研判,寻找航母附近最近的岛屿或者锚地,因为军舰的速度都是非常快的,并且上面搭载有飞机,可以很快找到一个适合避台风的海域,这个时候只需要把航母开进这个海域,然后抛好锚就行了。虽然台风过境的时候,航母会晃动很大,但是至少不会有倾覆的风险。而台风很快也就过去了,这个时候航母再起锚正常航行就行了。
最后:如果实在是没有办法,必须要和台风搏斗了。其实船舶上也有一套完整的方案,那就是顶风顶浪航行,不在乎航线了,此刻顶着风浪就是安全的。风浪过去再调整航线也不迟。航母的主机动力比商船大的多,所以顶风浪的能力也更强。目前有记录的台风级别,航母都是可以顶的住的。如果实在不行,船舶已经失去了动力撞到了暗礁,并且开始进水需要弃船了,这个时候船上还会有救生艇,人员全部进去,然后抛进海里,它就像一个全封闭的球体,里面有对外联系的设备,等到台风过去再申请救援。
所以大自然的力量真的很强大,再先进的航海技术也不能保证百分之百安全,所以我们必须保证一颗敬畏之心。你们觉得呢?欢迎下方留言,我们一起探讨。
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!
1. 云图计划wiki,人工智能最大的潜力究竟是什么?
说到人工智能,很多人心目中就会想起施瓦辛格所扮演的终结者,或者《I, Robot》里面经典的机器人形象。如今,伴随着阿尔法狗和阿尔法元的出现,所有人都不得不承认,人工智能时代已经来了。而今天我们探讨的就是人工智能对于金融产业的彻底颠覆——当人工智能入侵金融的时候,哪些岗位将会被最终沦陷?
11月2日,在香港召开的2017博鳌亚洲青年论坛,正式将关注的视角聚焦于人工智能对于整个产业的冲击,并就此展开了一系列的探讨。与会的人士有香港工业总会名誉会长钟志平博士、硅谷知名投资人张璐以及凡普金科创始合伙人兼爱钱进CEO杨帆。作为金融业的代表人物,杨帆的观点很有代表性。
他以金融举例说,传统零售信贷走完从申请、资料录入、信审到尽职调查和最终批核的流程,大约需要1周时间,而用人工智能+大数据技术建立的模型,则可以把这个过程缩短到以秒计。顺着杨帆的话,我们不妨就人工智能入侵金融做两个预测。
一、人工智能将会抢走哪些金融人的饭碗?
金融业作为世界各个产业中最为璀璨的一颗明珠,向来被称为高薪富豪的诞生地,在各大高校之中,金融专业一直都是最热门的专业,然而即使是这个被称之为高门槛、高收益的专业,在人工智能的大潮之下依然面临着大量的竞争与替代,机器人将有可能对金融产业进行全面的颠覆。
近年来,人工智能技术逐渐从实验室走到寻常百姓家,由于数据和人工智能的天然联系,金融业成为了人工智能首先的冲击领域,目前国内外各大金融机构都在尝试使用人工智能替代纯粹的人工操作,帮助一般的金融人提升工作效率、降低企业成本。
在我们日常常见的金融交易当中,像信用评估、银行贷款、个人金融、量化投资、资产管理、市场研究、保险市场、投资分析、贷款催收、企业财务、通用预测、合规风控都有着人工智能的影子,都有可能被人工智能所替代。
根据高盛提供的数据,在2000年的时候,作为世界最大的投资银行,高盛集团的现金柜台股票交易员多达600名,人声鼎沸、人来人往的交易大厅是当时高盛最为热闹的一个场所,然而20年不到的时间,高盛所拥有的现金股票柜台交易员的数量已经骤减到2名,从600到2的转变,则直接与高盛全面的人工智能应用有着密不可分的关系。
在当天的论坛上,杨帆也作出了这样的预判:面对着人工智能日益快速的自动化发展,以及自我学习的能力,金融业正在成为首当其冲的进攻领域。根据他的判断,人工智能正在通过算法的全面提升,实现着自我的不断革新,类似司机这样的纯粹技术工种有着最大的被取代可能,而金融业更是一个和数据、算法等互联网技术密集交流的行业,这样的行业远比其他非算法行业有着更大的人工智能扩展纵深,人工智能在金融有着其他行业难以比拟的天然竞争优势,很多工作都会被人工智能所替代。比如凡普金科今年上线的自动建模机器人Robot Modeler水滴,通过对算法的全面革新已经可以替代人类完成大部分的金融建模工作。还有像选股、投顾这样的工作也开始被机器人选股、智能投顾所替代,人工智能正在用其独特的竞争优势,取代着人类在金融行业的领军地位。
根据杨帆及其领导的爱钱进这些年关于人工智能的市场实践来看,一些单一重复性高且薪资水平较高的岗位是最容易被取代的。类似于银行柜员、客服人员、风控人员等等,在面对人工智能的时候往往完全没有抵御能力。
相反,那些要求更多创新能力和协调能力的工作,则不那么容易被取代。我非常认同杨帆的这个观点,即人工智能并非是单一存在,它需要算法、芯片等一系列围绕人工智能的产业链,一大批全新的工作将会出现,金融业相比于现在更需要像程序员、算法工程师、硬件设计生产人员,培训人工智能成长、审核人工智能道德和合法性的人员出现。只要顺应潮流,积极投身于风口领域,增强自己的快速学习能力,用开放的心态、系统的思考才能让自己在人工智能的大潮之中立于不败之地。
所以,人工智能对于整个金融业的影响将会是结构颠覆性的。
二、人工智能对金融的变革
除了人工智能之外,整个金融科技正在深刻地改变着我们熟悉的金融市场,互联网金融作为最早接触金融科技的领域,也正在被人工智能飞快地革新着。以杨帆所在的凡普金科为例,人工智能已经开始对整个业务进行了全面的变革,其主要变革领域在以下几个方面:
一是对于练股选股的全面修炼。在资本市场上,如何选股一直都是所有市场投资者最为痛苦的一个难题,因为市场瞬息万变,在这样的市场上,资本市场遵循的是随机漫步的原理,随时都会出现让大家意想不到情况,但是人工智能正在用其巨大的分析能力,综合市场上各种信息,从而实现对于市场的掌控,举例来说,像凡普金科旗下的智能量化投资平台——会牛,通过结合大数据、机器学习、自然语言处理等人工智能技术,已经实现了在海量的信息中挖掘出有价值的数据,研发出属于人工智能的技术指标,并且具备了舆情分析、事件驱动的模型,从而实现了很多传统分析师需要熟练练习多年才能够掌握的股票画像能力,让股民的投资效率得到了真正的提升。
二是对于风险控制的改进。风险一直都是金融业作为重要的领域,风控的好坏将会直接影响金融的发展,凡普金科在风控领域的探索就是通过自主研发的“FinUp云图”,有效连接内外多元数据,通过机器学习和自然语言处理形成了一个用于风控的完整知识体系。在“FinUp云图”的深度学习中,真正模仿了人类大脑的行为,自动发现隐藏在复杂关系的中的风险点,从而挖掘出潜在的欺诈行为,将整个互联网金融的风控实现了流程的再造和变革,在贷前审核阶段,通过反欺诈引擎进行数据分析和处理,在贷中管理阶段,通过数据的动态分析实现实时不良状态的预警,在贷后管理阶段通过催收评分,添加事后标签的办法反馈至3R引擎进行处理,从而实现了风控的全面提升。而爱钱进的产品条线中已经全面引入了“FinUp云图”的相关技术,这些年的实践下来,爱钱进的风控能力呈现出快速的上升态势。
三是对于金融建模的革新。前面的人工智能应用还仅仅是人工智能的金融参与领域,而金融建模的人工智能则是实现了机器人化,凡普金科所设计的自动建模机器人Robot Modeler水滴模仿了人类建模分析师的思维方式,从取数生成指标建立模型到开发上线,实现端到端的自动交付,将原先需要1-2个月的复杂流程简化到了只需要1天,这样的设计真正实现了机器人的金融化,这样的建模能力有效地促进了其业务的发展。
通过智能动态风控系统“FINUP云图FinUp云图”与自动建模机器人Robot Modeler水滴的有机结合,凡普金科已经实现了从获客、运营到风控、贷后各个环节的全面应用,让金融服务效率得以提升,运营成本得以进一步降低。
可以预计,随着人工智能的进一步发展,基于人工智能的图像理解、语音识别和自然语言处理都将在金融业务的各个环节得到应用,当人工智能快速发展的时候,也许金融将有可能得到一个质的提升,这个时候对于普通人来说,大家可能需要进一步警惕了,只有不断提升自己的创造力,不断地去学习,拥有机器人取代不了的能力,也许才有可能在不断科技化的金融业中得以逆市求生。
2. 如何学习数据分析?
想要成为数据分析师,给大家分享一份初级的入门指南!
它包含Excel、数据可视化、数据分析思维、数据库、统计学、业务、以及Python。
这七part 的内容刚好涵盖了一位数据分析师需要掌握的基础体系,也是一位新人从零迈入数据大门的知识手册。
第一part:Excel
每一位数据分析师都脱离不开Excel。
它是日常工作中最常用的工具,如果不考虑性能和数据量,它可以应付绝大部分分析工作。虽然现在机器学习满地走,Excel依旧是无可争议的第一工具。
Excel的学习分为两个部分。
掌握各类功能强大的函数,函数是一种负责输入和输出的神秘盒子。把各类数据输入,经过计算和转换输出我们想要的结果。
在SQL,Python以及R中,函数依旧是主角。掌握Excel的函数有助于后续的学习,因为你几乎在编程中能找到名字一样或者相近的函数。
在「数据分析:常见的Excel函数全部涵盖在这里了」中,介绍了常用的Excel函数。
清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
关联匹配类:lookup、vlookup、index、match、row、column、offset
逻辑运算类:if、and、or、is系列
计算统计类:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
时间序列类:year、month、weekday、weeknum、day、date、now、today、datedif
搜索能力是掌握Excel的不二窍门,工作中的任何问题都是可以找到答案。
第二部分是Excel中的工具。
在「数据分析:Excel技巧大揭秘」教程,介绍了Excel最具性价比的几个技巧。包括数据透视表、格式转换、数组、条件格式、自定义下拉菜单等。正是这些工具,才让Excel在分析领域经久不衰。
在大数据量的处理上,微软提供了Power系列,它和Excel嵌套,能应付百万级别的数据处理,弥补了Excel的不足。
Excel需要反复练习,实战教程「数据分析:手把手教你Excel实战」,它通过网络上抓取的数据分析师薪资数据作为练习,总结各类函数的使用。
除了上述要点,下面是附加的知识点,铺平数据分析师以后的道路。
了解单元格格式,数据分析师会和各种数据类型打交道,包括各类timestamp,date,string,int,bigint,char,factor,float等。
了解数组,以及相关应用(excel的数组挺难用),Python和R也会涉及到 list,是核心概念之一。
了解函数,深入理解各种参数的作用。它会在学习Python中帮助到你。
了解中文编码,UTF8、GBK、ASCII,这是数据分析师的坑点之一。
第二part:数据可视化
数据分析界有一句经典名言,字不如表,表不如图。
数据可视化是分析的常用技巧之一,不少数据分析师的工作就是通过图表观察和监控数据。首先了解常用的图表:
Excel的图表可以100%绘制上面的图形,但这只是基础。
在「数据可视化:你想知道的经典图表全在这」中介绍了各类数据分析的经典图表,除了趋势图、直方图,还包括桑基图、空间图、热力图等额外的类型。
数据可视化不是图表的美化,而是呈现数据的逻辑之美,是揭示数据的内在关联。了解图表的维度和适用场景,比好看更重要。比如桑吉图就是我一直推崇的图表,它并不知名,但是它能清晰的揭露数据内在状态的变化和流向。案例是用户活跃状态的趋势。
Excel的图表操作很傻瓜化,其依旧能打造出一份功能强大的可视化报表。「数据可视化:教你打造升职加薪的报表」教给大家常用的Excel绘图技巧,包括配色选取,无用元素的剔除、辅助线的设立、复合图表等方法。
Excel图表的创造力是由人决定的,对数据的理解,观察和认知,以及对可视化的应用,这是一条很长的道路。
图表是单一的,当面板上绘制了多张图表,并且互相间有关联,我们常称之为Dashboard仪表盘。
上图就是用分析师薪资数据为数据源绘制的Dashboard,比单元格直观不少。我们常常把绘制这类Dashboard的工具叫做BI。
BI(商业智能)主要有两种用途。一种是利用BI制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量。这部分工作完全可以交给BI自动化完成,从数据规整、建模到下载。
另外一种是使用其可视化功能进行分析,它提供比Excel更丰富的交互功能,操作简单,而且美观,如果大家每天作图需要两小时,BI能缩短大半。
在「数据可视化:手把手打造BI」教程中,以微软的PowerBI举例,教大家如何读取数据,规整和清洗数据,绘制图表以及建立Dashboard。最后的成果就是上文列举的分析师案例。
BI还有几个核心概念,包括OLAP,数据的联动,钻取,切片等,都是多维分析的技巧,也是分析的核心方法之一。
后续的进阶可视化,将和编程配合。因为编程能够提供更高效率和灵活的应用。而BI也是技术方向的工具,了解技术知识对应用大有帮助。
第三part:数据分析思维数据分析能力的高低,不以工具和技巧决定,而以分析思维决定。
在一场战争中,士兵装备再好的武装,进行再严苛的训练,若是冲锋的方向错了,那么迎接他们的唯有一败涂地。
分析思维决定一场「数据战争」中的冲锋方向。只有先养成正确的分析思维,才能使用好数据。
既然是思维,它就倾向于思考的方式,Excel函数学会了就是学会,分析则不同。大多数人的思维方式都依赖于生活和经验做出直觉性的判断,以「我觉得我认为」展开,好的数据分析首先要有结构化的思维。
麦肯锡是其中领域的佼佼者,创建了一系列分析框架和思维工具。最典型地莫过于金字塔思维。
这篇文章简述了该思维的应用,「快速掌握麦肯锡的分析思维」。你能学会结构化思考,MECE原则,假设先行,关键驱动等方法论。
除此以外,还有SMART、5W2H、SWOT、4P4C、六顶思考帽等,这些都是不同领域的框架。框架的经典在于,短时间内指导新人如何去思考,它未必是最好的,但一定是性价比最优的。数据分析思维,是分析思维的引申应用。再优秀的思考方式,都需要佐证和证明,数据就是派这个用处的,「不是我觉得,而是数据证明」。
现代管理学之父彼得·德鲁克说过一句很经典的话:如果你不能衡量它,那么你就不能有效增长它。如果把它应用在数据领域,就是:如果你不能用指标描述业务,那么你就无法有效增长它。每一位数据分析师都要有指标体系的概念,报表也好,BI也好,即使机器学习,也是围绕指标体系建立的。
下图就是一个典型的指标体系,描述了用户从关注产品、下载、乃至最后离开的整个环节。每一个环节,都有数据及指标以查询监控。
不同业务背景需要的指标体系不同,但有几个建立指标的通用准则。这篇文章深入介绍了「如何建立数据分析的思维框架」。你将区分什么是好指标、什么是坏指标、比率和比例、指标的结构、指标设立的维度等概念。
数据分析不是一个结果,而是一个过程。几乎所有的分析,最终目的都是增长业务。所以比分析思维更重要的是驱动思维落地,把它转化为成果。
数据分析思维是常年累月养成的习惯,一周时间很难训练出来,但这里有一个缩短时间的日常习惯。以生活中的问题出发做练习。
这家商场的人流量是多少?怎么预估?
上海地区的共享单车投放量是多少?怎么预估?
街边口的水果店,每天的销量和利润是多少?怎么预估?
这些开放性问题起源于咨询公司的训练方法,通过不断地练习,肯定能有效提高分析思维。另外就是刷各种CaseBook。
优秀的数据分析师会拷问别人的数据,而他本身的分析也经得起拷问。
第四part:数据库
Excel很容易遇到瓶颈,随着业务的发展,分析师接触的数据会越来越多。对大部分人的电脑,超过十万条数据,已经会影响性能。何况大数据时代就是不缺数据,这时候就需要学习数据库了。
即使非数据岗位,也有越来越多的产品和运营被要求使用SQL。
很多数据分析师戏称自己是跑SQL的,这间接说明SQL在数据分析中有多核心。从Excel到SQL绝对是处理效率的一大进步。
教程内容以MySQL为主,这是互联网行业的通用标准。其实语法差异不大的。
新手首先应该了解表的概念,表和Excel中的sheet类似。「写给新人的数据库指南」是一篇入门基础文章,包括表、ID索引、以及数据库的安装,数据导入等简单知识。
SQL的应用场景,均是围绕select展开。增删改、约束、索引、数据库范式均可以跳过。新手在「SQL,从入门到熟练」教程会学习到最常见的几个语法,select、where、group by、if、count/sum、having、order by、子查询以及各种常用函数。
数据还是分析师薪资数据,它可以和Excel实战篇结合看,不少原理都是相通的。
想要快速掌握,无非是大量的练习。大家可以在leetcode上做SQL相关的练习题,难度从简单到困难都有。「SQL,从熟练到掌握」教程中将会带领大家去刷一遍。
join对新手是一个很绕的概念,教程会从图例讲解,逐步提高难度。从一开始的join关联,到条件关联、空值匹配关联、子查询关联等。最后完成leetcode中的hard模式。
如果想要更进一步,可以学习row_number,substr,convert,contact等函数。不同数据平台的函数会有差异,例如Presto和phpMyAdmin。再想提高,就去了解Explain优化,了解SQL的工作原理,了解数据类型,了解IO。知道为什么union比or的效率快,这已经和不少程序员并驾齐驱。
第五part:统计学
很多数据分析师并不注重统计学基础。
比如产品的AB测试,如果相关人员不清楚置信度的含义和概念,那么好的效果能意味着好么?如果看待显著性?
比如运营一次活动,若不了解描述统计相关的概念,那么如何判别活动在数据上的效果?可别用平均数。
不了解统计学的数据分析师,往往是一个粗糙的分析师。如果你想要往机器学习发展,那么统计学更是需要掌握的基础。
统计知识会教大家以另一个角度看待数据。如果大家了解过《统计数据会撒谎》,那么就知道很多数据分析的决策并不牢靠。
在第一篇教程「解锁数据分析的正确姿势:描述统计」,会教给大家描述统计中的诸多变量,比如平均数、中位数、众数、分位数、标准差、方差。这些统计标准会让新手分析师从平均数这个不靠谱的泥潭中出来。
箱线图就是描述统计的大成者,好的分析师一定是惯用箱线图的常客。
第二篇「解锁数据分析的正确姿势:描述统计(2)」将会结合可视化,对数据的分布进行一个直观的概念讲解。很多特定的模型都有自有的数据分布图,掌握这些分布图对分析的益处不可同日而语。
直方图和箱线图一样,将会是长久伴随分析师的利器。
统计学的一大主要分支是概率论,概率是度量一件事发生的可能性,它是介于0到1之间的数值。很多事情,都可以用概率论解释,「概率论的入门指南」和「读了本文,你就懂了概率分布」都是对其的讲解。
包括贝叶斯公式、二项概率、泊松概率、正态分布等理论。理论不应用现实,那是无根之木,教程中会以运营活动最常见的抽奖概率为讲解,告诉大家怎么玩。
其实数据分析中,概率应用最广泛和最全面的知识点,就是假设检验,大名鼎鼎的AB测试就是基于它的。俗话说得好,再优秀的产品经理也跑不过一半AB测试。
何为假设检验?假设检验是对预设条件的估计,通过样本数据对假设的真伪进行判断。
产品改版了,用户究竟喜不喜欢?调研的评分下降了,这是用户的评价降低了,还是正常的数据波动呢?这些都是可以做假设检验的。它可以说是两面两篇文章的回顾和应用。
「数据分析必须懂的假设检验」依旧以互联网场景讲解各种统计技巧的应用。假设检验并不难,通过Excel的几个函数就能完成。它的难点在于诸多知识点和业务的结合使用,实际公式不需要掌握的多透彻,了解背后的意义更重要。
统计学是一个很广阔的领域,包括方差分析,时间序列等,都有各自不同的应用。大家若感兴趣,可以去阅读各类教材,没错,教材是学习统计学最优的方式。我这类文章堪堪算入门罢了。
第六part:业务
对于数据分析师来说,业务的了解比数据方法论更重要。举个例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。这个案例中,我们只知道送货员的送货水平距离,根本不知道垂直距离。这是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。业务形态千千万万,数据分析师往往难窥一二。我的公众号业务部分也涉及了不少,大家可以通过这几篇文章了解。
一篇文章读懂活跃数据;深入浅出,用户生命周期的运营;获取新增用户,运营都应该知道的事;运营的商业逻辑:CAC和CLV;从零开始,构建数据化运营体系;读懂用户运营体系:用户分层和分群,这些都是互联网运营相关的内容,或多或少涉及了不少业务方面的概念,数据分析人员可以选择性的挑选部分内容。了解业务的数据分析师在职场发展上会更加顺利。
而在「最用心的运营数据指标解读」中,我尝试总结了几个泛互联网领域的指标和业务模型,它们都是通用的框架。
产品运营模型:以移动端APP为主体,围绕AARRR准则搭建起数据框架。包括Acquisition用户获取、Activation用户活跃、Retention用户留存、Revenue营收、Refer传播,以及细分指标。
市场营销模型:以传统的市场营销方法论为基底,围绕用户的生命周期建立框架。包括用户生命周期,生命周期价值、用户忠诚指数、用户流失指数、用户RFM价值等。
流量模型:从早期的网站分析发展而来,以互联网的流量为核心。包括浏览量曝光率、病毒传播周期、用户分享率、停留时间、退出率跳出率等。
电商和消费模型:以商品的交易、零售、购买搭建而起。包括GMV、客单价、复购率、回购率、退货率、购物篮大小、进销存,也包含SKU、SPU等商品概念。
用户行为模型:通过用户在产品功能上的使用,获得精细的人群维度,以此作为分析模型。包括用户偏好、用户兴趣、用户响应率、用户画像、用户分层,还包含点赞评论浏览收藏等功能的相关指标。
除了上述的几个常见模型,数据分析还有其他分支。比如SEO/SEM,虽然可以归类到流量模型,但它并不简单。比如财务分析,商业的各种成本支出也需要专人负责。
在业务知识外,业务层面的沟通也很重要。业务线足够长的时候,沟通往往成为老大难的问题。
业务学习没有捷径,哪怕掌握了诸多模型,不同行业间的业务壁垒会是分析师们的门槛。金融的各类专有领域知识,电子商务不同产品的特性,这些都会影响到分析报告的质量。
在早期,新人最好选择一到两个领域深入了解其业务,然后以此拓展边界。
第七part:Python/R
第七周是最后的学习环节。
是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘、BI、爬虫、可视化报表都需要用到编程。掌握一门优秀的编程语言,可以让数据分析师升职加薪,迎娶白富美。数据分析领域最热门的两大语言是R和Python。R的优点是统计学家编写的,缺点也是统计学家编写。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。
Python则是万能的胶水语言,适用性强,可以将分析的过程脚本化。Pandas、Numpy、SKLearn等包也是非常丰富。
这里的教程以Python为主。
「开始Python的新手教程」将会教大家搭建数据分析环境,Anaconda是功能强大的数据科学工具。Python建议安装Python3+版本,不要选择Python2了。
Python的语法相当简洁,大家print出第一个hello world顶多半小时。就像在Excel上进行运算一样方便。
「开始Python的数据结构」介绍给大家Python的三类数据结构,列表list,元组tuple,以及字典dict。万变不离其宗,掌握这三种数据结构以及相对应的函数,足够应付80%的分析场景。函数式编程为Python一大特色,Python自身就提供不少丰富的函数。很多都和Excel的函数相通,掌握起来非常迅速。另外还有控制流,for、while、if,通常配合函数组合使用。
「了解和掌握Python的函数」教大家如何自定义函数,丰富的函数虽然能偷懒,但是不少场景下,还是需要自己动手撸一个。
能够调第三方包解决,就使用第三方的函数。如果是一个频繁使用的场景,而第三方依靠不了,就自己编一个函数。如果是临时性的场景,写得粗糙点也无所谓。毕竟分析师的代码能力不要求工程师那么严格,所以Python的学习尽量以应用为主,不用像分析师那么严格。
包、模块和类的概念属于进阶知识,不学也不要紧。
「Python的数据分析: numpy和pandas入门」介绍了数据分析师赖以生存的两个包,numpy和pandas,其他Python知识可以不扎实,这两个最好认真掌握。它是往后很多技能树的前置要求。
array,series,dataframe是numpy和pandas的三个数据结构,掌握它们,便算是入门了。后续的两篇教程都是实战。
「用pandas进行数据分析实战」以分析师的薪资作为实战数据。Excel、BI、SQL,一路走来,大家想必对它无比熟悉,这也是最后一次使用它了。教程通过Pandas的各类功能,绘制出一副词云图。
最后一篇教程,将结合以往的知识点,包括业务指标,可视化,描述统计学等内容。「用Python分析用户消费行为」,完成它,不说登堂入室,但也是一位合格的数据分析师了。
它使用某网站的用户消费数据,计算各类常见指标:用户的客单价、人均购买量、回购率、复购率、留存率、平均生命周期等,真正做到融会贯通。用一份数据报告作为毕业作品,也是七周系列最好的结业证书了。
对于没有技术基础的同学,第七part最吃力,但已经完成到这一步,不妨让自己咬咬牙学习下去。
最后
如果能够看完到这里的同学,相信你是对数据分析真正感兴趣的。
3. 大海中行驶的航母有可能被大海的力量掀翻吗?
请问一下各位海员,你们去过非洲的好望角吗?我们船载重量20万吨,但每次走到好望角海域,那种感觉就像我们平常做过山车一样,并且船舶一晃就是几天,说实话虽然现在航海技术很发达了,航母被大海掀翻的可能性还是有的。
我没有在航母上工作过,但是我是一名远洋的商船船员,并且我们船的长度比航母还要长几十米,就像一个巨型的不倒翁一样航行在海上,首先给大家科普一下,我们船员在深海之中遇到大风浪时的真实状态。也许大家就能够想象的出来航母是不是有可能被大海掀翻了。首先:对于大多数人来说在陆地上基本上没有见过太大的风,也许在每年夏季台风入境的时候,沿海地区的民众才会觉得风力很大。其实船舶行驶在深海之中,这种情况是特别普遍的,十二级的大风对于船舶来说就像我们人类吃饭一样普遍,因为海上是没有任何遮挡物的,船舶受到风的力量那真的是实实在在的存在。也许很多人不明白,真正能掀翻船舶的并不是风,而是海里的浪。因为风大而起的浪力量并不是太大,对于船舶的摧毁也是特别有限的,可怕的就是涌浪,很多时候看似海面风平浪静,实际上海底波涛汹涌。这个时候的船舶就像飘落在水里面的一片树叶一样,有时候左右摇摆,有时候前后摇摆,而此刻我们船员在船上工作,不仅要握紧栏杆,双腿时刻要叉开保持稳定,一旦松手,就能在船上来回滚动,这种感觉就像我们平常玩的“网红桥”感觉一样。
其次:不管是商船还是航母都有一定的生活区,这种感觉就和我们平常小区里面生活一样,有单独的房间,卫生间。房间里面摆满了生活用品。由于船舶特殊的环境,每个房间的桌子柜子以及床都是固定不动的。但是桌子上会摆放我们的生活用品呀!比如电脑,书籍,洗发露,牙膏牙刷之类的。当船舶遇到大风浪的时候,我们根本来不及收拾这些东西,所有的物品全部摔落在地上,并且随着船舶的摇晃,掉在地上的物品一直来回滚动,发出噼里啪啦的声音,就连床上的被子铺的整整齐齐的,也能被晃落在地上,这个时候船员只能抱着固定好的沙发腿,眼瞅着自己的物品随着晃动来回的砸向自己而束手无策,因为这个时候的船员根本站不起来,即便把东西捡起来,根本没有地方放,毕竟全船都在摇晃。我做了六年的船员,换了四台电脑,每一台都被摔的粉碎,这真的没有办法去避免。
最后:不管风浪有多大,船舶一直处于航行状态,越是风浪大的时候,船员们的工作越多。因为随着船舶的剧烈晃动,各种机械设备也很容易出问题,驾驶台里面各种报警器很容易响起来。我曾经多次在船舶晃动的时候,爬着从自己房间到船舶驾驶台值班,即便是爬着我的脸也被左右晃动的船舶墙壁撞的鼻青脸肿。最后终于爬上来驾驶台,一个大浪打过来,船舶迅速向右边倾斜,并且角度特别大,我从左边一下子被晃动的幅度带到了右边,身子狠狠地撞在了墙上,就这样随着船舶左右摇晃,我在驾驶台左右两侧来回跑动。最后用自己的皮带把自己固定在了驾驶台上的栏杆上。不知道大家有没有这种感受,越是头晕难受的时候,越想上吐下泻。我第一次上船的时候,船舶晃的时候,我一边坐在马桶上,两只手狠狠地拉住马桶两侧的扶手,突然还想吐,手拉着栏杆,头低不下去,就这样直接仰着头喷射了出来。坐在马桶上拉着肚子,两只手使劲的拉着马桶两侧的栏杆保持稳定,突然嘴里面还吐了出来,眼睛里面还流着泪,脸色苍白,那种画面你们可以想象一下,多么凄惨!
其实航母在遭遇大风浪天气下,遇到意外的情况还是有的,一般表现为以下几个方面。第一:我们都知道不管是航母还是商船为了保持稳心,重心都是非常低的。我们平常看到在海面上航行的船舶感觉很大,其实船舶水面以下我们看不到的部位会更大。水面以下的部分都是空心的,我们专业术语叫做“压载舱”,遇到大风浪的时候,压载舱里面大量注入海水,让船的底部尽可能的重,就类似于不倒翁的原理。但是在遇见极端的海况之下,船舶左右摇晃的特别厉害,一旦超过了船舶承受的摇晃角度一下子就倒扣了过来。我们可能在公园里面都玩过小游船,如果一个人在上面左右使劲晃,超过一定的角度一下子就倒扣了过来。而我们商船和航母也是一样的道理,特别是航母他们的生活区在一侧,并不是一个对称的船舶,所以发生倒扣倾覆的可能还是有的。
第二:很多时候大风浪天气并不能直接掀翻船舶,但是它能间接的摧毁船舶。为什么会这样说呢?大风浪天气下,船舶的左右摇晃,操纵性能急剧下降。这种感觉就像大风天气下,我们在马路上骑自行车,怎么蹬都蹬不动,最后一使劲把脚蹬子蹬掉了。船舶在海里也是一样,各种设备仪器,包括最为重要的螺旋桨都是有一定的负荷的,我们大风浪天气下必须顶风顶浪航行,一旦顺风顺流,船舶基本上就不可控制了,把握不了方向了。而如果一直顶风顶流,螺旋桨以及其他设备仪器一直高负荷运转,一旦设备崩溃,主机停车,船舶的结局就是随风漂流,最后撞上暗礁或者其他船舶,导致船舶漏水,最后慢慢的倾覆。即便再先进的航海技术我们能够保证设备仪器一定能够经得住大风大浪的洗礼吗?所以航母还是有可能被大风浪掀翻的。
第三:不管船舶有多么先进,上面的设备仪器多么精良,要知道最终驾驶船舶的还是我们船员。通过前面的介绍大家也许能够看的出来船员在大风浪天气下是多么的痛苦,多么的不堪。要知道即便再不晕车,即便再能忍,每个人的生理都是有极限值的,一旦超过了极限,没有人能够正常清晰的操作船舶了,那么船舶也只能随风漂流了。特别是航母一出海就是一个编队,旁边的其他船舶也非常多,一旦有这种情况,船舶相互之间乱撞,最后的结果也是船舶进水沉入海底。另外大风浪天下下,船舶的航向是不好把定的,一旦偏航船舶搁浅,危害也是非常大的。所谓的搁浅就是船舶直接被架了起来不能移动了,但是船舶都是用钢板拼接的,一旦搁浅,船底受力不平衡,很容易把钢板折断,严重着直接船舶断成两截,进而沉入海底。
我相信肯定有人会问:美国的十一艘航母全世界乱跑,基本上没有靠过港口,不是一直很安全吗?他们是怎样做到的呢?现在为了充分保证航母的安全,全世界有航母的国家都有了一套相对完善的应对措施,就拿我国来说吧。首先:目前我国的辽宁舰已经完成了多次深海演习,完全具备了远洋打击能力。在远洋航行就要注意恶劣的海况天下。在航母上成立了一个专业的海洋气象部门,他们时刻分析航母行走的路线是否有台风天气。一旦发现有,会立马上报进行研判,从而避开台风区。全世界的航母都是这样,首先会选择绕开台风区,毕竟台风都是有一定的行走路线的。而我们商船之所以不绕,是因为商船主要考虑经济效益,绕路会增加油耗,所以商船是不会绕的。并且商船只能接收陆地上发的气象信息,也不能及时的做出绕行反应。
其次:有时候台风的路线很诡异,变幻莫测,并不能按照气象专家的预判去行走。航母也会出现绕不开台风的情况。这个时候也是有办法的,他们会立马开会研判,寻找航母附近最近的岛屿或者锚地,因为军舰的速度都是非常快的,并且上面搭载有飞机,可以很快找到一个适合避台风的海域,这个时候只需要把航母开进这个海域,然后抛好锚就行了。虽然台风过境的时候,航母会晃动很大,但是至少不会有倾覆的风险。而台风很快也就过去了,这个时候航母再起锚正常航行就行了。
最后:如果实在是没有办法,必须要和台风搏斗了。其实船舶上也有一套完整的方案,那就是顶风顶浪航行,不在乎航线了,此刻顶着风浪就是安全的。风浪过去再调整航线也不迟。航母的主机动力比商船大的多,所以顶风浪的能力也更强。目前有记录的台风级别,航母都是可以顶的住的。如果实在不行,船舶已经失去了动力撞到了暗礁,并且开始进水需要弃船了,这个时候船上还会有救生艇,人员全部进去,然后抛进海里,它就像一个全封闭的球体,里面有对外联系的设备,等到台风过去再申请救援。
所以大自然的力量真的很强大,再先进的航海技术也不能保证百分之百安全,所以我们必须保证一颗敬畏之心。你们觉得呢?欢迎下方留言,我们一起探讨。
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!