# 数据分析
# 目标
数据分析是独立于开发和算法岗的另一个方向,它主要是通过应用机器学习和深度学习的已有算法来分析现实问题的一个方向
我们常说:数据是客观的,但是解读数据的人是主观的。
数据这门科学就像中西医混合的一门医学,既要有西医的理论、分析模型以及实验,又需要有中医的望闻问切这些个人经验。
因此你在进行这一项任务的时候,除了希望你可以去学会用 python 进行数据分析外,也希望你可以尝试用数据的维度去解释周围的事情,并且用数据的眼光看代变化发展的世界。
> 这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人
# 什么是数据科学
数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集了相当大量的数据,现在是分析它们的时候了。从数据中产生建议并创建对未来的预测。[在这个网站中](https://www.quora.com/Data-Science/What-is-data-science),您可以找到对于数据科学的更为精确的定义。
# Datawhale的生态体系
在与Datawhale开源委员会的负责人文睿进行一翻畅谈之后。zzm受震惊于其理念以及已经构建的较为完善的体系架构,毅然决然的删除了本章和其广泛的体系比起来相形见绌的内容。为了更大伙更好的阅读以及学习体验,我们决定在本章内容引入[datawhale人工智能培养方案数据分析体系](https://datawhale.feishu.cn/docs/doccn0AOicI3LJ8RwhY0cuDPSOc#),我们会尝试站在巨人的肩膀上,争取更进一步的去完善它。
## SQL基础
[文字教程](https://github.com/datawhalechina/wonderful-sql)
SQL是一种广泛应用于关系型数据库管理系统的编程语言。有的人可能会有疑问,为什么要学数据库或者数据库到底要干嘛?
如果你知道一些基本的在计算机内的组织数据的方式,从微观上来说,可能是所谓的数组,链表,树之类的。
但是对想使用计算机的角度来说,不能我每多一种不同的数据,我就要考虑该怎么设计一个非常优雅的数据结构来解决问题。有时候我们想存相当多的固定的数据,比如说你现在要爬取一千万条房价数据然后把房子的各种信息存起来,如果你存在excel表里面,他可能会崩不崩不谈,你要想把数据提取出来就是一件很麻烦的事情,更何况我们会有更进一步的数据进行增删改查的需求。
这个时候我们就可以考虑使用数据库来解决他,其设计就是为了容纳大量的多种不同的数据形式并且非常优雅的把他组织起来,他的底层设计被严格的包装起来让你在处理的时候又快又好。我举一个例子:
SQL短短的几句语言找出符合以下看起来非常复杂的需求:
1. 找到123航班的所有乘客
2. 找到123航班的没有托运行李的乘客
3. 找到今年四月所有预定了123航班的往返航程的乘客并且他们定的内容是同一架飞机并且他们要的座位都靠窗
如果你要自己设计一个数据结构,那可能会非常复杂,用好的组织方式把他拍出来甚至进行增删改查甚至是四个人同时增删改查的工作。
因此,如果你有这方面的需求,或者说你很好奇这种组织形式,欢迎你去学习这篇课程
# 学这个有前途吗?
我推荐你详细了解和学习一下数据科学竞赛,他的含金量在职场领域有时候相当高,并且对提升自身的实里也有相当大的帮助!
由于数据竞赛办的频率较高更新也很快,我们将这一话内容直接附上github链接,希望如果你喜欢的话可以去进一步了解
[数据竞赛Baseline & Topline分享](https://github.com/datawhalechina/competition-baseline)