91 lines
5.7 KiB
Markdown
91 lines
5.7 KiB
Markdown
# 数据科学
|
||
|
||
# 目标
|
||
|
||
数据分析是独立于开发和算法岗的另一个方向,它主要是通过<strong>应用</strong>机器学习和深度学习的<strong>已有算法</strong>来分析现实问题的一个方向
|
||
|
||
我们常说:数据是客观的,但是解读数据的人是主观的。
|
||
|
||
数据这门科学就像中西医混合的一门医学,既要有西医的理论、分析模型以及实验,又需要有中医的望闻问切这些个人经验。
|
||
|
||
|
||
> 这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人
|
||
|
||
|
||
# 什么是数据科学
|
||
|
||
数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集了相当大量的数据,现在是分析它们的时候了。从数据中产生建议并创建对未来的预测。[在这个网站中](https://www.quora.com/Data-Science/What-is-data-science),您可以找到对于数据科学的更为精确的定义。
|
||
|
||
同时,我向各位推荐一个非常有趣的科普视频想你讲解数据分析师到底在做什么:[怎么会有这么性感的职业吶?](https://www.bilibili.com/video/BV1ZW4y1x7UU/?spm_id_from=333.999.0.0&vd_source=2cb6252f9211ae9d29cf1f76f0aea8d7)
|
||
|
||
# Datawhale的生态体系
|
||
|
||
在与Datawhale开源委员会的负责人文睿进行一翻畅谈之后。zzm受震惊于其理念以及已经构建的较为完善的体系架构,毅然决然的删除了本章和其广泛的体系比起来相形见绌的内容。为了更大伙更好的阅读以及学习体验,我们决定在本章内容引入[datawhale人工智能培养方案数据分析体系](https://datawhale.feishu.cn/docs/doccn0AOicI3LJ8RwhY0cuDPSOc#),我们会尝试站在巨人的肩膀上,争取更进一步的去完善它。
|
||
|
||
# 数据处理
|
||
|
||
|
||
::: danger 根据真实事件改编
|
||
|
||
后人哀之而不鉴之,亦使后人而复哀后人也!
|
||
|
||
请欣赏小故事的同时,根据自己的需求选择自己想学的教程
|
||
|
||
:::
|
||
## Day1
|
||
|
||
你是一个可怜的大一学生,学校的短学期的第一天,你的心情非常好,因为要放寒假了,只要再坚持过这个短学期,你的快乐假期要来了!什么是短学期?不知道啊,也没听学长说过,好像是新研究出来的一个课程,去试试看吧。
|
||
|
||
当你快乐的走进教室,老师告诉你:“你们看看PPT上的任务,自由选择啊!”
|
||
|
||
你看到PPT上赫然印着
|
||
::: tip 任务目标
|
||
基础系统:
|
||
1. 淘宝客户价值分析系统,实现获取数据,数据处理,数据分析。
|
||
2. 二手房数据分析预测系统,实现爬去数据,数据分析,绘制图表。
|
||
3. 智能停车场运营分析系统,实现爬去数据,数据分析,绘制图表。
|
||
4. 影视作品分析系统,实现爬去数据,数据分析,绘制图表。
|
||
升级系统:
|
||
1. 利用爬虫理论,实现 12306 抢票小助手系统。
|
||
2. 利用数据分析方法,实现淘宝商品排行分析。
|
||
3. 利用爬虫原理,爬 Google 搜索引擎分析。”
|
||
4. 利用数据分析方法,实现微薄留言区域特征分析。自由系统:
|
||
要求实现三项以上的功能模块或三种以上的特征分析或提取。
|
||
:::
|
||
|
||
心中一惊,暗道不妙,这都什么玩意,怎么还有爬谷歌,淘宝和抢12306的票啊,这tm不是犯法的么!这我要能做出来我还上什么大一的学啊!
|
||
|
||
老师紧接着补充“十个人一组啊!一周内做完,数据自己想办法,第三天就要检查你们的进度了!”
|
||
|
||
这是你倒是暗暗松了一口气,好像十个人一起干也没有那么复杂!(这时正是达克效应的愚昧之峰,错误的认为工作总量就是工作量除以十)迅速的组好队之后,你问了问大伙的进度,what?大伙都没有python基础,只有我有?幸好学了hdu-wiki和datawhale的[聪明方法学python](https://github.com/datawhalechina/learn-python-the-smart-way)
|
||
|
||
那就把教程分给大伙吧,我们选一个最简单的,二手房数据的分析系统好了!第一天选好题了,又是大下午的,摆了摆了,你开心的打开电脑,打开了steam
|
||
|
||
day 1 End!
|
||
|
||
## Day 2
|
||
|
||
|
||
[文字教程](https://github.com/datawhalechina/wonderful-sql)
|
||
|
||
首先我想介绍一下SQL,SQL是一种广泛应用于关系型数据库管理系统的编程语言。有的人可能会有疑问,为什么要学数据库或者数据库到底要干嘛?
|
||
|
||
如果你知道一些基本的在计算机内的组织数据的方式,从微观上来说,可能是所谓的数组,链表,树之类的。
|
||
|
||
但是对想使用计算机的角度来说,不能我每多一种不同的数据,我就要考虑该怎么设计一个非常优雅的数据结构来解决问题。有时候我们想存相当多的固定的数据,比如说你现在要爬取一千万条房价数据然后把房子的各种信息存起来,如果你存在excel表里面,他可能会崩不崩不谈,你要想把数据提取出来就是一件很麻烦的事情,更何况我们会有更进一步的数据进行增删改查的需求。
|
||
|
||
这个时候我们就可以考虑使用数据库来解决他,其设计就是为了容纳大量的多种不同的数据形式并且非常优雅的把他组织起来,他的底层设计被严格的包装起来让你在处理的时候又快又好。我举一个例子:
|
||
|
||
|
||
|
||
|
||
|
||
# 学这个有前途吗?
|
||
|
||
我推荐你详细了解和学习一下数据科学竞赛,他的含金量在职场领域有时候相当高,并且对提升自身的实里也有相当大的帮助!
|
||
|
||
由于数据竞赛办的频率较高更新也很快,我们将这一话内容直接附上github链接,希望如果你喜欢的话可以去进一步了解
|
||
|
||
[数据竞赛Baseline & Topline分享](https://github.com/datawhalechina/competition-baseline)
|
||
|