diff --git a/4.人工智能/4.8数据分析.md b/4.人工智能/4.8数据分析.md index 33537ee..cb39abd 100644 --- a/4.人工智能/4.8数据分析.md +++ b/4.人工智能/4.8数据分析.md @@ -1,7 +1,10 @@ # 数据科学 -# 本章内容会从一个小故事开始,讲讲某个人在大一的悲惨经历来为大家串起来一个精简的数据科学工作包括了哪些步骤同时给各位介绍一些优质的教程 +# 本章内容会从一个小故事开始 +讲讲某个人在大一的悲惨经历来为大家串起来一个精简的数据科学工作包括了哪些步骤,同时给各位介绍一些优质的教程 + +同时,这章内容将详细阐述[与人合作的生死疲劳](https://www.bilibili.com/video/BV1494y1o7jp/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=2cb6252f9211ae9d29cf1f76f0aea8d7) # 悲惨世界 @@ -33,19 +36,21 @@ 要求实现三项以上的功能模块或三种以上的特征分析或提取。 ::: -心中一惊,暗道不妙,这都什么玩意,怎么还有爬谷歌,淘宝和抢12306的票啊,这tm不是犯法的么!这我要能做出来我还上什么大一的学啊! +心中一惊,暗道不妙,这都什么玩意,怎么还有爬谷歌,淘宝和抢12306的票啊,这tm不是犯法的么!这我要能做出来我还上什么大一的学啊!🥺🥺🥺🥺 老师紧接着补充“十个人一组啊!一周内做完,数据自己想办法,第三天就要检查你们的进度了!” -这是你倒是暗暗松了一口气,好像十个人一起干也没有那么复杂!(这时正是达克效应的愚昧之峰,错误的认为工作总量就是工作量除以十)迅速的组好队之后,你问了问大伙的进度,what?大伙都没有python基础,只有我有?幸好学了hdu-wiki和datawhale的[聪明方法学python](https://github.com/datawhalechina/learn-python-the-smart-way) +这是你倒是暗暗松了一口气,好像十个人一起干也没有那么复杂!😎(这时正是愚昧之峰,错误的认为工作总量就是工作量除以十)迅速的组好队之后,你问了问大伙的进度,what?大伙都没有python基础,只有我有?幸好学了hdu-wiki和datawhale的[聪明方法学python](https://github.com/datawhalechina/learn-python-the-smart-way) -那就把教程分给大伙吧,我们选一个最简单的,二手房数据的分析系统好了!第一天选好题了,又是大下午的,摆了摆了,你开心的打开电脑,打开了steam +那就把教程分给大伙吧,我们选一个最简单的,二手房数据的分析系统好了! + +第一天选好题了,又是大下午的,摆了摆了,你开心的打开电脑,打开了steam,开摆! day 1 End!🤣 ## Day 2 -昨天真是美滋滋的一天,今天就开始干活好了,反正一周时间呢,比期末复习周可长太多了,就做这么个玩意我还能做不出来吗? +昨天真是美滋滋的一天,玩了一晚上的你有点头昏脑涨,今天就开始干活好了,反正一周时间呢,比期末复习周可长太多了,就做这么个玩意我还能做不出来吗? 虽然你没有学过爬虫,但是你很幸运的找到了github上一个现成的爬虫代码,虽然费了一翻力气,但是仍然躲过了某房价网站的爬虫,他成功爬下来了,我们就把他存在哪里呢?~~(爬虫待补充) @@ -70,15 +75,17 @@ day 2 End 😔! ## Day 3 -God!No!昨天已经够累的了,今天老师还要讲课,还要早起!你期待着老师可以降低要求,可是当老师托起长音,讲起了他知道了学生的累,所以今天决定开始讲课了!(现在讲有毛用啊,你明天就要验收我们的进度了!)而他却慢悠悠的开始讲python的历史,把这点内容讲了足足两节课,你终于绷不住了,本来时间就不够,他竟然又浪费了你足足一早上的时间!这也太该死了!🤬 +God!No!昨天已经够累的了,今天老师还要讲课,还要早起!你期待着老师可以降低要求,可是当老师托起长音,讲起了他知道了学生的累,所以今天决定开始讲课了!(现在讲有毛用啊,你明天就要验收我们的进度了!) -你回到了寝室,准备今天争取数据分析完就直接交上去好了,开摆! +而他却慢悠悠的开始讲python的历史,把这点内容讲了足足两节课,你终于绷不住了,本来时间就不够,他竟然又浪费了你足足一早上的时间!这也太该死了!🤬 + +你回到了寝室,准备今天争取数据分析完就直接交上去好了! 可是你发现了一个让你震惊的噩耗!你找到的数据,是混乱的!😱 这个野鸡房价网站每个城市的排版不一样,你爬虫爬取的完全是按照顺序标的,也就是说你爬取的所有房价信息处于混沌状态!完全就相当于给每个房子爬了一段句子的描述! -没有办法了,看来今天有的折腾了,你找到了一个叫pandas的东西,找到了这个教程[Joyful-Pandas](https://github.com/datawhalechina/joyful-pandas),开始了一天的学习! +没有办法了,看来今天有的折腾了,你找到了一个叫pandas(熊猫?)的东西,找到了这个教程[Joyful-Pandas](https://github.com/datawhalechina/joyful-pandas),开始了一天的学习! 你了解到pandas是一个开源的Python数据处理库,提供了高性能、易用、灵活和丰富的数据结构,可以帮助用户轻松地完成数据处理、清洗、分析和建模等任务。你使用了DataFrame来装载二维表格对象。 @@ -90,17 +97,26 @@ God!No!昨天已经够累的了,今天老师还要讲课,还要早起!你 不论怎么说,你勉强有了一份看得过去的数据,你看了看表,已经晚上十一点半了,今天实在是身心俱疲! -问问队友吧,什么,他们还是在python语法?! +问问队友吧,什么,他们怎么还是在python语法?!你就像进了米奇不妙屋~队友在想你说“嘿~你呀瞅什么呢~是我!你爹~” 此时你像一头挨了锤的老驴,曾经的你有好多奢望,你想要GPA,想要老师的认同,甚至想要摸一摸水里忽明忽暗的🐟,可是一切都随着你的hadworking变成了泡影。 +可是步步逼近的截止日期不允许你有太多的emo期,说好的七天时间,最后一天就剩下展示了!也就是说实际上只有6天的开发时间,也就是说你必须得挑起大梁了 + +> 世界上只有一种真正的英雄主义,那就是看清生活的真相之后,依然热爱生活 + +好的,你真不愧是一个真正的英雄! + day 3 end!👿 👹 👺 🤡 ## Day 4 老师在验收的时候认为你什么工作也没做,他认为一份数据实在是太单薄了,特别是被你疯狂结构优化后的数据已经没几个特征了,让你去做点看得到的东西,不然就要让你不及格了,你的心里很难过,你想到也许你需要一些更好看的东西。数据可视化你在昨天的pandas看到过,可是你并没有详细了解,你觉得pandas已经在昨天把你狠狠的暴捶一顿了,并且老师想要更好看的图。 -于是你考虑pandas配合Matplotlib再加上Plotly绘制一些复杂的图。 +于是你考虑pandas配合Matplotlib画一些简单的图(Matplotlib的缺点是它的绘图语法比较繁琐,需要编写较多的代码才能得到漂亮的图形。) + +加上Plotly绘制一些复杂的图,让你的图有着更漂亮的交互效果,然后加上看起来很牛逼的英语描述 + 你找到了下面的教程 [matplotlib奇遇记文字教程](https://github.com/datawhalechina/fantastic-matplotlib) @@ -109,9 +125,11 @@ day 3 end!👿 👹 👺 🤡 [视频教程](https://www.bilibili.com/video/BV1Df4y1A7aR) 🤗 -你绘制了柱状图,散点图,箱线图,甚至花了点钱找了外包去做了一个前端的热力图,虽然你爬的城市和数据不够覆盖全国,但是可以数据不够绘图来凑啊!看起来牛逼不就得了。 +你绘制了柱状图,散点图,箱线图,甚至花了点钱找了外包去做了一个前端的热力图,虽然你爬的城市和数据不够覆盖全国,但是可以数据不够前端来凑啊!把城市的热量铺洒在全国。 -今天你觉得你的任务已经基本完成了,于是早早就心满意足的睡着了,在梦里,你好像看到了美好的假期时光。 😪 +这时你认为你的任务已经完成了!于是早早就心满意足的早早睡着了🍻 🥂。最近真的太累了,天天一两点睡,早上惊醒,做梦都是在爬数据分析数据!太可怕了! + +在梦里,你好像看到了美好的假期时光。 😪 day 4 end!~🤤 @@ -119,9 +137,9 @@ day 4 end!~🤤 你睡得很死,因为你已经你做完了所有的东西,第二天只要美美的验收结束,买了机票就可以回家了,可是老师仍然制止了你,跟你说如果你今晚走了就给你挂科,因为你没有用机器学习来分析他! -可是机票今晚就要起飞了啊!😰 +可是机票今晚就要起飞了啊!😰你已经要气疯了,想和老师据理力争,但是又害怕这么一个课被打上不及格的分数,这实在是太难受了! -终归你还是在老师的逼迫下,改签了机票,好吧,多少得加点功能了!呜呜呜~ +终归你还是在老师的逼迫下,改签了机票,好吧,多少得加点功能了!呜呜呜~🤢 🤮 可是你并不完全会机器学习的算法,可怜的大一本科生的你没有学信息论也没有学最优化理论,很多算法你完全不懂其理论知识!听说西瓜书很好,可是你在图书馆借到了西瓜书之后根本看不懂! @@ -129,18 +147,32 @@ day 4 end!~🤤 你也找到了西瓜书的代码实践[文字教程](https://github.com/datawhalechina/machine-learning-toy-code) -你对着他啃了半天,觉得轻松多了,但是!时间还是太紧张了!你没有办法从头开始实现了! +你对着他啃了半天,觉得很多东西你都能看懂了,你脑子里已经有了很多思路,你想按使用高级的机器学习的算法! -你想尝试[pytorch文字教程](https://github.com/datawhalechina/thorough-pytorch)但是时间也没办法让你去重整数据去训练了。 +但是!时间还是太紧张了!你没有办法从头开始实现了! -走投无路的你把目光看向了前端,看向了做出了hdu-wiki的前端大佬!ts先生!你将数据交给了他,恳求他替你解决一下问题!救人一命胜造七级浮屠,ts先生救了10条命,怎么说也造了70级的浮屠 +你想尝试[pytorch文字教程](https://github.com/datawhalechina/thorough-pytorch),但是时间也不够让你去重整数据去训练了。你随便塞在线性层里的数据梯度直接爆炸,你这时候还不知道归一化的重要性,紧张之下把几万几十万的房价往里面塞,结果结果烂成💩了,并且你没有波如蝉翼的基础知识并不够让你去解决这些个bug,只能疯狂的瞎挑参数,可是结果往往不如人意~ -ts先生嘎嘎猛,三下五除二的搞出了一套数据!将房价的曲线往上往后拉了一年并且画出了多个不同的曲线混在了一起,然后做出一套特别好看可交互的前端页面,又熟练的使用了pandas找出了数据的相关性!并且把它可视化了,让你圆满的通过了任务。 +时间来到了晚上八点,明天就要最后验收了,走投无路的你把目光看向了远在几十千米外已经入职了的大哥,晚上跟他打电话哭诉你最近的遭遇,你实在搞不懂,为什么十二生肖大伙都属虎,就你属驴。 + +大哥嘎嘎猛,连夜打车过来,我在因疫情封校的最后两个小时赶出了学校,和大哥一起租了个酒店,通宵奋战,他采取了更多更为优雅的特征工程和模型调参的方式,让模型优雅的收敛到了一定程度,再用春秋笔法进行汇总,在半夜两点半,终于将内容搞定了 终于你可以睡个好觉了~ day 5 end!😍 🥰 😘 +## Day 6 + +验收日,老师端坐在底下,宛如一尊大佛,提出了一系列无关紧要的问题,比如问我们能不能拿这个程序给老年人查资料??? + +等等问题和技术一点关系都没有!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! + +😣 😖 😫 😩 + +极度悲愤之下,当天晚上,你火速提着行李,离开了这伤心之地~~~~~~~~~~~~~~~~~ + +The End~~~~~~~~~~ + # 事后总结 你在那个暑假详细了解和学习一下数据科学竞赛,发现他的含金量在职场领域有时候相当高,并且对提升自身的实力也有相当大的帮助! @@ -149,19 +181,18 @@ day 5 end!😍 🥰 😘 你还发现了之前从来没有注意到的kaggle平台以及一些很棒的综合实践项目! -例如:根据贷款申请人的数据信息预测其是否有违约的可能 -教程地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl +例如[根据贷款申请人的数据信息预测其是否有违约的可能](https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl) -例如:根据汽车类型等信息预测二手汽车的交易价格 -教程地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/SecondHandCarPriceForecast -零基础入门数据分析之学术前沿趋势分析 +[根据汽车类型等信息预测二手汽车的交易价格(https://github.com/datawhalechina/team-learning-data-mining/tree/master/SecondHandCarPriceForecast) -例如:使用公开的arXiv论文完成对应的数据分析操作 -教程地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends +例如:[使用公开的arXiv论文完成对应的数据分析操作](https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends) 想到如果你早做准备,没有荒废大一的时光,也许你不但能圆满的通过这次课程,也可以开辟更为广阔的新世界了吧~ +同时,你也初窥了数学+机器学习世界的瑰丽传奇,你想更为深入的对其有一个了解,并且做出点东西,希望对你日后的学习生活有个见证~~ + +少年将去开启新的传奇~~~~~ ::: danger 再次警告,本章内容有很多瞎编的内容,不要全信 @@ -170,7 +201,7 @@ day 5 end!😍 🥰 😘 不要打击到大家的自信心! ::: -# 补充内容 +# 补充内容:下个定义 数据分析是独立于开发和算法岗的另一个方向,它主要是通过应用机器学习和深度学习的已有算法来分析现实问题的一个方向 @@ -190,4 +221,4 @@ day 5 end!😍 🥰 😘 # Datawhale的生态体系 -在与Datawhale开源委员会的负责人文睿进行一翻畅谈之后。zzm受震惊于其理念以及已经构建的较为完善的体系架构,毅然决然的删除了本章和其广泛的体系比起来相形见绌的内容。为了更大伙更好的阅读以及学习体验,我们决定在本章内容引入[datawhale人工智能培养方案数据分析体系](https://datawhale.feishu.cn/docs/doccn0AOicI3LJ8RwhY0cuDPSOc#),我们会尝试站在巨人的肩膀上,争取更进一步的去完善它。 +在与Datawhale开源委员会的负责人文睿进行一翻畅谈之后。zzm受震惊于其理念以及已经构建的较为完善的体系架构,毅然决然的删除了本章和其广泛的体系比起来相形见绌的内容。为了更大伙更好的阅读以及学习体验,我们决定在本章内容引入了[datawhale人工智能培养方案数据分析体系](https://datawhale.feishu.cn/docs/doccn0AOicI3LJ8RwhY0cuDPSOc#),希望各位站在巨人的肩膀上,争取更进一步的去完善它。