Update 4.8数据分析.md

This commit is contained in:
zzm
2023-04-27 20:07:39 +08:00
committed by GitHub
parent 1876906de4
commit 1b4b866b72

View File

@@ -41,15 +41,14 @@
你看到PPT上赫然印着
::: tip 任务目标
基础系统:
1. 淘宝客户价值分析系统,实现取数据,数据处理,数据分析。
2. 二手房数据分析预测系统,实现爬数据,数据分析,绘制图表。
3. 智能停车场运营分析系统,实现爬数据,数据分析,绘制图表。
4. 影视作品分析系统,实现爬数据,数据分析,绘制图表。
1. 淘宝客户价值分析系统,实现取数据,数据处理,数据分析。
2. 二手房数据分析预测系统,实现爬数据,数据分析,绘制图表。
3. 智能停车场运营分析系统,实现爬数据,数据分析,绘制图表。
4. 影视作品分析系统,实现爬数据,数据分析,绘制图表。
升级系统:
1. 利用爬虫理论,实现 12306 抢票小助手系统。
2. 利用数据分析方法,实现淘宝商品排行分析。
3. 利用爬虫原理,爬 Google 搜索引擎分析。”
4. 利用数据分析方法,实现微薄留言区域特征分析。自由系统:
要求实现三项以上的功能模块或三种以上的特征分析或提取。
:::
@@ -61,23 +60,72 @@
那就把教程分给大伙吧我们选一个最简单的二手房数据的分析系统好了第一天选好题了又是大下午的摆了摆了你开心的打开电脑打开了steam
day 1 End!
day 1 End!🤣
## Day 2
昨天真是美滋滋的一天,今天就开始干活好了,反正一周时间呢,比期末复习周可长太多了,就做这么个玩意我还能做不出来吗?
[文字教程](https://github.com/datawhalechina/wonderful-sql)
虽然你没有学过爬虫但是你很幸运的找到了github上一个现成的爬虫代码虽然费了一翻力气但是仍然躲过了某房价网站的爬虫他成功爬下来了我们就把他存在哪里呢爬虫待补充
首先我想介绍一下SQLSQL是一种广泛应用于关系型数据库管理系统的编程语言。有的人可能会有疑问为什么要学数据库或者数据库到底要干嘛
先试试excel好了毕竟这是大家最耳熟能详的存表格的方法但是你貌似没有深入了解过他打开了datawhale的[free-excel](https://github.com/datawhalechina/free-excel),你才惊讶的发现,wow原来他有这么多牛逼的功能啊它除了可以将房价统计找到它的平均价格算出他的最高价格之类以外竟然也可以把他可视化甚至它还可以对房价进行多元分析根据房屋数量面积地段等等因素帮你预测房价甚至可以自动帮你检索和去除重复数据实在是太好用啦
如果你知道一些基本的在计算机内的组织数据的方式,从微观上来说,可能是所谓的数组,链表,树之类的。
当然,这只是一个理想状态,残酷的现实很快给你当头一棒!当你试着多爬点不同城市数据的时候,他崩了!这么脆弱的吗?!干点活就喊累的吗?!😨
但是对想使用计算机的角度来说不能我每多一种不同的数据我就要考虑该怎么设计一个非常优雅的数据结构来解决问题。有时候我们想存相当多的固定的数据比如说你现在要爬取一千万条房价数据然后把房子的各种信息存起来如果你存在excel表里面他可能会崩不崩不谈你要想把数据提取出来就是一件很麻烦的事情更何况我们会有更进一步的数据进行增删改查的需求。
当然你想起了有一个备用方案,好像你可以用数据库去存储他!
这个时候我们就可以考虑使用数据库来解决他,其设计就是为了容纳大量的多种不同的数据形式并且非常优雅的把他组织起来,他的底层设计被严格的包装起来让你在处理的时候又快又好。我举一个例子:
之前好像看到有一个教程叫做[wonderful-sql](https://github.com/datawhalechina/wonderful-sql?from=from_parent_mindnote)
他提到“随着社会的快速发展各类企业数字化转型迫在眉睫SQL 应用能力日趋重要。 在诸多领域中 SQL 应用广泛数据分析、开发、测试、维护、产品经理等都有可能会用到SQL而在学校里系统性讲授 SQL 的课程较少,但是面试及日常工作中却经常会涉及到 SQL。”
确实学校没有教过,但是幸好你有教程,折腾了一翻之后,你发现你对数据库有了更深的理解,他帮助了我们在容纳大量的多种不同的数据形式的时候不用专门去考虑怎么涉及一个数据结构而是一股脑塞给数据库这个大池子,并且他很多高级的功能可以帮助你便捷的把数据组织成一般情况下难以到达的形式,他的底层设计被严格的包装起来让你在进行数据增删改查的时候都又快又好。
并且它可以非常方便的存一些excel存不了的所谓的非结构化的数据比如说图像地图等等并且他不会动不动就喊累处理几十万条也是一下子
当然同时你也了解到你所用的是关系型数据库是老东西了目前还有很多较为前沿的非关系型数据库例如MongoDBNeo4j等等他们不用固定的表来存储可以用图存或者键值对进行存储听起来好像非常的高级不过你暂时用不到数据搞都搞下来了量也够了是时候看看队友做到哪了说不定后面你都不用做了已经做的够多够累的了
什么刚开始学python?!woc!完蛋,你逐渐来到了绝望之谷,唉!明天继续做吧!看来休息不了了。
day 2 End 😔!
## Day 3
God!No!昨天已经够累的了今天老师还要讲课还要早起你期待着老师可以降低要求可是当老师托起长音讲起了他知道了学生的累所以今天决定开始讲课了现在讲有毛用啊你明天就要验收我们的进度了而他却慢悠悠的开始讲python的历史把这点内容讲了足足两节课你终于绷不住了本来时间就不够他竟然又浪费了你足足一早上的时间这也太该死了🤬
你回到了寝室,准备今天争取数据分析完就直接交上去好了,开摆!
可是你发现了一个让你震惊的噩耗!你找到的数据,是混乱的!😱
这个野鸡房价网站每个城市的排版不一样,你爬虫爬取的完全是按照顺序标的,也就是说你爬取的所有房价信息处于混沌状态!完全就相当于给每个房子爬了一段句子的描述!
没有办法了看来今天有的折腾了你找到了一个叫pandas的东西找到了这个教程[Joyful-Pandas](https://github.com/datawhalechina/joyful-pandas),开始了一天的学习!
你了解到pandas是一个开源的Python数据处理库提供了高性能、易用、灵活和丰富的数据结构可以帮助用户轻松地完成数据处理、清洗、分析和建模等任务。你使用了DataFrame来装载二维表格对象。
用一些关键词来提取数据中隐藏的信息例如提取“平米”前面的数字放到area'列,提取房价到'price提取位置到'locate'里面,当然你也遇到了可怕的bug提取所有“室”和“厅”前面的数字他总是告诉你有bug全部输出之后才发现你提取到了“地下室”结果他没法识别到数字所以炸了
将数据勉强弄得有序之后,你提取了平均数填充到缺失数据的房屋里面,将一些处理不了的删掉。
当然你也额外了解到pandas这只可爱的小熊猫还有非常多强大的功能例如数据可视化例如分类数据甚至可以让房屋按照时序排列但是你实在不想动了
不论怎么说,你勉强有了一份看得过去的数据,你看了看表,已经晚上十一点半了,今天实在是身心俱疲!
问问队友吧什么他们还是在python语法
此时你像一头挨了锤的老驴曾经的你有好多奢望你想要GPA想要老师的认同甚至想要摸一摸水里忽明忽暗的🐟可是一切都随着你的hadworking变成了泡影。
day 3 end!👿 👹 👺 🤡
## Day 4
老师在验收的时候认为你什么工作也没做他认为一份数据实在是太单薄了特别是被你疯狂结构优化后的数据已经没几个特征了让你去做点看得到的东西不然就要让你不及格了你的心里很难过你想到也许你需要一些更好看的东西。数据可视化你在昨天的pandas看到过可是你并没有详细了解你觉得pandas已经在昨天把你狠狠的暴捶一顿了并且老师想要更好看的图。
于是你考虑pandas配合Matplotlib再加上Plotly绘制一些复杂的图。
你找到了下面的教程
[matplotlib奇遇记文字教程](https://github.com/datawhalechina/fantastic-matplotlib)
极好的Plotly
文字教程https://github.com/datawhalechina/wow-plotly
视频教程https://www.bilibili.com/video/BV1Df4y1A7aR
# 学这个有前途吗?