Update 4.8数据分析.md

This commit is contained in:
zzm
2023-04-24 08:51:49 +08:00
committed by GitHub
parent 9e8989c17c
commit 0ef621815f

View File

@@ -12,83 +12,13 @@
> 这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人
# 你可以完全使用数据分析的方法来进行分析,也可以使用机器学习的方法进行进一步推理!!!希望你使用 jupyter notebook 进行分析,清晰明了!
# 什么是数据科学
数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集数据,现在是分析它们的时候了。接下来的步骤是从数据中产生建议并创建对未来的预测。[在这](https://www.quora.com/Data-Science/What-is-data-science),您可以找到有关数据科学的最大问题以及专家的数百个答案
数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集了相当大量的数据,现在是分析它们的时候了。从数据中产生建议并创建对未来的预测。[在这个网站中](https://www.quora.com/Data-Science/What-is-data-science),您可以找到对于数据科学的更为精确的定义
# <em>用于数据分析的库。</em>
# Datawhale的生态体系
当然,你肯定用不了这么多,你可以自行选择你喜欢或者你想用的
在与Datawhale开源委员会的负责人文睿进行一翻畅谈之后。zzm受震惊于其理念以及已经构建的较为完善的体系架构毅然决然的删除了本章和其广泛的体系比起来相形见绌的内容。为了更大伙更好的阅读以及学习体验我们决定在本章内容引入[datawhale人工智能培养方案数据分析体系](https://datawhale.feishu.cn/docs/doccn0AOicI3LJ8RwhY0cuDPSOc#),我们会尝试站在巨人的肩膀上,争取更进一步的去完善它
- [AWS Data Wrangler](https://github.com/awslabs/aws-data-wrangler) - AWS 上的 Pandas。
- [Blaze](https://github.com/blaze/blaze) - NumPy 和 Pandas 与大数据的接口。
- [Open Mining](https://github.com/mining/mining) - Pandas 界面中的商业智能 (BI)。
- [Optimus](https://github.com/ironmussa/Optimus) - 使用 PySpark 轻松实现敏捷数据科学工作流程。
- [Orange](https://orange.biolab.si/) - 通过可视化编程或脚本进行数据挖掘、数据可视化、分析和机器学习。
- [Pandas](http://pandas.pydata.org/) - 一个提供高性能、易于使用的数据结构和数据分析工具的库。
同时给你一个 pandas 教程 [https://www.kaggle.com/learn/pandas](https://www.kaggle.com/learn/pandas)
# 挑战 1泰坦尼克号数据分析
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn69l1e6U0JF8SqdIuKOHtJb.jpeg)
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnGLb9WIwyio3SOzP3nnZ1je.jpeg)
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnh9SUOsY17OVJY6D7jLtVAc.jpeg)
泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。
1912 年 4 月 15 日,在她的处女航中,被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。
不幸的是,船上没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。
虽然生存中涉及到一些运气因素,但似乎有些人比其他人更有可能生存。
在这个挑战中,我们要求您建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)。
比较幸运的是,本挑战的数据集不需要你自行爬取,你完全可以在互联网上找到非常多的数据集。
同时,你使用的数据越多,你的分析就越准确。
# 挑战 2豆瓣电影数据分析
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn0Dwy6nWNi6xmdyQIIIt5if.jpeg)
豆瓣电影是非常好爬的网站,甚至 B 站某爬虫教程都以豆瓣电影来进行教学,你可以自行爬取豆瓣上的数据并进行相应的分析。
包括但不限于电影的分数,出版人,地理位置,你可以使用各种图进行分析。
当然,你可以自己爬,也可以在网上找数据集,但是核心要点在于,你用了数据分析的方法得到了一些结论!
# 挑战 3 二手房数据分析
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnFmfFktx0x2DpQ4WtyMEE3g.jpeg)
本课题拟收集整理城市近几年的二手房交易数据,挖掘数据信息并进行可视化分析与展示,从而帮助用户了解城市二手房的交易情况,为用户进一步决策提供帮助。
建议内容:
- 查询条件设置:通过输入查询二手房的城市、区域、总价等信息确定对应的网址。
- 数据爬取和保存:爬取满足查询条件的房屋的各类信息,将其中的房屋相关图片保存到单独的文件夹。将其它信息保存成为区域 + 查询条件 + 房源信息表文件,文件中列字段名称包含:地址、户型、面积 m2、单价、总价-万元、关注度、发布时间、链接,其中面积、单价、总价以及关注度都保存为数值型数据。
- 数据分析与可视化:分析单价与关注度、总价与关注度之间的关系,通过图表进行可视化实现,给出关注度最高的单价与房屋总价情况。
- 扩展内容:根据用户需求推荐二手房源,为用户进一步决策提供帮助。
- 可视化 web 端开发
# 提示
#### 你可能需要学习一些概率论的知识并进行相关思考
例如
数学期望
置信区间
散点图
直方图和幂律分布等等
甚至你可以考虑更为高级的热力图