docs: 4.7 图网络 移位

This commit is contained in:
camera-2018
2023-04-22 21:41:56 +08:00
parent 9e4204dee9
commit 795b41a46b
6 changed files with 5 additions and 5 deletions

View File

@@ -0,0 +1,94 @@
# 数据分析
# 目标
数据分析是独立于开发和算法岗的另一个方向,它主要是通过<strong>应用</strong>机器学习和深度学习的<strong>已有算法</strong>来分析现实问题的一个方向
我们常说:数据是客观的,但是解读数据的人是主观的。
数据这门科学就像中西医混合的一门医学,既要有西医的理论、分析模型以及实验,又需要有中医的望闻问切这些个人经验。
因此你在进行这一项任务的时候,除了希望你可以去学会用 python 进行数据分析外,也希望你可以尝试用数据的维度去解释周围的事情,并且用数据的眼光看代变化发展的世界。
> 这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人
# 你可以完全使用数据分析的方法来进行分析,也可以使用机器学习的方法进行进一步推理!!!希望你使用 jupyter notebook 进行分析,清晰明了!
# 什么是数据科学
数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集数据,现在是分析它们的时候了。接下来的步骤是从数据中产生建议并创建对未来的预测。[在这里](https://www.quora.com/Data-Science/What-is-data-science),您可以找到有关数据科学的最大问题以及专家的数百个答案。
# <em>用于数据分析的库。</em>
当然,你肯定用不了这么多,你可以自行选择你喜欢或者你想用的。
- [AWS Data Wrangler](https://github.com/awslabs/aws-data-wrangler) - AWS 上的 Pandas。
- [Blaze](https://github.com/blaze/blaze) - NumPy 和 Pandas 与大数据的接口。
- [Open Mining](https://github.com/mining/mining) - Pandas 界面中的商业智能 (BI)。
- [Optimus](https://github.com/ironmussa/Optimus) - 使用 PySpark 轻松实现敏捷数据科学工作流程。
- [Orange](https://orange.biolab.si/) - 通过可视化编程或脚本进行数据挖掘、数据可视化、分析和机器学习。
- [Pandas](http://pandas.pydata.org/) - 一个提供高性能、易于使用的数据结构和数据分析工具的库。
同时给你一个 pandas 教程 [https://www.kaggle.com/learn/pandas](https://www.kaggle.com/learn/pandas)
# 挑战 1泰坦尼克号数据分析
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn69l1e6U0JF8SqdIuKOHtJb.jpeg)
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnGLb9WIwyio3SOzP3nnZ1je.jpeg)
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnh9SUOsY17OVJY6D7jLtVAc.jpeg)
泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。
1912 年 4 月 15 日,在她的处女航中,被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。
不幸的是,船上没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。
虽然生存中涉及到一些运气因素,但似乎有些人比其他人更有可能生存。
在这个挑战中,我们要求您建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)。
比较幸运的是,本挑战的数据集不需要你自行爬取,你完全可以在互联网上找到非常多的数据集。
同时,你使用的数据越多,你的分析就越准确。
# 挑战 2豆瓣电影数据分析
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn0Dwy6nWNi6xmdyQIIIt5if.jpeg)
豆瓣电影是非常好爬的网站,甚至 B 站某爬虫教程都以豆瓣电影来进行教学,你可以自行爬取豆瓣上的数据并进行相应的分析。
包括但不限于电影的分数,出版人,地理位置,你可以使用各种图进行分析。
当然,你可以自己爬,也可以在网上找数据集,但是核心要点在于,你用了数据分析的方法得到了一些结论!
# 挑战 3 二手房数据分析
![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnFmfFktx0x2DpQ4WtyMEE3g.jpeg)
本课题拟收集整理城市近几年的二手房交易数据,挖掘数据信息并进行可视化分析与展示,从而帮助用户了解城市二手房的交易情况,为用户进一步决策提供帮助。
建议内容:
- 查询条件设置:通过输入查询二手房的城市、区域、总价等信息确定对应的网址。
- 数据爬取和保存:爬取满足查询条件的房屋的各类信息,将其中的房屋相关图片保存到单独的文件夹。将其它信息保存成为区域 + 查询条件 + 房源信息表文件,文件中列字段名称包含:地址、户型、面积 m2、单价、总价-万元、关注度、发布时间、链接,其中面积、单价、总价以及关注度都保存为数值型数据。
- 数据分析与可视化:分析单价与关注度、总价与关注度之间的关系,通过图表进行可视化实现,给出关注度最高的单价与房屋总价情况。
- 扩展内容:根据用户需求推荐二手房源,为用户进一步决策提供帮助。
- 可视化 web 端开发
# 提示
#### 你可能需要学习一些概率论的知识并进行相关思考
例如
数学期望
置信区间
散点图
直方图和幂律分布等等
甚至你可以考虑更为高级的热力图