fzu-product/4.人工智能/4.7数据分析.md

# 数据分析

# 目标

数据分析是独立于开发和算法岗的另一个方向，它主要是通过<strong>应用</strong>机器学习和深度学习的<strong>已有算法</strong>来分析现实问题的一个方向

我们常说：数据是客观的，但是解读数据的人是主观的。

数据这门科学就像中西医混合的一门医学，既要有西医的理论、分析模型以及实验，又需要有中医的望闻问切这些个人经验。

因此你在进行这一项任务的时候，除了希望你可以去学会用 python 进行数据分析外，也希望你可以尝试用数据的维度去解释周围的事情，并且用数据的眼光看代变化发展的世界。

> 这世界缺的真不是算法和技术，而是能用算法、技术解决实际问题的人

# 你可以完全使用数据分析的方法来进行分析，也可以使用机器学习的方法进行进一步推理！！!希望你使用 jupyter notebook 进行分析，清晰明了！

# 什么是数据科学

数据科学是当今计算机和互联网领域最热门的话题之一。直到今天，人们已经从应用程序和系统中收集数据，现在是分析它们的时候了。接下来的步骤是从数据中产生建议并创建对未来的预测。[在这里](https://www.quora.com/Data-Science/What-is-data-science)，您可以找到有关数据科学的最大问题以及专家的数百个答案。

# <em>用于数据分析的库。</em>

当然，你肯定用不了这么多，你可以自行选择你喜欢或者你想用的。

- [AWS Data Wrangler](https://github.com/awslabs/aws-data-wrangler) - AWS 上的 Pandas。
- [Blaze](https://github.com/blaze/blaze) - NumPy 和 Pandas 与大数据的接口。
- [Open Mining](https://github.com/mining/mining) - Pandas 界面中的商业智能 (BI)。
- [Optimus](https://github.com/ironmussa/Optimus) - 使用 PySpark 轻松实现敏捷数据科学工作流程。
- [Orange](https://orange.biolab.si/) - 通过可视化编程或脚本进行数据挖掘、数据可视化、分析和机器学习。
- [Pandas](http://pandas.pydata.org/) - 一个提供高性能、易于使用的数据结构和数据分析工具的库。

同时给你一个 pandas 教程 [https://www.kaggle.com/learn/pandas](https://www.kaggle.com/learn/pandas)

# 挑战 1：泰坦尼克号数据分析

![](static/boxcn69l1e6U0JF8SqdIuKOHtJb.jpeg)

![](static/boxcnGLb9WIwyio3SOzP3nnZ1je.jpeg)

![](static/boxcnh9SUOsY17OVJY6D7jLtVAc.jpeg)

泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。

1912 年 4 月 15 日，在她的处女航中，被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。

不幸的是，船上没有足够的救生艇，导致 2224 名乘客和船员中有 1502 人死亡。

虽然生存中涉及到一些运气因素，但似乎有些人比其他人更有可能生存。

在这个挑战中，我们要求您建立一个预测模型来回答以下问题：“什么样的人更有可能生存？” 使用乘客数据（即姓名、年龄、性别、社会经济阶层等）。

比较幸运的是，本挑战的数据集不需要你自行爬取，你完全可以在互联网上找到非常多的数据集。

同时，你使用的数据越多，你的分析就越准确。

# 挑战 2：豆瓣电影数据分析

![](static/boxcn0Dwy6nWNi6xmdyQIIIt5if.jpeg)

豆瓣电影是非常好爬的网站，甚至 B 站某爬虫教程都以豆瓣电影来进行教学，你可以自行爬取豆瓣上的数据并进行相应的分析。

包括但不限于电影的分数，出版人，地理位置，你可以使用各种图进行分析。

当然，你可以自己爬，也可以在网上找数据集，但是核心要点在于，你用了数据分析的方法得到了一些结论！

# 挑战 3 二手房数据分析

![](static/boxcnFmfFktx0x2DpQ4WtyMEE3g.jpeg)

本课题拟收集整理城市近几年的二手房交易数据，挖掘数据信息并进行可视化分析与展示，从而帮助用户了解城市二手房的交易情况，为用户进一步决策提供帮助。

建议内容：

- 查询条件设置：通过输入查询二手房的城市、区域、总价等信息确定对应的网址。
- 数据爬取和保存：爬取满足查询条件的房屋的各类信息，将其中的房屋相关图片保存到单独的文件夹。将其它信息保存成为区域 + 查询条件 + 房源信息表文件，文件中列字段名称包含：地址、户型、面积 m2、单价、总价-万元、关注度、发布时间、链接，其中面积、单价、总价以及关注度都保存为数值型数据。
- 数据分析与可视化：分析单价与关注度、总价与关注度之间的关系，通过图表进行可视化实现，给出关注度最高的单价与房屋总价情况。
- 扩展内容：根据用户需求推荐二手房源，为用户进一步决策提供帮助。
- 可视化 web 端开发

# 提示

#### 你可能需要学习一些概率论的知识并进行相关思考

例如

数学期望

置信区间

散点图

直方图和幂律分布等等

甚至你可以考虑更为高级的热力图