5.0 KiB
数据分析
目标
数据分析是独立于开发和算法岗的另一个方向,它主要是通过应用机器学习和深度学习的已有算法来分析现实问题的一个方向
我们常说:数据是客观的,但是解读数据的人是主观的。
数据这门科学就像中西医混合的一门医学,既要有西医的理论、分析模型以及实验,又需要有中医的望闻问切这些个人经验。
因此你在进行这一项任务的时候,除了希望你可以去学会用 python 进行数据分析外,也希望你可以尝试用数据的维度去解释周围的事情,并且用数据的眼光看代变化发展的世界。
这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人
你可以完全使用数据分析的方法来进行分析,也可以使用机器学习的方法进行进一步推理!!!希望你使用 jupyter notebook 进行分析,清晰明了!
什么是数据科学
数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集数据,现在是分析它们的时候了。接下来的步骤是从数据中产生建议并创建对未来的预测。在这里,您可以找到有关数据科学的最大问题以及专家的数百个答案。
用于数据分析的库。
当然,你肯定用不了这么多,你可以自行选择你喜欢或者你想用的。
- AWS Data Wrangler - AWS 上的 Pandas。
- Blaze - NumPy 和 Pandas 与大数据的接口。
- Open Mining - Pandas 界面中的商业智能 (BI)。
- Optimus - 使用 PySpark 轻松实现敏捷数据科学工作流程。
- Orange - 通过可视化编程或脚本进行数据挖掘、数据可视化、分析和机器学习。
- Pandas - 一个提供高性能、易于使用的数据结构和数据分析工具的库。
同时给你一个 pandas 教程 https://www.kaggle.com/learn/pandas
挑战 1:泰坦尼克号数据分析
泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。
1912 年 4 月 15 日,在她的处女航中,被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。
不幸的是,船上没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。
虽然生存中涉及到一些运气因素,但似乎有些人比其他人更有可能生存。
在这个挑战中,我们要求您建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)。
比较幸运的是,本挑战的数据集不需要你自行爬取,你完全可以在互联网上找到非常多的数据集。
同时,你使用的数据越多,你的分析就越准确。
挑战 2:豆瓣电影数据分析
豆瓣电影是非常好爬的网站,甚至 B 站某爬虫教程都以豆瓣电影来进行教学,你可以自行爬取豆瓣上的数据并进行相应的分析。
包括但不限于电影的分数,出版人,地理位置,你可以使用各种图进行分析。
当然,你可以自己爬,也可以在网上找数据集,但是核心要点在于,你用了数据分析的方法得到了一些结论!
挑战 3 二手房数据分析
本课题拟收集整理城市近几年的二手房交易数据,挖掘数据信息并进行可视化分析与展示,从而帮助用户了解城市二手房的交易情况,为用户进一步决策提供帮助。
建议内容:
- 查询条件设置:通过输入查询二手房的城市、区域、总价等信息确定对应的网址。
- 数据爬取和保存:爬取满足查询条件的房屋的各类信息,将其中的房屋相关图片保存到单独的文件夹。将其它信息保存成为区域 + 查询条件 + 房源信息表文件,文件中列字段名称包含:地址、户型、面积 m2、单价、总价-万元、关注度、发布时间、链接,其中面积、单价、总价以及关注度都保存为数值型数据。
- 数据分析与可视化:分析单价与关注度、总价与关注度之间的关系,通过图表进行可视化实现,给出关注度最高的单价与房屋总价情况。
- 扩展内容:根据用户需求推荐二手房源,为用户进一步决策提供帮助。
- 可视化 web 端开发
提示
你可能需要学习一些概率论的知识并进行相关思考
例如
数学期望
置信区间
散点图
直方图和幂律分布等等
甚至你可以考虑更为高级的热力图




