From 0ef621815fffd1716a5a98dc0fd79052188b30fc Mon Sep 17 00:00:00 2001 From: zzm <73225535+HanWu311@users.noreply.github.com> Date: Mon, 24 Apr 2023 08:51:49 +0800 Subject: [PATCH] =?UTF-8?q?Update=204.8=E6=95=B0=E6=8D=AE=E5=88=86?= =?UTF-8?q?=E6=9E=90.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 4.人工智能/4.8数据分析.md | 76 ++----------------------------- 1 file changed, 3 insertions(+), 73 deletions(-) diff --git a/4.人工智能/4.8数据分析.md b/4.人工智能/4.8数据分析.md index 1530782..5c7fa2a 100644 --- a/4.人工智能/4.8数据分析.md +++ b/4.人工智能/4.8数据分析.md @@ -12,83 +12,13 @@ > 这世界缺的真不是算法和技术,而是能用算法、技术解决实际问题的人 -# 你可以完全使用数据分析的方法来进行分析,也可以使用机器学习的方法进行进一步推理!!!希望你使用 jupyter notebook 进行分析,清晰明了! # 什么是数据科学 -数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集数据,现在是分析它们的时候了。接下来的步骤是从数据中产生建议并创建对未来的预测。[在这里](https://www.quora.com/Data-Science/What-is-data-science),您可以找到有关数据科学的最大问题以及专家的数百个答案。 +数据科学是当今计算机和互联网领域最热门的话题之一。直到今天,人们已经从应用程序和系统中收集了相当大量的数据,现在是分析它们的时候了。从数据中产生建议并创建对未来的预测。[在这个网站中](https://www.quora.com/Data-Science/What-is-data-science),您可以找到对于数据科学的更为精确的定义。 -# 用于数据分析的库。 +# Datawhale的生态体系 -当然,你肯定用不了这么多,你可以自行选择你喜欢或者你想用的。 +在与Datawhale开源委员会的负责人文睿进行一翻畅谈之后。zzm受震惊于其理念以及已经构建的较为完善的体系架构,毅然决然的删除了本章和其广泛的体系比起来相形见绌的内容。为了更大伙更好的阅读以及学习体验,我们决定在本章内容引入[datawhale人工智能培养方案数据分析体系](https://datawhale.feishu.cn/docs/doccn0AOicI3LJ8RwhY0cuDPSOc#),我们会尝试站在巨人的肩膀上,争取更进一步的去完善它。 -- [AWS Data Wrangler](https://github.com/awslabs/aws-data-wrangler) - AWS 上的 Pandas。 -- [Blaze](https://github.com/blaze/blaze) - NumPy 和 Pandas 与大数据的接口。 -- [Open Mining](https://github.com/mining/mining) - Pandas 界面中的商业智能 (BI)。 -- [Optimus](https://github.com/ironmussa/Optimus) - 使用 PySpark 轻松实现敏捷数据科学工作流程。 -- [Orange](https://orange.biolab.si/) - 通过可视化编程或脚本进行数据挖掘、数据可视化、分析和机器学习。 -- [Pandas](http://pandas.pydata.org/) - 一个提供高性能、易于使用的数据结构和数据分析工具的库。 -同时给你一个 pandas 教程 [https://www.kaggle.com/learn/pandas](https://www.kaggle.com/learn/pandas) - -# 挑战 1:泰坦尼克号数据分析 - -![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn69l1e6U0JF8SqdIuKOHtJb.jpeg) - -![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnGLb9WIwyio3SOzP3nnZ1je.jpeg) - -![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnh9SUOsY17OVJY6D7jLtVAc.jpeg) - -泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。 - -1912 年 4 月 15 日,在她的处女航中,被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。 - -不幸的是,船上没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。 - -虽然生存中涉及到一些运气因素,但似乎有些人比其他人更有可能生存。 - -在这个挑战中,我们要求您建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)。 - -比较幸运的是,本挑战的数据集不需要你自行爬取,你完全可以在互联网上找到非常多的数据集。 - -同时,你使用的数据越多,你的分析就越准确。 - -# 挑战 2:豆瓣电影数据分析 - -![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn0Dwy6nWNi6xmdyQIIIt5if.jpeg) - -豆瓣电影是非常好爬的网站,甚至 B 站某爬虫教程都以豆瓣电影来进行教学,你可以自行爬取豆瓣上的数据并进行相应的分析。 - -包括但不限于电影的分数,出版人,地理位置,你可以使用各种图进行分析。 - -当然,你可以自己爬,也可以在网上找数据集,但是核心要点在于,你用了数据分析的方法得到了一些结论! - -# 挑战 3 二手房数据分析 - -![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcnFmfFktx0x2DpQ4WtyMEE3g.jpeg) - -本课题拟收集整理城市近几年的二手房交易数据,挖掘数据信息并进行可视化分析与展示,从而帮助用户了解城市二手房的交易情况,为用户进一步决策提供帮助。 - -建议内容: - -- 查询条件设置:通过输入查询二手房的城市、区域、总价等信息确定对应的网址。 -- 数据爬取和保存:爬取满足查询条件的房屋的各类信息,将其中的房屋相关图片保存到单独的文件夹。将其它信息保存成为区域 + 查询条件 + 房源信息表文件,文件中列字段名称包含:地址、户型、面积 m2、单价、总价-万元、关注度、发布时间、链接,其中面积、单价、总价以及关注度都保存为数值型数据。 -- 数据分析与可视化:分析单价与关注度、总价与关注度之间的关系,通过图表进行可视化实现,给出关注度最高的单价与房屋总价情况。 -- 扩展内容:根据用户需求推荐二手房源,为用户进一步决策提供帮助。 -- 可视化 web 端开发 - -# 提示 - -#### 你可能需要学习一些概率论的知识并进行相关思考 - -例如 - -数学期望 - -置信区间 - -散点图 - -直方图和幂律分布等等 - -甚至你可以考虑更为高级的热力图