最完整北京民宿数据分析

一、提出问题
•1.北京253个商圈中,哪些民宿最集中?通州北关和百子湾,哪个周围民宿最多?
•2.北京16个区,不同类型的民宿面积多大?海淀的复式面积多大?东城区的四合院面积多大?朝阳的公寓面积多大?
•3不同区域的民宿,哪些以情侣为主,哪些以家庭为主?1888元是人数和价格关系的拐点。
看完这篇文章,你就可以来北京投资民宿了。
(想知道答案,往下翻,在第五节。想知道分析过程,从这里继续阅读)
二、数据获得
八爪鱼-制定抓取规则
八爪鱼-定位信息
八爪鱼-爬取过程
数据爬取结果
三、数据清洗
(一)理解数据
原始数据也称作“dirty data”,大量信息是我们不需要的,例如网络链接这列和空白列等,均删除,也可以选择将其隐藏。标题呈现“字段_文本”,“字段_链接”等字样,与主题无关,删除字样,依次改为和内容相关的标题。
标题重命名
删除或隐藏多余列
(二)删除重复项
完成理解数据后,进行重复数据的删除。选择整个数据表格,点击“数据”-“删除重复项”,我们到386个重复数据,将其删除,剩余2824条有效数据,清洗过程这个数据还会减少。
取消全选,选择“房源描述”
初步筛选出2824条数据
(三)处理空缺值
通过观察我们发现有大量的数据空缺。点击“查和选择”-“定位条件”-“空值”,定位所有的缺失值所在单元格。
目测有大量缺失值
处理缺失值有3种处理方式:1直接删除 2填写数据平均值 3手动填写一个值,通过“Ctrl+Enter”实现批量填补。本例中,由于数据集较大,且这个阶段并不知道面积、价格等平均水平,基于这两方面考虑,选择直接删除缺失值所在的行。
对缺失值进行定位
(四)分列
通过观察原始数据表格,发现有3列,每列中至少含2个内容,需要进行分列。
第1步:选择“住客点评数”这列,通过观察你发现,内容由“/”分成左右两部分,“/”符号是关键。我们要做的是:先复制粘贴这一列,然后按“数据”-“分列”,进行分列。在“其他”处,填写“/”。电脑很听话,看到这个符号,就把内容分列到两列。
分列前,先插入新列
复制粘贴,在“其他”处,填写“/”
分列成了2列
第2步:选择“格局”这列,单元格内容为:“复式/1室1厅1卫/40平米/宜住2人/1床”,共含5条内容。先插入5列空白列,进行分列,重复第一步的步骤,最终将1列,分列为5列。
插入新列
数据预览,看到分列后的效果
分列成功
(五)数字转化为数值类型
价格这列数字靠左侧、左上角出现绿三角,说明它是字符串类型,也就是说电脑认为它们是文字,而非数字,我们需要将其转化为数值类型。
这列数字是字符串型,要转换成数值型
第1步:复制粘贴到新的一列,然后复制粘贴
复制粘贴到新的一列-复制粘贴
第2步:按“分列”-“常规”-“完成”
进行分列
第3步:转化成功。数字靠右侧,这是判断它是数值类型的标准。字符型靠单元格左侧,数值型靠右侧。
数字靠右,说明是数值型
(六)截取内容
通过观察,商圈这列和点评数这列,发现1个单元格至少包含2个内容,我们要使1个单元格只包含1个内容。如果这里有类似“/”这样的符号,就可以用“分列”功能。但是这两列完全由文字构成,无法用分列的方法。在这里我们用到的方法是“LEFT/RIGHT/MID函数截取”。
我们要在EXCEL中写第一个函数了。(每条函数式在截图中展示)
要截取到的结果是:“距”后面的商圈 (文字)和“来自”后面&“条”前面的点评数(数字)。
要对这两列,分别截取我们要的内容
对“住客点评数量”,使用MID函数
成功截取
对“住客评分”,使用LEFT函数
对“宜住人数”,使用MID函数
对“商圈”,使用RIGHT函数(注意这是错误的,接下来会修改)
发现问题,出现多字和少字的情况
修改函数,用MID函数截取
修改成功
(七)统一单位
最难的部分:将距离单位统一为“米”
第1步,用if语句把带公里的单元格选出来。
用if语句把带“公里”的单元格选出来
第2步,用字符串截取函数,把选出来的数据,比如4.8公里,里面的数值提取出来是4.8
先帅选出“公里”值,然后截取数值
第3步,截取的数字(例如4.8)某1000。
数值乘以1000,实现转化,现在单位都是“米”
数据清洗完成,进入分析阶段
四、构建模型
(一) 描述性统计分析
1. 价格描述性统计分析
北京民宿最普遍的定价是398元,如果你打算开一家民宿,可以作为参考。特别注意的是众数和中位数相差无几,说明这个定价符合市场情况。
价格-描述性统计分析
2.点评数描述性统计分析
点评数反应用户粘性,住客体验后,来评价写下评论,同时反应民宿的热度。数据显示,点评数不是很多。
点评数-描述性统计分析
3.住客评分描述性统计
住客评分均值为4.848,说明住客对北京民宿的满意度普遍较高,北京民宿服务水平较高。特别注意的是,中位数和众数均为5,再次印证了住客高满意度。如果你想在北京开一家民宿,一定要在设计、服务等方面,做得更好。
住客评分-描述性统计分析
4.宜住人数描述性统计分析
宜住人数的众数为2,说明大多数民宿的目标客户是情侣或闺蜜,后面的内容有更详细的分析印证这个结论。
宜住人数-描述性统计分析
5.面积描述性统计分析
数据显示,众数为50,中位数为60,均值为75,可以发现北京民宿以小户型为主。
面积-描述性统计分析
6.离最近商圈距离描述性统计分析
离最近商圈距离说明民宿生活的便利性。从中位数、众数、平均数来看,民宿周边500-1500米内就有一个商圈。这个距离可以说很便民了。如果你要开民宿,先看看周围1500米内有没有商圈,选址很重要!
离最近商圈距离-描述性统计分析
7.床数描述性统计分析
床数最普遍的是“1”张,和前面我们得出的结论“大多数民宿的目标客户是情侣或闺蜜”相符合,在后面更详细的分析中,我们会看到更多证据。
床数-描述性统计分析
(二)各个区域民宿特点
1. 每个区,不同类型民宿的数量
从数量上来说,朝阳区民宿最多,占33%,然后是东城区和海淀区。朝阳区民宿数量是东城区的2.4倍。从类型上说,别墅,复式,公寓,客栈,四合院这5中类型中,公寓式民宿数量最多,占到78%。其次是复式。在各区中,复式民宿集中在朝阳、顺义、大兴、通州4个区;别墅集中在昌平;四合院集中在东城区。

本文发布于:2024-09-22 12:27:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/483434.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:民宿   数据   选择   类型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议