房价预测可视化项目

1.需求描述

对于数据挖掘工程师来说,有时候需要抓取地理位置信息,比如统计房子周边基础设施信息,比如医院、公交车站、写字楼、地铁站、商场等,一般的爬虫可以采用python脚本爬取,有很多成型的框架如scrapy,但是想要爬百度地图就必须遵循它的JavaScript Api,那么肯定需要自己写JavaScript脚本与百度API进行交互,问题是:这种交互下来的数据如何储存(直接写进文本or使用sql数据库?),如何自动化这种交互方式。

因此,本文的目标是用一个rails应用配合js脚本来实现这种自动化抓取和储存,思路是js脚本负责与百度地图Api交互,rails服务器端负责储存抓取的数据,js和rails服务器用ajax方式传递数据. 前提是rails服务器里已经有相应的房屋数据,如房屋的街道地址,小区名字等. 接下来需要做的就是为周边信息数据建表以及相应的关联表(因为它们为多对多关系)。

如果你是面向地理位置的数据挖掘工程师,你可以不用编写与百度API交互的代码,直接运行这个应用后导入自己的房屋数据,应用会自动与百度API爬取周围的基础设施,获得的数据可用来作为学术研究和分析等

2.流程详解

js代码在用户浏览器中执行,因此爬取的主要部分逻辑都需要写在js脚本里,而rails服务器端需要完成的是获得当前需要抓取的房屋数据以及储存js抓取的数据。下图为对id=1的房屋周边数据抓取的分解过程:

完整代码下载地址:

关注微信公众号 datayx 然后回复 房价 即可获取。

3. 数据挖掘

1.1 在房价网站上利用爬虫爬下当前所有房子的价格和基本信息(房型、面积、楼层、建造时间等)1.2 利用百度API对每套房产的周边信息进行挖掘(公交车站、地铁、写字楼、医院、学校、商场等)1.3 将所有信息储存在关系型数据里,构建数据仓库(Data Warehouse)

4. 数据可视化

3.1 导入百度的可视化工具库(Echarts)3.2 利用训练的模型对指定房屋价格进行评估和预测,并以科学地方法将结果进行可视化 展示