天府新区万科海悦汇城附近核酸检测点?

从某房地产门户网站爬取城市区域二手房房产信息,存入数据库或文件,从数据库读取数据,进行分析、模型构建和房价预测。(本文为练习笔记总结,问题在所难免,待以后纠正和完善。)

以房/天/下成都天府新区二手房为抓取目标


 
 
 单价 小区名字 建筑面积 总价 户型 朝向 楼层 装修

——(为了方便阅读这里只显示前五条记录)



0 0
  • “index”字段作为数据库索引,不具有分析预测意义
  • “单价”、“建筑面积”和“总价”三个字段的单位需要去除掉,并转化为数值型以便分析
  • “小区名字”字段有的记录首末有\r\n特殊字符可以处理掉,但是该字段应该无助于预测
  • “朝向”字段有不具有太大意义的项(如“南北”),需要处理
  • “朝向”字段有“暂无”值,需要结合“南北”等值综合处理,并要考虑其他字段是否有类似情况(如户型、楼层和装修)
'合能枫丹铂麓', '棠湖泊林城', '中铁骑士府邸', '海伦春天', '新鸿基悦城', '三都汇朝外', '原乡', '南湖半岛', '河畔新世界', '麓山国际麓镇帕萨迪纳', '中德英伦世邦', '德商华府天骄', '麓山国际圣安德鲁', '宏达世纪丽景', '碧桂园海昌天澜', '麓山国际茵特拉肯', '双华麓港', '心怡中丝园', '建发浅水湾', '府河音乐花园', '麓山国际社区云堤曦岸', '恒大天府半岛二期', '中德麓府', '兰桥尚舍', '麓山国际别墅', '麓山国际社区茵特拉肯', '和泓半山', '麓湖生态城麒麟荟', '麓湖生态城白玉台', '瑞升橡树林华府', '蔚蓝卡地亚', '麓山国际悦林湖', '恒大天府半岛', '麓湖生态城黑珍珠', '佳兆业君汇上品', '麓山国际塞尔维蒙', '石化家园', '保利叶语', '鑫苑鑫都汇', '美城悦荣府别墅', '成都玩家', '麓山国际长岛', '麓湖生态城蓝花屿', '融创Nano公馆', '戛纳湾金棕榈', '九龙仓时代上城', '麓湖生态城隐溪岸', '南湖世纪', '雅居乐富春山居', '中铁诺德壹号', '水印城', '北辰南湖香麓', '洛森堡映山', '南湖国际社区三期', '麓山国际半月湾', '华阳滨河花园', '麓山国际逸翠谷', '麓山国际碧湖岸', '三利宅院白云渡', '铂雅苑', '黄金海岸', '麓山国际', '光明城市', '麓山国际黑鹰庄园', '南湖左岸', '天投北鑫苑', '麓山国际拉佩维尔', '南阳盛世', '远大中央公园', '南湖国际社区二期', '蜀郡一期', '香山半岛', '欣宇都市港湾', '双峰嶺', '宏达世纪锦城', '万科海悦汇城西区', '恒大名都', '麓山国际香溪堤', '麓山国际圣芭芭拉', '麓山国际社区云曦台', '德商御府天骄', '麓湖生态城云树', '美城悦荣府', '棠湖泊林城别墅', '雅居乐花园一期', '中海左岸', '秦皇帝锦', '蓝山美树', '复地御香山', '双兴名邸四季春天', '和贵馨城', '融创南湖逸家', '麓山国际碧影溪', '麓山国际翠云岭', '戛纳湾滨江', '亚丁小镇', '万锦城', '蜀郡又一城', '宏信南樾', '麓山国际橡树坡', '中海右岸', '和贵南山上', '洛森堡蝶郡', '洛森堡新殿', '景茂城果', '青南美湾', '雅居乐十里花巷', '麓湖生态城沉香谷', '麓山国际叠溪谷', '蜀郡别墅', '保利锦江里', '麓山国际圆石滩', '麓湖生态城黑蝶贝', '恺信时代天城', '美高登A座', '枫渡莱茵', '麓山国际solo', '鸿阁一号', '南阳锦城', '凯华丽景', '成都雅居乐花园别墅', '蓝山国际爵悦半岛', '麓湖生态城澜语溪岸', '海昌天澜别墅', '棕榈南岸', '南湖国际社区四期', '麓山国际黑钻山庄', '欧香小镇别墅', '锦官丽城亲水湾', '三利云锦', '蓝山国际伯爵山', '蓝润ISC', '蓝岸丽景', '嘉美地', '天府美岸', '美城云庭', '长冶南阳锦城香樟阁', '慕和南道', '永泰雅居', '碧桂园海昌天澜别墅', '鸿阁新座', '心怡德盛苑', '南湖国际社区一期', '华银美景', '油建苑', '麓山印象', '丽都新城一期', '家益欣城', '地源吾舍', '华阳府河名居', '成南领寓', '楠域丽景', '麓山国际黑檀庄园', '凯莱丽景雅筑', '华阳花苑', '麓湖生态城玲珑屿', '万科翡翠公园', '融创玖棠府', '金南园', '六菱小区', '阳光华苑', '麓岭汇', '大城际', '戛纳湾畔', '三利麓山城别墅', '顺发苑', '翠拥天地', '明珠怡园', '阳光华庭', '欣雨苑', '金城花园', '保利御景台',
  • 该字段分类较多表面上看没有分析价值,可能需要结合地理位置分类,暂不考虑留到以后处理
  • 该字段需要分割成三个字段以便统计分析
0
  • 除了常用的指向外,有“东西”、“南北”和“暂无”三个分类,占据比较大的份额
0
  • 该字段有五个暂无值,可以填充为众数

单价 & 建筑面积 & 总价




0

0 0
0 0
0
  • 字段已全部转化为数值,用于分析和预测
  • 网页应该还有更多的信息可供推测房价,暂时分析这些其他的后续添加

  • 大部分数据表现出相对集中的趋势,价格随建筑面积增加而上升
  • 可以观察到部分“离群”异常值,建筑面积大约1500的一个点的总价过低,应该去除

0
0
0

0
0
0 0


  • 总价总体上表现出正偏态分布,需要变化成正态分布
0 0
0 0
  • 表面上看,建筑面积和户型对总价影响很大,单价相关系数也很大(单价可能在实际中是未知因素)
  • 朝向表现出正相关(拥有向阳面的价格较贵);楼层变现出负相关(楼层越低价格越高)
  • 从第一列可以看出建筑单位、单价和户型等特征与总价表现出明显的相关性

使用了 KFold 方法减缓过拟合,GridSearchCV 方法进行最优参数自动搜查,最后使用R2评分来给模型打分。

这里借用了visuals.py代码,为方便阅读暂不放进内容,请自行下载查看

最优模型在测试数据上的R^2分数=0.97
  1. 房地产门户网站上应该还有一些诸如建筑年代、小区位置、绿化程度等指标可以列入分析和预测的考虑
  2. 一些字段的处理可能需要优化,如朝向和户型
}

我要回帖

更多关于 万科海悦汇城业主论坛 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信