酷应用

@程序员，如何在买房时不被宰？

百家作者：CSDN 2018-11-11 03:48:24

作者 | 胡萝卜

责编 | 胡巍巍

身为程序员，如何自制一个二手房估价模型，以最实惠的价格购得房子？本篇文章讲的就是这件事！不过本文侧重于完整的实现过程和思路，而不是代码部分。

完成后会用自己训练的模型来实战预测下Q房网的成交数据，并且对比下房产大数据平台的“房价网”的估价器。

所用到的Python库：sickit-learn、Numpy、pandas、Matplotlib、beautifulsoup。

机器学习到底是干什么的？

假设你有一位邻居老张，东北人，平时经常去市场买菜，其中买大白菜最多。

由于老张这个人特别会过日子，不希望被摊位随便要价，他就准备自己研究下白菜的价格，买菜都带一个账本记账。买了5次以后记录下来白菜的价格是这样的：

根据账本他推算了下白菜的价格，大约是5元一斤。如果买4斤白菜的话，正常价格应该是20元左右，这个特别简单。

数学上描述这个关系是用一个线性方程y = ax，其中x代表白菜的斤数，y代表白菜的价格。a在这个案例里面等于5（每斤白菜的单价），而y = 5x就是白菜价格的模型。

现在老张觉得这个估价方法挺管用，由于价格猜测得准确也没有摊位敢胡乱开价。太平过了一段时间后，有一天他又去买菜，这次摊主却告诉他4斤白菜要28块了。老张很疑惑，问摊主原因。

摊主说，哦，因为这批白菜比较新鲜，刚采摘下来不到24小时，所以卖的比较贵。而且，由于家里要买一块新菜地，为了增加点收入，以后白菜也都要按照新鲜程度来卖了…...

这样一来，原来那个模型就没用了。于是老张又记录了一段时间的账本，与之前不同的是他这次还记录了白菜的新鲜程度。这个账本是这样的：

这么一看还是能隐约知道白菜的价格与斤数有关，但是似乎关系不那么明显了。现在老张怎么来估算白菜的价格？

其实白菜的价格分布还是有规律的。假设把老张的账本投射到一个三维空间里是这样的：

可以看到几乎所有的点在三维空间中都处于同一个平面范围上。根据高中数学我们会知道三维空间平面的表达式是z = ax + by + c。

这里的a不再代表白菜的单价了，仅仅是白菜重量的系数。新的账本的表达式是z = 7x - 3.5y + 3.5。

这个白菜价格估算方法用的就是机器学习中最基础也最经典的一种算法，叫做Linear Regression线性回归。

老张的账本在机器学习中叫做训练数据集，重量、新鲜程度等描述白菜属性的数值或者分类叫做特征。

而求解模型中a,b,c参数具体数值，使得它对所有预测结果与真实值之间综合误差最小的过程就叫做模型的拟合。

这看起来很OK，可是你一定会说现实生活中的问题根本不是这样的啊！事实上老张可能会去多个摊位买菜，每次去哪个摊位都是随机的。

又或者白菜有大有小，白菜大小也会影响价格。白菜也可能在冬天更便宜，夏天更贵等等…...

说的没错，实际生活中我们往往需要多个特征来描述问题，对应一个多维以上的空间。

数据分布也并非总是线性的，可能是一个曲面或者高维超曲面，数据也可能并不会正好都在某个曲面上等等。

这样问题就来了，大多数的人对高维想象都很难，怎么去解一个高维空间的问题哪？

这个时候计算机就发挥作用了。因为在机器“眼”里世界是数学抽象的，它不需要理解或者想象高维空间，只需要将低维空间的运算规则推广到高维空间即能处理一系列求解。

进一步，计算机寻找最佳参数的方式叫做梯度下降法（理解需要一点入门级别的微积分。)

这种方法很容易让我联想起曾经看过的一系列与时间循环有关的科幻电影。

电影讲述主角被困于某段时间线中，每次死亡以后又都会回到时间线的最初。

每次重生到再死亡的过程中也都会多获得关于事件一点的信息，最后所有拼凑起来的信息还原了事件的真相。

如果把电影中的每次重生到死亡的过程看成一次“迭代”，那么计算机寻找最佳参数的梯度下降法就是迭代，每次迭代都向最优方向前进一点点，当迭代非常多的次数后最终就能非常逼近最优参数。

这跟现实生活中人的学习方法很接近，所以机器学习叫Machine Learning而不叫Machine Fitting，或者Machine Predicting什么的…...

区别只是计算机的迭代时间可能1万次只用了几秒钟，而人类，因为现实中不会真的有时间循环让你去重复经历同一件事，可能在重大问题上迭代个几次大概一辈子就过去了…...

所以，概括地说机器学习做的事情就是输入训练数据集，给定一种建模方式，计算机自动寻找最佳拟合参数使模型可以描述数据集中输入和输出的对应关系。并用这个模型来预测新输入数据的过程。

准备工作

既然已经知道机器学习是什么了，我们就要着手开始制作自己的模型了。参考上方关系图，我们需要准备点什么哪？

首先，我们需要一个开源库，不用自己写一大堆晦涩艰深的数学公式去指导机器计算，只要传参数就可以傻瓜式操作了。

Python有一个机器学习的库Scikit-learn就很好用。为了熟悉库，需要看下使用文档。

我们还需要一台能计算的电脑，我就用了公司配发的低配行政笔记本电脑。

解决特定领域问题的时候，该领域的专业知识会帮助你。比如，你要通过人脸表情照片去识别笑容，就需要了解一点图形学，知道计算机“看”照片是一个像素矩阵，每个像素点的灰度值是一个数字等等。

最后，就是最重要的数据源了。选择数据的质量和规模是直接影响模型表现的最重要因素。更多的时候可能我们想的到要解决哪些问题，却根本不知道从哪儿去找数据源…...

这里我们选择做一个上海二手房的成交估价模型，因为相对数据更好采集。

采集还是通过爬虫来实现，对象则是最受广大爬虫玩家欢迎的房产网站“链家网”。

动手采集前我们需要先看下链家“二手房成交”板块房产详情页，分析下大致哪些特征可能对判断成交价格有用。

区域，板块、小区名称、成交价格、成交日期这几项是必须采集的。挂牌价格、成交天数、带看、关注、浏览量这几项假设想进一步分析成交时间的话会有用，可采可不采。

户型、楼层、面积、朝向、梯户比这几项是直觉与价格有关的因素，所以采下来。

小区信息中建筑年份、物业费、总楼栋数和总户数这四个特征我们也认为与成交价格有关，所以采集下来。

这里你可能会问为啥没有采集“小区均价”哪？估算房价最直接的不应该是小区均价吗？

其实是因为链家网站推算小区均价的逻辑，这里的小区均价计算的是“挂牌价格”的均价。

留意下案例中这套房子，成交均价是46259元/平，并且成交时间就是离现在很近的9.30日。

而小区的平均挂牌均价是57507元/平。直觉告诉我们房产虽然具有投资属性但并不可能在20天内有这样大规模的波动，既然我们研究的问题是成交，那么就以成交价格为准。

最后要采集的就是配套了。作为一个实验案例我这里并没有采集医院，学校等信息。而是着重采集了小区经纬度和周边1.5公里直线距离内的地铁站个数，地铁线路条数。

整个爬虫的代码是比较简单的，类似爬取“链家网”的博文CSDN上可以找到很多，用到的库就是beautifulsoup，这边就不赘述了。

贴一下调试爬取地铁配套部分的代码吧，这里需要调用下百度地图的API来定位到小区经纬度，并且用POI来查找周边地铁站个数和地铁线路数，返回json格式再解析出来。

# 输入上海任意小区名，打印出周边1.5公里直接距离内的地铁站个数，名称，地铁线路和步行距离
name_estate = input("输入小区名字： ")
#中文转码utf-8
name_estate_quoted = quote("上海"+name_estate)
#调用百度地图API获得小区经纬度
find_location = "http://api.map.baidu.com/geocoder/v2/?address="+name_estate_quoted+"&output=json&ak=你申请的ak"
page = urlopen(find_location).read()
content = json.loads(page,encoding= "utf-8")
o_lat = content["result"]["location"]["lat"]
o_lng = content["result"]["location"]["lng"]
#用获取的小区经纬度作为参数，调用百度地图的POI查找周边地铁站。radius传范围大小（米），output返回格式
find_metro = r"http://api.map.baidu.com/place/v2/search?query=%E5%9C%B0%E9%93%81&location="+str(o_lat)+","+str(o_lng)+"&radius=1500&output=json&ak=你申请的ak"
page = urlopen(find_metro).read()
results = json.loads(page,encoding = "utf-8")["results"]
counts = len(results)
print("【"+name_estate+"】周边1.5公里范围内共有"+str(counts)+"个地铁站，分别是：")
for result in results:
    d_lat = result["location"]["lat"]
    d_lng = result["location"]["lng"]
    #调取百度地图算路,mode传出行方式（步行，驾车等), origin传出发地经纬度，destination传目的地经纬度
    calcu = "http://api.map.baidu.com/direction/v1?mode=walking&origin="+str(o_lat)+","+str(o_lng)+"&destination="+str(d_lat)+","+str(d_lng)+r"&origin_region=%E4%B8%8A%E6%B5%B7&destination_region=%E4%B8%8A%E6%B5%B7&output=json&ak=你申请的ak"
    obj = urlopen(calcu).read()
    content = json.loads(obj,encoding = "utf-8")
    res = content["result"]["routes"][0]
    distance = res["distance"]
    duration = res["duration"]
    print(result["name"]+" "+result["address"]+" 步行距离约"+str(int(distance))+"米"+" 耗时约"+str(int(duration/60))+"分钟")

另外一个采集前需要考虑的问题是，我们是否有必要控制下数据时效性？

假设我们打算只估计近期二手房成交价格，那么因为价格的波动，太久远的数据反而可能让模型产生偏差。

所以我们圈定了一个时间范围为7月至今。最后，采集完成后就得到了大约7901组数据。

这样准备工作就完成了。

对数据的清洗和预处理

到这里为止上面那堆数据还不能直接拿来训练模型，我们还需要对其进行清洗和预处理。

▌处理虚拟变量

第一个问题是机器无法处理像类似“两梯三户”这种文字特征，或者说这种表述方式无法给予机器有效信息。

一种处理方法是我们将这个特征做成“虚拟变量”或这叫One-Hot编码，其实就是一个01矩阵。

打个比方来说，在梯户比这个特征上假设可能出现的结果有“一梯两户”，“一梯四户”，“两梯三户”，“两梯四户”这4种可能性，一个“一梯四户”房产就表示为下面这种形式

这个编码可以用pandas的get_dummies方法来实现，非常方便。假设你不想逐一设定列名的话，使用get_dummies之前唯一要小心的点在于要确认所有数值型的数据类型不是object类型，否则get_dummies是会把数值类型特征也虚拟变量化的。

因为虚拟变量会大大增大特征维度，造成计算量上升。而梯户比的实际含义是数值，也可以直接处理成两列，一列代表梯数，一列代表户数。显然“梯户比”这个特征这里处理成数值更好。

最终我们直接去除了“小区信息”，没有把它作为输入变量。原因一是假设对小区进行虚拟变量变换的话会大大增加数据维度从而对计算性能提出更高的要求。

二是我们目前的数据量没有足够大到覆盖上海所有小区，假设预测新数据的小区并没有出现训练数据集里则会造成特征不一致的问题，代码会直接报错。

▌填充缺失值

其次，网络采集的数据都可能会存在大量缺失值。比如下面这种“暂无信息”。

在我们这个训练数据集里，有缺失值的数据有703条，几乎占了总数据量的9%。如果我们不想损失掉这些数据就不能粗暴的将它们删除，而是要设定一定的方式对缺失值填空。

这里我们可以用numpy的isnull方法来查找下哪些列有缺失值，发现是“成交时间”、“朝向”、“电梯”、“建设年份”和“物业费”这5列。

#处理“暂无信息”或者“暂无数据”
for_training = for_training.apply(lambda x:x.replace("暂无信息",np.nan).replace("暂无数据",np.nan)
for_training.isnull().any()

其中成交天数我们最终不打算把它作为输入特征，可以随便给它一个值后不用管它。朝向我们统一给它填充“南”，有无电梯我们按照2000年前< =6层的建筑估算“无”，其余估算“有”来填充。

建设年份按照同板块楼盘建设年份的平均数来估。物业费则按照同建设年份物业费的平均数来估。

▌查找异常值

上面这些都完成了以后还需要观察下现有数据。

想象下在老张买菜的案例里面，如果他记录账本的那段时间正好碰到白菜大减价，那么输入大量减价后的价格特征，模型一定会产生偏斜。

在二手房的问题上像下面这种成交价格低的不可思议的（相对上海房价来说），或者挂牌价格和成交价格相差巨大的，就可以判定为典型异常值。

这里我们用统计学的分箱图来排除异常值，我们计算下成交均价的log变换后做下分箱：

分箱图的看法是这样的，中间红线代表“中位数”，箱体的上下边缘分别是“上四分位”和“下四分位”。上下四分位间的距离叫做“四分位距”。而上下超过1.5倍四分位距的数值都被判断为异常值。这里大约要删除53组数据。

删除后可以看到二手房成交均价的分布1.598~12.612万之间，较为符合我们对上海房价的逻辑常识认知了。

完成这步后，最后得到了一个7833x245的数据集。去除不作为输入的信息，基本上可以知道我们输入数据的维度在240左右。

训练模型、调参和可视化

我们来为模型选择一种算法，这里预测二手房成交价格是个回归问题，我们选择RandomForestRegression随机森林回归。

与一开始老张买菜的案例不同，二手房问题的复杂度高的多。线性模型我在这里也调试了下，表现最好的情况是L1正则化以后的Lasso可以达到0.84分（满分为1，表示100%的数据可用模型解释），这个分数不算太低。

但树集成类算法在这个问题上可以表现更好。关于随机森林的原理有兴趣的可以自行百度，简单来说可以理解为N棵随机的决策树通过分叉后覆盖所有数据，然后再取平均。

因为scikit-learn是个傻瓜式工具包，我们只需要为算法调节一些参数。分别是随机树的棵树（n_estimators）和树的最大深度（max_depth）。在scikit-learn里面最佳参数的查找也是可以用网格搜索grid_search查找的。

#读取清洗好的数据集
data = pd.read_csv(r"你的目录shhouse_dummies.csv",header = 0,encoding = "gbk")
#打乱数据集
data = data.reindex(np.random.permutation(data.index))
#设计成交价格为预测目标
target = data["deal_price"]
#删除不作为输入特征的列
data.drop("deal_price",axis = 1,inplace = True)
data.drop("post_price",axis = 1,inplace = True)
data.drop("deal_days",axis = 1,inplace = True)
data.drop("price_per_area",axis = 1,inplace = True)
data.drop("community",axis = 1,inplace = True)
#分割数据（注：正规做法是这里是要将数据集分割为训练集和测试集的，由于我们下面会启动五折交叉验证，为了节省数据集就不再分割了）
#X_train,X_test,y_train,y_test = train_test_split(data,target,random_state = 1)
X_train = data
y_train = target
#调用scikit-learn的网格搜索，传入参数选择范围，并且制定随机森林回归算法，cv = 5表示5折交叉验证
param_grid = {"n_estimators":[5,10,50,100,200,500],"max_depth":[5,10,50,100,200,500]}
grid_search = GridSearchCV(RandomForestRegressor(),param_grid,cv = 5)
#让模型对训练集和结果进行拟合
grid_search.fit(X_train,y_train)
print(np.around(grid_search.best_score_,2))

我们尝试两个参数在[5,10,50,100,200,500]中各种排列组合的可能性，并对训练集进行5折交叉验证（平均分成五分，每次各用不同的四份来训练，用剩下的一份来测试）来选出最优参数。

完了以后运行代码就是等待了。根据机器的计算性能需要等待不同的时间，我的行政笔本等待的时间约为20-30分钟左右。

结束后可以看到最终我们获得了一个约0.90分的模型，即约90%的数据可以用模型来解释，这高于了线性模型约6个百分点。该模型最佳的参数选择是500棵树，50层深度。

我们还可以将不同参数的组合结果用Matplotlib的imshow可视化一下，代码如下：

#画最优参数的热力图选择
fig = plt.figure(figsize = (16,9))
ax = fig.add_subplot(1,1,1,facecolor = "whitesmoke",alpha = 0.2)
ax.imshow(df,cmap = "summer")
ax.set_xlim(-0.5,5.5)
ax.set_ylim(-0.5,5.5)
ax.set_xticklabels([0,5,10,50,100,200,500],fontsize = 18)
ax.set_yticklabels([0,5,10,50,100,200,500],fontsize = 18)
ax.set_xlabel("n_estimators",fontsize = 18)
ax.set_ylabel("max_depth",fontsize = 18)
for i in range(0,6,1):
    for j in range(0,6,1):
        ax.text(i,j,str(np.around(df.iloc[j,i],3)),fontsize = 15,verticalalignment="center",horizontalalignment="center",color = "black")

▌得到如下结果：

这就完了？你可能会说这样一点都不直观啊！我该怎么去解释这个完成的模型是什么样的哪？

还好，scikit-learn的树算法还提供了一个叫特征权重的属性。我们可以把这个属性调出来可视化一下，看下从机器的“眼睛”如何解读影响房价的这些特征因素。代码是这样的：

#特征重要前十位性可视化
features = X_train.columns
importance = grid_search.best_estimator_.feature_importances_
fi = pd.Series(importance,index = features)
fi = fi.sort_values(ascending = False)
ten = fi[:10]
fig = plt.figure(figsize = (16,9)) 
ax = fig.add_subplot(1,1,1,facecolor = "whitesmoke",alpha = 0.2)
ax.grid(color = "grey",linestyle=":",alpha = 0.8,axis = "y")
ax.barh(ten.index,ten.values,color = "dodgerblue")
ax.set_xticklabels([0.0,0.1,0.2,0.3,0.4,0.5,0.6],fontsize = 22)
ax.set_yticklabels(ten.index,fontsize = 22)
ax.set_xlabel("importance",fontsize = 22)