本文共 1474 字,大约阅读时间需要 4 分钟。
本文将基于安居客平台杭州二手房数据的3000条记录,运用Pandas、Matplotlib和Pyecharts对数据进行深度分析和可视化。具体目标包括以下几个方面:
数据清洗
对数据进行去重、筛选空值行,对部分字段进行清洗处理。多维度刻画杭州二手房信息
包括房源售价、主打标签、建筑年份、户型、楼层、行政区划等分布情况,并生成房源标题的词云。分析不同区划、年份、标签房源的数量和均价情况
通过多维度对比,揭示二手房市场的特点和趋势。读取并去重数据
使用Pandas从MySQL数据库中读取数据,去除重复记录,确保数据质量。db = pymysql.connect(host="localhost", user="root", password="123456", db="ajkhzesf")sql_select = 'select title, houseType, area, floor, buildYear, adrees, tags, broker, totalPrice, price from hzesfmultire'df = pd.read_sql(sql_select, db).drop_duplicates()
去重后数据共有2996条记录。
处理总价和均价字段
将总价和单价字段转换为浮点型,去除单位信息。df['totalPrice'] = df['totalPrice'].str.replace('万','').astype(float)df['price'] = df['price'].str.replace('元/m²','').astype(float) 提取行政区划信息
根据地址字段信息,提取房源所在行政区划。regions = ['上城区','下城区','拱墅区','滨江区','江干区','西湖区','萧山区','余杭区','临安市','富阳区','建德市','淳安县','桐庐县']for region in regions: df['region'][df['adrres'].str.contains(region[:2])] = region
分析二手房的总价分布,发现200万以下的房源价格较为亲民,200万以上则属于高端市场。
房源的主打标签主要围绕“品质”、“配套”、“出行”和“宜居”展开,反映了市场对生活质量的关注。
2014年是二手房市场的“黄金年份”,因满五政策的推出而成为存量最大的年份。
二手房市场的户型以“三卧”为主,楼层分布相对均衡,偏向中等偏下的区域。
余杭区作为杭州二手房市场的核心区域,存量和均价均位列前列。
通过词云可视化分析房源标题,发现“精装”、“三房”、“地铁”等词汇最为突出,表明市场对这些卖点的高度关注。
6大主城区均价普遍较高,萧山、余杭等区域作为发展潜力区的代表,均价表现突出。
2014年房源数量最多,均价较低;2017年及以后房源减少,均价偏高。2010-2013年间,部分远郊区域房价较低。
对比分析发现,包含“繁华地段”和“南北通透”标签的房源均价显著高于其他标签房源。
本文通过多维度分析揭示了杭州二手房市场的特点,数据清洗和可视化分析为市场研究提供了有力支持。
转载地址:http://npvfk.baihongyu.com/