博客
关于我
Pandas、Matplotlib、Pyecharts数据分析实践
阅读量:794 次
发布时间:2023-02-26

本文共 1474 字,大约阅读时间需要 4 分钟。

00 数据分析目标

本文将基于安居客平台杭州二手房数据的3000条记录,运用Pandas、Matplotlib和Pyecharts对数据进行深度分析和可视化。具体目标包括以下几个方面:

  • 数据清洗

    对数据进行去重、筛选空值行,对部分字段进行清洗处理。

  • 多维度刻画杭州二手房信息

    包括房源售价、主打标签、建筑年份、户型、楼层、行政区划等分布情况,并生成房源标题的词云。

  • 分析不同区划、年份、标签房源的数量和均价情况

    通过多维度对比,揭示二手房市场的特点和趋势。


  • 01 数据处理

  • 读取并去重数据

    使用Pandas从MySQL数据库中读取数据,去除重复记录,确保数据质量。

    db = pymysql.connect(host="localhost", user="root", password="123456", db="ajkhzesf")
    sql_select = 'select title, houseType, area, floor, buildYear, adrees, tags, broker, totalPrice, price from hzesfmultire'
    df = pd.read_sql(sql_select, db).drop_duplicates()

    去重后数据共有2996条记录。

  • 处理总价和均价字段

    将总价和单价字段转换为浮点型,去除单位信息。

    df['totalPrice'] = df['totalPrice'].str.replace('万','').astype(float)
    df['price'] = df['price'].str.replace('元/m²','').astype(float)
  • 提取行政区划信息

    根据地址字段信息,提取房源所在行政区划。

    regions = ['上城区','下城区','拱墅区','滨江区','江干区','西湖区','萧山区','余杭区','临安市','富阳区','建德市','淳安县','桐庐县']
    for region in regions:
    df['region'][df['adrres'].str.contains(region[:2])] = region

  • 02 多维度刻画二手房市场

    1. 房源售价

    分析二手房的总价分布,发现200万以下的房源价格较为亲民,200万以上则属于高端市场。

    2. 主打标签

    房源的主打标签主要围绕“品质”、“配套”、“出行”和“宜居”展开,反映了市场对生活质量的关注。

    3. 建筑年份

    2014年是二手房市场的“黄金年份”,因满五政策的推出而成为存量最大的年份。

    4. 户型与楼层

    二手房市场的户型以“三卧”为主,楼层分布相对均衡,偏向中等偏下的区域。

    5. 行政区划

    余杭区作为杭州二手房市场的核心区域,存量和均价均位列前列。

    6. 房源标题词云

    通过词云可视化分析房源标题,发现“精装”、“三房”、“地铁”等词汇最为突出,表明市场对这些卖点的高度关注。


    03 二手房均价情况

    1. 不同区划均价

    6大主城区均价普遍较高,萧山、余杭等区域作为发展潜力区的代表,均价表现突出。

    2. 不同年份均价

    2014年房源数量最多,均价较低;2017年及以后房源减少,均价偏高。2010-2013年间,部分远郊区域房价较低。

    3. 不同标签均价

    对比分析发现,包含“繁华地段”和“南北通透”标签的房源均价显著高于其他标签房源。


    本文通过多维度分析揭示了杭州二手房市场的特点,数据清洗和可视化分析为市场研究提供了有力支持。

    转载地址:http://npvfk.baihongyu.com/

    你可能感兴趣的文章
    OS第1章
    查看>>
    OS第2章 —— 进程
    查看>>
    OS第3章 —— 进程调度和死锁
    查看>>
    OS第5章
    查看>>
    OS第6章 —— 设备管理
    查看>>
    OTA测试
    查看>>
    Oulipo
    查看>>
    Outlook 2010 Inside Out
    查看>>
    overlay(VLAN,VxLAN)、underlay网络、大二层概述
    查看>>
    OWASP漏洞原理<最基础的数据库 第二课>
    查看>>
    OWL本体语言
    查看>>
    P with Spacy:自定义文本分类管道
    查看>>
    P-DQN:离散-连续混合动作空间的独特算法
    查看>>
    P1035 I need help
    查看>>
    P1073 最优贸易
    查看>>
    P1364 医院设置
    查看>>
    spring缓存注解@Cacheable、@CacheEvict、@CachePut使用
    查看>>
    P1865 A % B Problem
    查看>>
    P2260 [清华集训2012]模积和
    查看>>
    P3203 [HNOI2010]弹飞绵羊 —— 懒标记?分块?
    查看>>