【考核内容】
利用 Pandas 与相关可视化库完成数据的分析、处理与可视化任务,并利用
KNN、决策树、随机森林等算法对数据进行分类或预测。数据选题应具有正面积
极的意义,可从以下大类方向中选取:
· 信息类
· 金融类
· 交通类
· 食品安全类
· 体育类
· 健康信息
· 商品类
评分细则:
· Pandas 完成数据分析的合理性与正确性(20 分)
· 数据预处理的合理性与正确性(20 分)
· 选择合适的模型进行分类或预测(30 分)
· 数据可视化图表的美观性与简洁性(10 分)
· 数据分析观点的创新性(10 分)
· 报告内容的完整性与描述准确度(10 分)
【数据源描述】
描述所处理数据集的结构,字段的含义,记录数。
MSSubClass:标明销售中涉及的住宅类型
MSZoning:标明了销售的一般分区分类
LotFrontage:与房产相连的街道的直线英尺
LotArea:地块大小,以平方英尺为单位
Street:通往房产的道路类型
Alley:通往物业的小巷类型
LotShape:地段形状规整程度
LandContour:房地的平整度
Utilities:可用的公共设施类型
LotConfig:地段配置
LandSlope:土地坡度
Neighborhood:周边地区位置
Condition1:与各种条件相近
Condition2:毗邻各种条件(如果有一个以上的条件)