对数据文件data.csv在根据课程设计要求在IDEA中编写Spark程序并打包成jar包,并且将数据文件data.csv上传到HDFS中,提交jar包到Spark集群中运行。
data.csv里面包含餐厅数据,可以用记事本打开查看,主要包含以下13个字段,字段之间由逗号分隔:
"所属年月","商家名称","主营类型","店铺URL","特色菜","累计评论数","累计销售人次","店铺评分","本月销量","本月销售额","城市","商家地址","电话"
课程设计要求完成以下任务,在IDEA中创建Maven项目,提供pom.xml文件给大家,完成以下任务。
一、将data.csv文件上传到hdfs的/cateringdata/目录下。
二、编写Spark程序,实现以下功能,并且将程序打包为jar包
1.去掉"本月销量","本月销售额"(第8列和第9列)的数据异常(数据为空字符串或者null或者为0),并且统计去掉了多少条;这一步清洗获得的数据要以逗号分割,存到hdfs的/foodsparktask1目录下;
2.去掉"店铺评分"数据为null的数据,并统计去掉了多少条;
3.去掉"店