code学习

SparkSql系列--需求01

 一.需求介绍 

 前些天碰见个需求,摘取其中一小部分,有用户表,医院表,地区表,以医院和日期(天)的维度下,获取总数。

  在数据仓库没有搭建好的情况下,从mysql库ode(源数据),处理完成导入到另一个库中,下面看图示意。

SparkSql系列--需求01

用户与医院是一对多的关系,这个是2B项目,医院分割用户,医院与地区是多对一的关系。

SparkSql系列--需求01

在源数据库处理完数据结果保存到上述表中。

二.技术介绍

  Spark SQL是Spark提供的针对结构化数据处理的模块。不同于基本的Spark RDD API,SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQL和Dataset API。计算结果的时候使用相同的执行

继续阅读