很多同学做数据分析,喜欢一上来就套模型,但实际上,模型部分应该只是最后临门一脚,之前更重要的环节应该是EDA,exploratory data analysis。
1.单变量分布特征描述
首先,要看每一个变量本身的分布特征,主要分为因变量(reponses)的分布特性和自变量(predictors)的分布特性。这里,要同时运用图(graphical summaries)和数(numerical summaries)的方式来丰富呈现你的数据分布特性。
实际上,以我自己的论文投稿经历来看,这部分往往是review强烈要求补充的,因为大部分情况下,review没有办法在短时间的阅读中一下get到你的点(也可能是你确实没写清楚),因此需要大量的EDA来凸显你数据分析的motivation。
这个连续变量(winning speed)的分布就是非正态的(左偏)
2.双变量关系描述
模型中放入的所有变量,理论上都需要在一开始就两两地检查他们的关系。
(1)如果是两个连续变量(continuous),通常使用散点图(scatterplot)。
如果两个变量正相关,就会这样
如果两个变量相关性弱,就会这样
(2)如果一个是分类的(categorical),另一个是连续的(continuous)则用箱线图或分层柱状图
在三种condition下(分类变量),year,starters和speed(连续变量)各自的分布
这个图跟上面的箱线图是一样的,每个图分为三个子图表示三个condition
3.把单变量分布特征描述和双变量关系描述整合在一起分析就是标准的矩阵分析图
对角线是单变量的分布特性,其他为双变量关系特性
4.在双变量分析基础上加入第三个变量的EDA(本质为调节变量)
该图本质是上方矩阵中第4行,第2列图的进一步细化
把原图的所有散点区分为三角形和圆形来表示第三个变量的情况(也就是调节变量),可以把EDA做得更深入。
所以,在建模之前,先把变量自己的属性和相关关系都通过图示的方式展现出来,并初步引入调节变量,可以增强你数据分析的分析深度。