Statistics 数据模式
以图形方式绘制数据模式时非常有用。数据模式通常根据中心、展开、形状和其他不寻常属性等特征进行描述。其他特殊的描述标签有对称、钟形、倾斜等。
中心
从图形上看,分布的中心位于分布的中位数。这样的图表显示几乎一半的观测值在任一侧。每列的高度表示观察的频率。
传播
分布的散布是指数据的变化。如果观测集覆盖范围广,则传播范围更大。如果观测值以单个值为中心,则分布更小。
形状
可以使用以下特征描述分布的形状。
对称-在对称分布中,图形可以在中心以这样的方式划分,即每一半都是另一半的镜像。
峰数。-具有一个或多个峰的分布。具有一个清晰峰的分布称为单峰分布,具有两个清晰峰的分布称为双峰分布。中心的单峰对称分布称为钟形。
偏度-某些分布在图的一侧可能比另一侧有多个观测值。对较低值的观察较少的分布被称为向右偏斜;并且对较低值的观察较少的分布被称为向左偏斜。
均匀-当观测集没有峰值并且数据在分布范围内均匀分布时,该分布称为均匀分布。
不寻常的功能
数据模式的常见异常特征是间隙和异常值。
间隙-间隙指向没有观测值的分布区域。下图有一个缺口,因为分布中间没有观察。
异常值-分布的特征可能是与其他观测数据集大不相同的极值。这些极值被称为异常值。下图说明了具有异常值的分布。
