数据集的箱线由什么组成 箱子
箱线图是John Tukey在1977年提出,它是用于显示数据的分布特征,箱线图作图要素包括上边缘、上四分位数Q3、中位数、下四分位数Q1、下边缘和异常值。箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。
箱子中间的竖线表示该组数据的中位数,箱子两端分别代表了上四分位数(即75%的百分位数)和下四分位数(即25%的百分位数),外延线两端分别是最大值和最小值。
箱子中间包含了总体50%的数据。上四分位数和下四分位数之间的距离称为四分位数间距,即四分位差。如果一个数据与箱子两端间的距离超过四分位数间距的1.5倍以上,通常被认为是异常值。
在箱图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中箱图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱图中间的粗线段表示数据的中位数。另外,箱图中在最上方和最下方的星号和圆圈分别表示样本数据中的极端值。
有两种类型的箱图:单式箱图用于分析只有一个变量的数据分布,复式箱图用以分析具有两个或以上变量的数据分布。
扩展资料
箱形图提供了一种只用5个点对数据集做简单总结的方式。这5个点包括中点、Q1、Q3、分部状态的高位和低位。箱形图很形象的分为中心、延伸以及分布状态的全部范围。箱形图中最重要的是对相关统计点的计算,相关统计点都可以通过百分位计算方法进行实现。
在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
百度百科-箱形图
百度百科-箱式图