箱线图
用图形展示属性值的分布情况。
输入:
数据:输入数据集
输出:
所选择的数据:在箱线图中选中的实例
使用箱线图组件可以查看数据的分布情况,从而识别数据集中的异常值或重复值、判断数据的偏态和尾重,以及查看几组数据的均值、中位数、尾长、异常值、分布区间等信息。
功能:
1.选择要分析的变量。选择是否将变量按相关度排序。
2.选择“子组”来查看离散子集的箱线图。
3.当实例按子组来分组时,可以更改显示模式。注释框将显示端值,均值和中位数,而比较中位数和比较均值时会在子组之间比较所选值。
4.深蓝色竖直线表示均值,深蓝色虚线表示标准差。
5.浅蓝蓝色区域表示上四分位数和下四分位数。
6.灰色竖直线表示中位数。
7.当“自动发送”为启动状态时,所有更改都将自动传送到其他窗口组件。否则,需点击“发送”。
8.查看帮助,保存图像或生成报告。
下图是用箱线图表示离散属性,每个条形表示具有每个特定属性值的实例数。该图显示了动物园数据集中不同动物类型的数量:有41种哺乳动物,13种鱼类,20种鸟类等等。
示例:
箱线图组件最常用在“文件”组件之后,用于观察数据集的统计指标。在下面这个例子中,我们用箱线图来查看心脏病数据集的数据分布情况。
箱线图也适用于查看特定数据集的属性。下图这个工作流中,用“文件”组件打开了动物园数据集,并连接“距离““层次聚类”和“箱线图”组件。
之后定义集群选择的阈值(单击层次聚类顶部的标尺)。打开箱线图组件,按相关性勾选顺序,然后选择“cluster”作为子组。这将根据属性定义所选子组的程度对属性进行排序,在我们的例子中是一个类。从结果看,聚类结果确实和动物的类型非常吻合。