鸢尾花品种聚类分析

案例学习 2020-10-06

本案例进一步采用鸢尾花数据集(iris),通过聚类分析对不同品种的鸢尾花进行区分。由于聚类分析属于无监督学习的范畴,数据中不应当存在目标变量,可通过“特征选择”组件将其过滤,聚类算法选用经典的k均值算法进行模型训练,为了观测聚类效果,引入箱线图与散点图等可视化组件,整体的工作流如图1所示。、


图1


一、案例背景


在鸢尾花的分类预测的案例中,我们根据已知品种的鸢尾花测量数据,对新鸢尾花的品种进行了预测,在本案例中,我们要对一组未知品种的鸢尾花测量数据进行聚类分析,从而将不同品种的鸢尾花区分开。与分类预测不同,聚类算法是一种无监督学习的算法。


二、分析过程


1.数据的导入与观测


添加“文件”组件用于加载本地数据,选择蓝鲸已经集成的iris.tab,即鸢尾花数据集,这是机器学习和统计学中一个经典的数据集。“文件”组件也可以显示数据集的基本信息。


2.特征选择


通过“特征选择”来实现特征过滤,组件设置如图3所示。


图2


3.算法设置


K均值算法在训练模型时需要指定聚类簇的数量,组件的设置如图4所示。


图3


4. 聚类模型的可视化(基于箱线图)


待模型训练完毕,我们可以采用可视化的方式更直观地观测聚类模型的性能。从统计学的角度,我们希望聚类模型中,组内间距尽可能小,组间的间距尽可能大,箱线图可以从量化数据的角度实现定量的描述,如图5所示。


图4


5.聚类模型的可视化(基于散点图)


散点图可以从空间分布的角度更直观地观测聚类模型的分布状态,“散点图”组件的设置和可视化结果如图6所示。


图5


三、结论


在本案例中构建了以k均值聚类算法为基础的鸢尾花(iris)的聚类模型,簇的数量设置为3,较好地实现将不同品种的鸢尾花区分开,第二类品种的鸢尾花在花瓣长度和花萼长度普遍较长,第一类品种的鸢尾花居中,第三类品种的鸢尾花普遍较短。