距离公式的应用

案例学习 2022-04-02

在数据挖掘分析中距离公式的应用是少不了的,尤其是基于距离的聚类分析算法,下面我们看一个蓝鲸数据挖掘软件中距离公式的应用案例。


一、案例背景


在大数据时代,对数据的挖掘也大量的用到了距离,例如k最邻近分类(KNN)算法通过计算测试样本点到其他每个样本点的距离来完成分类;k均值聚类(K-means)算法通过计算每个对象与各个种子聚类中心之间的距离来完成聚类;甚至用来衡量回归方程的代表性的估计标准误差(Se)也是通过计算实际值与其估计值之间的距离来实现的。在本案例中以鸢尾花数据集的层次聚类模型为例,在获取鸢尾花数据集后可以利用“距离”组件实现行之间的距离计算。


二、实验过程


在蓝鲸软件中进行距离计算的工作流如图所示,蓝鲸可以实现——欧式距离(欧几里得距离),曼哈顿距离等11种距离的计算。




图1 构建模型实现距离的计算(支持11种计算方式)


计算完成后可以将生成的距离矩阵发送到层次聚类组件,发现相似的鸢尾花簇。


图2 查看层次聚类的结果


同时还可以通过距离矩阵或距离图进行可视化查看。


图3 距离矩阵


图4 距离图