模型评估
根据数据对学习算法进行交叉验证精度估计。
输入:
数据:输入数据集
测试数据:单独的测试数据
学习器:学习算法
输出:
评估结果:分类算法的测试结果
模型评估组件能够根据数据对学习算法进行测试和评分。该组件可完成两个任务。首先展示具有不同分类器性能指标的表。其次是输出评估结果,可供其他组件来分析分类器的性能。
该组件还可以连接到多个组件上,用相同的程序测试多个学习器。
1.该组件支持各种抽样方法。
- 交叉验证将数据分成给定数量的折叠(通常为5或10次)。该算法通过一次拿出一个折叠的例子来测试;从其他折叠次数中归纳出该模型,并对提供折叠中的实例进行了分类。所有的折叠都会重复这个过程。
- 按特征交叉验证,通过特征的交叉验证进行交叉验证,而折叠次数则由元特征中选择的分类特征来定义。
- 随机抽样将数据按给定比例(如70:30)随机分成训练集和测试集;整个过程重复指定的次数。
- 留一法类似,但它每次只提供一个实例,从所有其他实例中归纳出模型,然后对所提供的实例进行分类。显然,这种方法非常稳定、可靠,而且速度很慢。
- 训练数据试验使用整个数据集进行训练,然后进行测试。这种方法实际上总是给出错误的结果。
- 测试数据测试对测试数据进行测试:上述方法仅使用数据信号中的数据。要输入带有测试示例的另一个数据集(例如,从另一个文件或在另一个组件中选择的一些数据)。
2.评估结果展示区,该部件将计算许多性能统计数据。要查看其他数据,右键单击标题并选择所需的统计数据。
- MSE测量预测值与真实值之间平方差的平均值。
- RMSE是预测值与真实值之间的距离的度量。
- MAE衡量预测或预测与真实值的平均绝对误差。
- R2测量真实值对于预测值变化的百分比。
3.模型比较,选择模型两两比较的得分和实际等效区域,其中差异被认为可以忽略。
4.模型比较展示区,使用所选分数对模型进行两两比较(仅用于交叉验证)。表格中的数字表示了改行中模型的得分高于列中模型的得分的可能性。更高的分数意味着什么取决于指标:更高的分数可以意味着一个模型更好(例如MSE或MAE),或者相反(例如RMSE)。如果勾选了“差异可忽略不计”,则下面较小的数字显示了两者之间的差异可以忽略的概率。检验是基于贝叶斯解释的t检验。