特征选择
手动选择数据属性和组成数据域。
输入:
数据:输入数据集
输出:
数据:设置列参数的数据集
特征选择组件用于手动组合数据。用户可以决定使用哪些属性以及如何使用。橙色用于区分普通属性、(可选的)类属性和元属性。例如,为了构建一个分类模型,列数据将由一组数值属性和一个离散的类属性组成。在建模中,未使用的元变量可以用作实例的标签。
红色标N的列属性类别为数值型,绿色标C的列属性类别为类目型,黑色标S的列属性类别为文本型,蓝色标T的列属性类别为时间类型。
功能:
1.忽略的列属性,在输出数据中不再出现。
2.特征变量。建模中需要的列属性,包含在输出数据中。
3.目标变量。可以没有目标变量,如果目标变量中存在列属性,也会存在输出数据中。
4.元变量。这些属性包含在数据集中,但对于大多数方法来说,在分析中并不考虑这些属性。
5.重置。将数据域重置为输入数据文件的域组合。
6.默认情况下忽略新变量。一般不勾选该选项。
7.如果需要自动应用数据域的更改,请勾选。否则,需要手动发送才能实现数据域设置的更改。
示例:
在下面的工作流中,数据组件中的鸢尾花数据将被输入到特征工程组件中,在这里我们选择只输出两个属性(即花瓣宽度和花瓣长度)。我们在数据表格组件中分别查看原始数据集和带有选定列的数据集。