蓝鲸是为数据挖掘爱好者以及专家提供的一个交互式机器学习和数据挖掘工具,采用图形化方式建模,内置统计、降维、分类、聚类、回归等模型。产品具有以下功能特色:


1. 交互式数据可视化


蓝鲸使用智能数据可视化方式来进行数据挖掘工作,帮助发现海量数据中隐藏的规律。可以用来探索分布图、箱线图和散点图,或者深入研究决策树、层次聚类、关联规则、时间序列、热图等。即使是多维数据也可以在2D平面中变得有意义,特别是在特征排名和选择方面具有强大的功能。

蓝鲸中的可视化组件包括散点图、箱线图和直方图、树图、地图、轮廓图等。用户可以从散点图中选中某些数据点,或者在树图中选中一个节点、一个分支,这样的操作将发送至组件的输出端并形成相应的数据子集。


2.探索性数据分析


交互式可视化可以用于探索性数据分析。用户可以直接从图和数据表中选择数据子集,并将它们放在下游的组件中。例如,从分层集群的树图中选择一个集群,并将其映射到MDS图中的2D数据表示,或者检查它们在数据表中的值,或者观察它的特征值在一个方框中的分布。


3. 智能可视化


在进行数据分析与挖掘的过程中可能会面临很多选择,例如,当数据有大量特征时,我们应该在散点图中对哪些特征进行可视化才能获得最大的信息量?智能可视化功能可以好地解决这个问题。在蓝鲸的“散点图”组件中,当提供类信息时,分数图可以找到最佳类分离的投影。


4. 生成报告


用户可以通过单击将模型中最重要的可视化、统计信息生成报告,并且从报告中直接访问每个组件的历史工作流和可视化。


5.可视化编程


蓝鲸对于初学者和专家、数据科学家来说,都是一个很好的数据挖掘工具。得益于它的用户界面,用户可以专注于数据分析、挖掘,而不是费力的编程,从而使得复杂的数据挖掘模型构建变得简单。


6.基于组件的数据挖掘


在蓝鲸软件中,数据挖掘工作通过将组件连接成工作流来实现。每个组件嵌入了一些数据检索、预处理、可视化、建模或评估任务。将不同的组件组合成工作流,就可以构建完整的数据挖掘模型。有了丰富的组件库,用户就有了更多的选择空间。


7.交互式的数据探索


蓝鲸的组件可以实现相互通信。它可以接收输入端的数据,对其进行过滤或处理,并通过输出发送至下一个组件。蓝鲸中的数据挖掘工作流通常从从一个“文件”组件开始,他可以读取数据并将其输出到下一个组件,例如输出到“数据表格”组件来查看数据。若更改一个组件中的任意参数,此变化将立即通过下游工作流进行传播。并且,如果组件窗口是打开的,用户可以即时地看到数据变化的结果。


8.智能的工作流设计界面


蓝鲸软件即使对于完全的初学者也能轻松上手。从“文件”组件开始,画布上将自动显示可以连接到其输出端的所有组件。例如,在放置了“距离”组件后,画布上便可以显示其输出端可能要连接的“分层集群 ”组件。组件中的所有其他缺省值也设置为了简单的分析方法,即使不了解统计学、机器学习或探索性数据挖掘的知识,也可以轻松完成数据分析。