快速入门

本教程将指导您运行第一个 MindWare 程序。

数据准备

首先,为端到端自动化机器学习系统 准备数据。 这里我们用sklearn中的iris数据集。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1, stratify=y)

在导入并切分数据集后,使用 DataManager 包装数据。

from mindware.utils.data_manager import DataManager

dm = DataManager(X_train, y_train)
train_data = dm.get_data_node(X_train, y_train)
test_data = dm.get_data_node(X_test, y_test)

优化

MindWare 提供了一种便捷的、端到端的方式,来完成机器学习任务。 在这个例子中,我们使用 Classifier 来解决分类任务。 请指定优化的时间约束 time_limit,然后只需调用Classifier.fit, 系统就会自动执行特征工程、模型选择、超参数优化和模型集成过程。 对于大搜索空间,系统还会通过搜索空间分解来加速优化过程。

from mindware.estimators import Classifier

clf = Classifier(time_limit=3600)
clf.fit(train_data)

优化结束后,调用 Classifier.predict 来获取自动化机器学习系统对于测试数据集的预测结果。

pred = clf.predict(test_data)

(todo: result and visualization)