发布日期:2024-08-12 来源: 网络 阅读量()
评估方法有两种方法可以用于对分类器的错误率进行评估,它们都假定待预测记录和训练集取自同样的样本分布。(1) 保留方法(Holdout):记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器,然后使用这个分类器来对测试集进行分类,得出的错误率就是评估错误率。虽然这种方法速度快,但由于仅使用2/3 的数据来构造分类器,因此它没有充分利用所有的数据来进行学习。如果使用所有的数据,那么可能构造出更精确的分类器。(2) 交叉纠错方法(Cross validation):数据集被分成k 个没有交叉数据的子集,所有子集的大小大致相同。生成器训练和测试共k 次;每一次,生成器使用去除一个子集的剩余数据作为训练集,然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t),对于一个t 次k 分的交叉纠错法,k *t 个分类器被构造并被评估,这意味着交叉纠错法的时间是分类器构造时间的k *t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整,将它减少到3 或5,这样可以缩短运行时间。然而,减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合,或者多于5000 条记录的数据集;交叉纠错法被用于建立最终的分类器,或者很小的数据集。