熵值装袋查询(Entropy query-by-bagging,EQB)是一种经典的主动学习方法,属于查询委员会方法中的一种。QBC的基本思路是使用可获得的标记样本集合训练一组分类器,这组分类器构成委员会,然后由委员会来分类候选样本集合中的未标记样本,选择出委员会分类“最不一致”的样本。在EQB中,判断“最不一致”的依据是投票熵。
EQB算法首先从初始训练集中以装袋的方法选取k个训练集,然后使用这k个训练集分别训练出k个分类模型,这组模型构成委员会。使用委员会中的分类器对未标记样本集中的每一个样本进行预测,并对每一个样本根据预测类别贴上标签,这样,每个样本就拥有k个标签。EQB正式利用这些标签来计算样本的熵值:
以上就是EQB的查询函数。
HBAG为投票熵:
表示样本xi被k个训练模型预测为类别的概率,即样本xi的预测标签为的得票数/k。Ni是类别总数。
当委员会中所有分类器对样本所属类别的预测一致时,HBAG为0。这表明对当前的分类模型来说,此样本类别几乎是确定的,那么将此样本加入训练集所能几乎不能对改善模型提供帮助。而当委员会中分类器对样本标签的预测分期越大时,HBAG也越大,那么此样本提供的信息量也越大,能够帮助改善模型。可以看出EQB是基于不确定性的方法。
EQB算法1.从初始训练集中选取k个训练集,每个训练集抽取初始训练集的一部分2.用k个训练集分别训练k个分类器组成委员会3.用k个分类器分类预测U中样本Repeat3.用查询函数来查询U中样本4.将选择出的样本标注正确的标签7.将新标注的样本加入训练集T8.重新训练分类器Until 达到某种停止准侧
参考文献:
Copa L, Tuia D, Volpi M, et al. Unbiased query-by-bagging active learning for VHR image classification[C]// Remote Sensing. International Society for Optics and Photonics, 2010.