摘要:从基因层面对癌症进行诊断将有效提高患者的治愈率,但癌症基因表达数据集通常存在高维、小样本、高噪声并且类别不平衡等问题,对此类数据进行分类是一项具有挑战性的任务.针对这些问题,提出一种基于差分进化的代价敏感Stacking(DE-CStacking)集成的基因表达数据分类算法,采用随机森林、K近邻、朴素贝叶斯作为Stacking集成的初级学习器,将代价敏感的支持向量机作为次级学习器,初级学习器的输出类概率和原始特征集作为次级学习器的输入,并采用差分进化对这些学习器的参数进行优化.通过在四个UCI的癌症基因数据上的实验对比,相对于其他传统的集成算法,DE-CStacking算法在癌症基因数据上表现出更好的泛化性能.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社