近些年来,随着科技的进步,互联网技术和通信技术飞速发展,每时每刻都有数以亿计的信息数据产生,我们步入了大数据的时代。由于电脑、智能手机和数码产品的普及,图像数据爆炸增长,占据着这些数据的很大一部分。图像能够表示各种信息,存储大量的数据,海量的图像数据可在数据挖掘、信息分析等领域发挥着重要作用,因此如何对大量图像数据加以有效利用成为研究热点之一。
自上世纪末以来,在计算机视觉等新技术的快速发展下,图像检索成为了一个研究热点。图像检索的目的是方便用户从大规模的图像数据库中找出满足其需求的图像,对图像数据加以有效利用。分类存储能够使得图像检索变得容易,极大地较少了检索的范围和次数,提高检索效率,而分类存储的前提是需要对图像进行分类标注。然而,互联网上大量的图像都是没有标注和描述信息的。在早期,图像标注的工作是人工进行的。但是随着图像数量的爆炸增长,采用人工标注的方式费时费力,面对日益增长的图像显然是力不从心的。同时,由于人的主观性,对图像的标注信息和标注者的理解有关,不可避免地使得图像标注信息具有歧义性。因此,对图像进行快速而准确的标注作为图像检索等操作的基础成为了亟待解决的问题。图像多种多样,不同类型图像的处理方式有所差异,本课题以自然场景图像为对象对其进行分类算法的研究,从而实现图像信息的标注。
分类问题是机器学习、数据挖掘和图像处理等领域中的一个常见而重要的研究内容,其目的是通过学习已知的样本训练出一个良好的分类器,用来对未标记的样本进行类别预测。经过数十年研究,诸如决策树、神经网络、朴素贝叶斯和支持向量机等机器学习算法在分类问题上表现出优秀的性能,取得了众多研究成果。但是传统的监督学习框架是针对单标记数据集的,现实生活中一个对象却通常具有多种类别属性,例如一幅图像可以包含山、树和太阳等信息。因此,多标记分类学习[1]逐渐成为机器学习、计算机视觉等领域中一个重要的研究热点。
在多标记学习框架下,一个对象可能同时具有多个标记,其模型学习是对已知的多标记数据集进行学习来习得一个良好的学习器。但是,一个对象往往具有多个标记,传统的分类算法无法直接对数据集进行处理。针对这一问题,研究者们提出了一系列的多标记学习分类算法,按照是否对多标记数据集进行处理可以分为两大类:问题转换方式和算法改编方式[1]。
-
问题转换方法:这类方法通过将多标记分类问题转化为一些经典问题,利用现有算法来直接解决分类问题。最简单的方式是将多标记分类问题转化为二类分类问题,例如BR算法、CC算法和PCC算法等;相对复杂点可以将多标记分类问题转化为多类分类问题,例如LP方法和PS算法等;也可以将多标记分类问题转换为标记排序问题[16],例如LP方法和CLR算法等。问题转换方法的优点是在转换之后可以直接使用一些经典分类算法,同时能够有效利用标记之间的相关性[14]。
-
算法改编方式:需要对现有算法进行改编,这种方式需要对现有算法的原理有着清楚的理解。研究者们针对各种机器学习算法进行了算法改编运用于多标记分类问题。例如:改编决策树处理基因问题的ML-C4.5[3]算法、改编k近邻算法的MLkNN算法、基于集成算法boosting用于多标记文本分类[15]和改编贝叶斯算法[13]等。问题转换方式较难,但是对数据集未做转换操作,能更好的保留原始数据集中的信息。
决策树[2]作为一个经典的机器学习算法,由于其自身具有的生成模型简单易懂、易转换为分类规则等特点,在分类领域被广泛地研究和应用。其中,C4.5算法[2]作为ID3算法的扩展,可以处理离散数据和缺失值,并通过剪枝提升泛化能力,可以适用于诸多领域。为了能够在多标记学习框架下使用这个简单而性能优秀的算法,已有研究者们进行了尝试并取得了较好的研究成果,例如:Clare A, King R D.等人[3]通过对决策树算法中的熵定义进行改编从而对具有多类别功能的基因数据进行处理,并在实验中取得了较好的结果;Zhang X, Yuan Q等人提出[8]的随机决策树算法使得模型生成复杂度与类别标签的数量无关,大大减小了多标记学习的开销;Schietgat L等人[4,5,6]等人提出分层多标记分类的决策树较好地体现了多标记数据之间的关联。然而,虽然它们的工作成功证明了决策树能够运用于多标记学习领域。但是,这些仅仅运用于基因功能预测的一个领域,在其他多标记学习的领域中涉及较少,尤其是在场景图像分类领域[10,11,12]。
场景图像分类是计算机视觉领域的一个重要且具有挑战性的课题,随着互联网多媒体技术的飞速发展,图像数据日益爆炸增长,为了有效地对这些图像进行组织和管理,需要快速而准确地对图像进行标注,场景图像分类研究应运而生。场景图像分类可以划分为图像特征提取和图像分类两个部分。特征提取和图像处理技术紧密关联,已经具有众多研究成果,本课题重点侧重于图像分类该过程,直接在经过了图像特征提取而得到的自然场景图像数据集进行分类。场景图像分类目前的研究主要有几种思路[9]:一是基于场景模型的分类,该方法直接基于底层特征为每一种可能的场景类别进行建模,在进行分类预测时通过经图像和模型进行一一比对,相似度达到一个阈值的即判断其为图像的一种类别。该方式要求对图像处理熟悉,并非通常的分类问题。有研究者采用基于深度学习的分类方法,利用在计算机视觉和图像处理领域常用的卷积神经网络来进行分类任务,但是该方法需要大量的图像数据集,训练过程也更为复杂。也有研究者使用矩阵分解方式对多标记图像分类[7],但较为常用的方式是采用基于常规分类器分类,其中支持向量机分类器运用的较多,还有k近邻分类器、贝叶斯分类器和BP神经网络等。这种方式利用经典的分类器使得分类任务相对轻松,同时也能具有较好的性能。
本课题针对经典的决策树分类算法来进行图像分类工作,决策树在图像分类方面的研究较少,面部图像年龄预测可视为图像分类工作具有较好的研究成果,例如Geng X等人对多标记面部图像进行分类从而标注年龄信息[12]。本课题通过采用算法改编的方式,用决策树处理多标记的自然场景图像,希望能够利用决策树简单易懂的特性创新性地取得意想不到的良好分类性能。
参考文献
-
Gibaja E, Ventura S. A tutorial on multilabel learning[J]. ACM Computing Surveys, 2015, 47(3):52.
-
J. R. Quinlan. C4.5: programs for Machine Learning. Morgan Kaufmann, SanMateo, California, 1993.
-
Clare A, King R D. Knowledge discovery in multi-label phenotype Data[J]. Lecture Notes in Computer Science, 2001, 2168(2168):42-53.
-
Vens C, Struyf J, Schietgat L, et al. Decision trees for hierarchical multi-label classification[J]. Machine Learning, 2008, 73(2):185-214.
-
Schietgat L, Vens C, Struyf J, et al. Predicting gene function using hierarchical multi-label decision tree ensembles.[J]. Bmc Bioinformatics, 2010, 11(1):2.
-
Blockeel H, Schietgat L, Struyf J, et al. Decision trees for hierarchical multi-label classification: a case study in functional genomics[C]// European
-
Cabral R S, Torre F D L, Costeira J P, et al. Matrix completion for multi-label image classification[J]. NIPS, 2011:190-198.
-
Zhang X, Yuan Q, Zhao S, et al. Multi-label classification without the multi-label Cost[C]// Siam International Conference on Data Mining, SDM 2010, April 29 - May 1, 2010, Columbus, Ohio, Usa. DBLP, 2010:778-789.
-
李学龙,史建华等人 场景图像分类技术综述 《中国科学》杂志,2015年第15卷第7期:827-848
-
杨素燕 基于多示例多标记学习的自然场景图像分类 武汉理工大学硕士毕业论文,2015
-
刘国帅,仲伟峰等人 自然场景图像与合成图像的快速分类 第十八届全国图像图形学术会议专栏,1006-8961(2017)05-0678-10
-
Geng X, Wang Q, Xia Y. Facial age estimation by adaptive label distribution learning[C]// International Conference on Pattern Recognition. IEEE, 2014:4465-4470.
-
Domingos P, Pazzani M. On the optimality of the simple bayesian classifier under zero-one loss[J]. Machine Learning, 1997, 29(2-3):103-130.
-
Ghamrawi N, Mccallum A. Collective multi-label classification[J]. 2005:195-200.
-
Schapire R E, Singer Y. BoosTexter: A boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2-3):135-168.
-
Brinker K. Multilabel classification via calibrated label ranking[J]. Machine Learning, 2008, 73(2):133-153.
|