最近几年,图像处理技术飞速发展,面部表情作为人类最自然、最强力、最直接的表达情感和意图的手段之一,对人面部图像的处理也一直是重点。目前,识别面部特征来识别身份的技术已经被大规模运用,对面部表情的识别在各领域也越来越有需求,例如,广告效果评估、产品评测、视频分析、医疗康复、安全驾驶以及情感机器人等。目前,情绪识别在人机交互领域发展特别快,尤其是在安全驾驶、情感机器人应用上,让机器更好的理解人、更加智能和人性化的为人类服务是近期人工智能革命的根本。面部识别主要采用机器学习领域的技术,人们采用了各种不同的机器学习的方法来进行面部图像处理。因为不同人表达感情程度存在偏差,自动面部表情识别在计算机视觉中仍然是一个具有挑战性和有趣的问题。在对面部情感的识别上,经历了从认为一张图像仅对应一个情感到一张图像对应多个情感的,再到对应的各个情感的程度不同,在对不同情感之间的关联性也由认为情感的关联是共享于所有实例到认为情感关联仅仅由部分实例共享。根据普鲁切克感情色轮理论,仅有少数情感是基础的情感,每个面部表情通常表达了不同强度的基础情感的混合。于是为了知道一个面部表情表达了哪些情感以及这些情感的强度,标记分布学习被用于了解决面部表情识别问题。
在计算机视觉、模式识别、数据挖掘和机器学习等领域中, 常用的模型是假设相关数据存在 (或近似存在) 于一个低维线性子空间中。。近年来,低秩矩阵恢复( low rank matrix recovery,LRMR) 将向量样例的稀疏表示推广到矩阵的低秩情形,它已成为继 CS 之后又一种重要的数据获取和 表示方式。LRMR 先将数据矩阵表示为低秩矩阵与稀疏噪声 矩阵之和,再通过求解核范数优化问题来恢复低秩矩阵。目 前, LRMR 主要由鲁棒主成分分析( robust PCA,RPCA)、矩 阵补全( matrix completion,MC)和低秩表示( lowrank representation,LRR)等三类模型组成。
标记多义性问题是机器学习领域的热门研究方向. 在现有的机器学习范式中, 主要存在两种数据标注方式,一个示例分配一个标记和一个示例分配多个标记,即单标记学习和多标记学习。无论是单标记学习还是多标记学习, 都旨在回答一个本质的问题, 即 “哪些标记可以描述该示例?”. 然而, 它们都没有直接回答另一个更深一层的问题 “每个标记如何描述该示例?”, 即每个标记对该示例的相对重要程度如何? 对于上述的问题, 一种很自然的方法是对于一个示例 x, 将一个实数 dy x 赋予每个可能的标记 y, 表示y 描述 x 的程度. 不失一般性, 假设 dy x isin; [0,1], 并进一步假设标记集合为完备集, 即用集合中的所有标记一定可以完整地描述一个示 例, 所以sum;y dy=1。对于一个示例,所有标记的描述度构成一种类似概率分布的数据结构,所以被称为标记分布,而以标记分布标注的数据集上学习的过程就称为标记分布学习。传统的单标记和多标记标注在这一定义下都可以看作标记分布的特例。
事实上, 标记分布在许多监督学习问题中具有一定的普适性, 这是因为标记与示例的相关或不相关常常是相对的, 这具体体现在如下 3 个层面,相关与不相关的划分是相对的,相关标记的 “相关性” 是相对的,不相关标记的 “不相关性” 也是相对的。
因为标记分布与概率分布满足相同的约束条件, 因此标记分布学习可以借用很多统计学的理论和方法。首先, 描述度可以用条件概率的形式来表示, 即 dy x = P(y|x). 那么标记分布学习可以描述如下: 假设 X = Rq 表示示例的特征空间, Y = {y1,y2,...,yc} 表示标记空间. 给定一个训练集 S = {(x1,d1),(x2,d2),...,(xn,dn)}, 标记分布学习的目标是从 S 中学习得到一个条件概率质量函数 p(y|x), 其中 x isin;X 且 y isin;Y。假设 p(y|x) 的参数模型表示为 p(y|x;theta;), 其中 theta; 是参数向量. 给定训练集 S, 标记分布学习的目 标是找到一个 theta;, 使得给定示例 xi, p(y|x;theta;) 能生成与 xi 的真实标记分布 di 尽可能相似的标记分布。可以采用Kullback-Leibler 散度来度量两个分布之间距离,可以得到theta;最佳的估计值为theta; 的极大似然估计而后面使用 p(y|x;theta;) 进行分类等价于最大后验决策。
有3种策略为标记分布学习设计算法。第 1 种策略是问题转化, 即将标记分布学习问题转化为传统的单标记或多标记学习问题,一个直接方法, 就是将训练样本转化成加权的单标记样本,如PT-Bayes (假设每个类服从 Gauss 先验 分布, 由此计算出的后验概率即为对应标记的描述度)和 PT-SVM(每个标记的概率估计通过一种逐对 耦合多类方法得到, 每个二值向量机的概率都是用改进的 Platt 后验概率计算得到);第2种策略是算法改造, 即将传统单标记或多标记学习算法改造为能够处理标记分布数据的学习算法,如AA-kNN(给定一个新的示例 x, 首先在训练集中找出 x 的 k 近邻. 接着, 将 k 个 近邻的标记分布的均值作为对 x 的标记分布预测)和AA-BP(假设 3 层前馈神经网络有 q (x的维度) 个输入单元, c (标记的个数) 个输出单元, 每个输出单元输出标记 yj 的描述度);第 3 种策略是根据标记分布 学习本身固有的特性而设计的专用算法,如SA-IIS (使用了一种类似改进迭代尺度算法进行优化)和 SA-BFGS(基于拟 Newton 法 BFGS,进一步改善了 SA-IIS 算法, 将目标函数的优化与一阶梯度函数相关联, 比标准Newton线性搜索方法的效率更高)。与问题转化和算法改造这两种间接策略相比, 专用算法与标记分布问题更加匹配。
参考文献
[1] Jia X, Zheng X, Li W, et al. Facial Emotion Distribution Learning by Exploiting Low-Rank Label Correlations Locally, CVPR, 2019: 9841-9850.
[2] Xu N, Tao A, Geng X. Label Enhancement for Label Distribution Learning, IJCAI, 2018: 2926-2932.
[3] Geng X. Label distribution learning, IEEE Transactions on Knowledge and Data Engineering, 2016, 28(7): 1734-1748.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。