这篇论文主要提出了一个人脸属性预测的框架,将人脸定位和属性预测统一起来.此外另一个重要的贡献是构建了人脸属性预测的Benchmark. 论文的·项目链接
LNets+ANet 主要部分:
LNets+ANet方法的整个流程主要由3部分构成:LNets(人脸区域的定位)+ANet(属性特征提取网络) + SVM(属性分类),这三个部分是按照顺序独立完成的. 其中LNets和ANet结构类似于Alex-Net.
LNet0+LNets
LNet 结构:5个卷基层+1个全连接层
LNet loss: 采用attributes labels ,利用cross-entropy loss训练
LNet0:输入是原始图像,期望定位一个包含头部+肩膀的人脸区域
LNets: 输入是LNet 0的输出,期望输出只包含人脸的精细区域
ANet
ANet结构:4个卷基层+1个全连接层(不同的是前两个卷基层参数全局共享,即普通的卷积,而后两个卷基层参数局部共享)
Pre-training:作者选择了8k个人,约 160k 的训练图像. 一种比较简单的方式是直接使用 8000 个类别输出的softmax loss直接训练 。但是这样每个类别只有 20张训练图像,为了学习到类内部的不变性,作者组合softmax loss 和 similarity loss,这里的similarity loss是以属于同一个人的 Fc 特征的L2 loss 量化.
Fine-tuning: 用attributes labels 做fine-tuning.
SVM
提取ANet的Fc特征,利用属性标记训练40个SVM. 需要注意的是他们并没有把 SVM 嵌入CNN,特征识别和SVM训练是两个单独的过程.
LNets+ANet 对比实验设置:
1 Face-Tracer(ECCV’08):提取人脸重要区域的HOG 和 color histograms特征,然后训练 SVM 做属性的分类.
2 PANDA(CVPR’14): 提取人脸重要区域的CNN特征,然后训练 SVM 做属性的分类.
作者使用了两个人脸重要区域的选择的方案:
PANDA-w:使用当前最好的人脸检测和对齐方法
PANDA-l:使用ground truth landmark points
3 Face detection+ANet: 主要就是将本文的人脸定位网络LNets替换为当前最好的人脸检测. 作者这个实验验证定位网络对属性预测性能的贡献.
LNets+ANet 实验结果:
作者构建了两个数据集CelebA and LFWA, 其中训练数据和测试数据的划分如下:
40个属性的平均预测结果(准确率%)如下:
本作品采用知识共享署名 2.5 中国大陆许可协议进行许可,欢迎转载,但转载请注明来自 Sunshine 并保持转载后文章内容的完整。本人保留所有版权相关权利。
本文链接:http://gaobb.github.io/2016/10/08/论文笔记Face-Attributes-Prediction/