深度度量学习的这十三年，难道是错付了吗？( 二 )

常用的准确率度量的缺点
为了报告准确率，大多数度量学习论文用到的指标是 Recall@K、标准化互信息（NMI）以及 F1 分值。但这些真的是最佳度量标准吗？图 1 展示了三种嵌入空间，虽然它们有不同的特性，但每个 Recall@1 的分值都接近 100% ，说明这个指标基本上提供不了什么信息。

本文插图
新的评估方法
以上种种缺陷造成了度量学习领域的「虚假繁荣」。因此研究者提出了一种新的评估方法，希望能够对损失函数进行恰当的评估。为此，他们做了如下设置：
公平的比较和复现
所有的实验都是在 PyTorch 上进行的，用到了 ImageNet 来预训练 BN-Inception 网络。训练过程中冻结 BatchNorm 参数，以减少过拟合。批大小设置为 32 。
训练过程中，图像增强通过随机调整大小的裁剪策略来完成。所有的网络参数都用学习率为 1e-6 的 RMSprop 进行优化。在计算损失函数之前和评估过程中，对嵌入进行 L2 归一化。
通过交叉验证进行超参数搜索
为了找到最好的损失函数超参数，研究运行了 50 次贝叶斯优化迭代，每次迭代均包括 4 折交叉验证：
类中的第一半用来交叉验证，创建 4 个分区，前 0-12.5% 是第一个分区， 12.5-25% 是第二个分区，以此类推。
第二半用来做测试集，这和度量学习论文使用多年的设置相同，目的是便于和之前的论文结果做比较。
超参数都被优化到能最大化验证精确度的平均值。对于最佳超参数，将加载每个训练集分区的最高准确率检查点，测试集的嵌入是经过计算和 L2 归一化的，然后计算准确率。
更有信息量的准确率度量指标
研究者用 Mean Average Precision at R (MAP@R) 来度量准确度，这一指标综合了平均精度均值和 R 精度的思想。
R 精度的一个弱点是，它没有说明正确检索的排序。因此，该研究使用 MAP@R 。 MAP@R 的好处是比 Recall@1 更有信息量（见图 1）。它可以直接从嵌入空间中计算出来，而不需要聚类步骤，也很容易理解。它奖励聚类良好的嵌入空间。
实验
损失和数据集
研究者选择了近年来多个会议论文在度量学习领域提出的先进方法（如表 6 所示），在 11 种损失和一种损失+miner 组合上进行实验。

本文插图

此前，度量学习领域的论文一直没有面向验证损失的内容，因此该研究加入了这方面的两项损失。
研究者选用了 3 个度量学习领域广泛使用的数据集：CUB200、Cars196 和 Stanford Online Products (SOP) ，选择这 3 个数据集也便于和之前的论文做比较。表 3-5 展示了训练运行的平均准确率，以及在适用时 95% 的置信区间，加粗部分代表了最好的平均准确率。同时也包括了预训练模型的准确率，用 PCA 将模型的嵌入值减少到 512 或 128 。

本文插图

本文插图

本文插图
论文 vs 现实
首先，让我们看一下论文结果的普遍趋势，图 4(a) 展示了该领域中「本以为」的准确率提升，即新方法完全淘汰了旧方法。

本文插图
但正如图 4(b) 所示，实验结果和预期并不一致。

深度度量学习的这十三年，难道是错付了吗？( 二 )

推荐阅读

同学在宿舍坠楼，学校封锁消息不负责，该怎办?

汽车观点的世界|车主：比飞度强，日产轩逸靠谱吗？一场事故暴露了

菜市场@老外评价3个国家的菜市场：日本像商场，印度脏乱，中国

一个人落魄时，“切忌”不可在这三个时候伸出援手，后患无穷

篮球老鬼|如今他们真后悔，三巨头争冠球队沦为鱼腩！为了假皮蓬送走真乔丹

牛肉|酒友票选出“4大下酒菜”，个个好吃又过瘾，全吃过才算得上酒鬼

手机大魔王：无刘海真正全面屏，稳了，iPhone12演示图泄漏

精读君|5年后私生活曝光：赚钱，是最高级的自律，女孩为房结婚

威海交警|创城·交警在行动︱助力创城，威海交警在行动

家庭烘焙已成潮流，甘汁园以“甜园润家”品牌发力该领域

英九红茶价格,价格怎么样的

鲫鱼|春季钓浅滩，要找这几种浅水，选错了要“空军”

怎么样对付不服从自己的员工

覃小海说科学冥王星为何会被踢出太阳系九大行星之列？科学家说出了原因

老挝金占芭红茶的价格,老挝金占芭茶的特点

胜康中医院|居然能治疗胃结石？，身为快乐肥宅水的可乐

#宝宝鹅口疮症状,宝宝鹅口疮的病因,宝宝鹅口疮治疗#宝宝得鹅口疮疼吗如何有效治疗

证券|启动预约开户！北交所个人投资者资金门槛50万元

周星驰搭档都这样安慰他，提名金像奖最佳男演员奖时，大家为了安慰周星驰就决定一起去吃饭

亦涵说时尚|女人不要再“衬衫”塞裤子了，今秋流行这样穿，时髦显瘦又高级