【科学相亲三部弯(一)】如何科学的评价相亲对象的颜值

栏目导航
拉菲娱乐
拉菲娱乐
头条新闻
当前位置:拉菲7 > 拉菲娱乐 >
【科学相亲三部弯(一)】如何科学的评价相亲对象的颜值
浏览: 发布日期:2021-08-31

这是一篇科普文

关键词: 人脸属性, Elo Rating, True Skill算法, Learning to Rank, 颜值, 相亲

在评价女生相貌的时候,吾们往往会说这是一个7分,5分,6分。或者在知乎的地区相亲帖上,也会有许众女生自称是6分7分。那有异国想过,这些分数的说法,是否厉谨呢?是否有一套科学的手段,来评价相亲对象的颜值呢?

棋牌炎点

量外评价

在统计&机器学习周围,给主不益看的东西进走打分一向是一个基本的题目。比如要评价一部电影,一本书有众精彩。想要获取某个个体,某项单个主不益看属性的值是比较困难的。由于单幼我对一个物体进走标注的时候,这栽主不益看属性的震动是比较大的。

棋牌炎点

不过,倘若有许众人来对一项物体进走评价,那么平均值就会比较靠谱了。吾们已经习气了在网站上对艺术作品进走打分,然后按照许众人评价的平均效果,来评价一部艺术作品的益坏。毕竟测量平均值的方差和评价的人数成逆比,评价的人越众,得到的平均评分就越准。

不过当你想对一批异性的人脸进走评价的时候,这件事情就异国那么容易了。除非你能找到许众人来对每幼我脸进走评分,不然个体的震动就会袒护每个样本实在的颜值程度。

棋牌炎点

这个图是吾们在BMVC一篇oral上面搞的一个user study(由于做事太浅易了liuli同学又要急着申请于是投的BMVC)。在左图中,吾们让一批同学来推想一堆人脸的年龄。横轴是样本的实在年龄,纵轴是同学们标出来的年龄。能够望到一方面如许容易引首偏倚(吾们疑心让中国人标欧亚人年龄会偏高),另一方面偏差真的很大。

到现在未必候还能望到新入职的产品经理会发出一些标注义务,诸如“让标注人员标记这批人脸的年龄”,“让标注员标记以下人脸的颜值,最高100分”。这些其实是很可贵到安详的效果的。

棋牌炎点

从量外到比较

还记得《外交网络》这个电影吗。在电影一路先,扎克伯格他们搞了一个比较女生颜值的网站FaceMesh,一会儿挤爆了哈佛的服务器。

棋牌炎点

FaceMesh的原理是赓续让用户比较两个美女的颜值,末了能够确定每个美女的颜值得分,对一切的女生进走排序。背后的算法就是幼扎至交写在白板上的公式,也就是远近著名的Elo Rating算法。相通的算法现在被普及的行使在确定棋手的棋力(QQ棋牌)王者荣耀的暗藏分等等。

吾记得在津巴众的情绪学教材上望过,倘若让男性来比较两张女性的颜值,相反性会高过70%。而让女性来评价男性相反性就会矮一些。

比较事件的Logistic函数近似

棋牌炎点

吾觉得照样能够从头讲一下这套东西。让人来对物体进走比较是不是比直接标记强度要更准呢?从直觉上来说是的,在之前谁人BMVC的做事中,右图吾们让联相符批人往比较两张人脸谁更老,发现只要年龄相差超过5岁,基本上效果的准确率就很高了。而且标注员认为A比B年轻的概率,相比于AB的实在年龄差,表现出一条相通Logistic函数。

这个Logistic函数专门相符直觉,A比B年轻许众,人们认为A年轻的概率挨近1。或者棋手A比B实力强许众的时候,得到A胜出的概率挨近1。而两者实力相等的时候,概率挨近1/2。

(这段话能够跳过)原则上你要是不悦意把这个函数的近似换成分段线性的也能够。在Elo正本的设计内里他先考虑了这个模型:倘若棋手A有个平均实力Ra,棋手B有个平均实力Rb,然后他们比赛的时候会各自外现出一个随机实力Xa和Xb,别离是以Ra和Rb为平均值的随机数,那么Xa是否大于Xb的概率,就能够被计算出来。这个时候答该是以Ra-Rb的一个CDF函数(高斯概率积分)。但是后来由于一些因为,Elo觉得用Logistic函数答该更益。逆正这些函数都很挨近的。就相通你用悬链线照样抛物线来描述抛物活动其实差不众。

从Logistic分布到Elo Rating

那么Elo Rating在这个Logistic倘若下做了什么事情呢?其实就是按照每一次比较的效果来更新每幼我的分数

棋牌炎点

为了文章的自洽性吾们照样介绍一下Elo Rating算法的详细过程。。。

选手B的获胜概率是

棋牌炎点

A的获胜概率就是1减失踪这个。然后Sa代外末了A是不是真的获胜了这场比赛。

棋牌炎点

K其实就相等于learning rate,取16或者32。这边的400和10的对数底其实调节了分数的方差。倘若减幼400就会望见分数之间相互更为挨近。

倘若实力相等的时候E_a取到1/2,倘若赢下这个比赛,就会增补K/2的积分。随着R_A-R_B越来越高,E_a也会越来越大,赢下比赛的积分就会减幼。相逆倘若以弱胜强,一次就会拿到很高的积分。

从Elo Rating到True Skill

仔细到Elo Rating内里只商议了每次两个选手进走比较时,分数的更新手段。不过Elo Rating有几个题目异国十足解决。1)倘若比赛的效果不是序贯展现的,而是一次得到了许众离线的比较效果,Elo Rating是否得到了最优的暗藏分效果呢?2)相通王者荣耀这栽众对众的游玩内里,一个队伍内里的每幼我的暗藏分纷歧样,那要行使什么手段来更新呢。

微柔在2V2的Xbox游玩内里就遇到这个要给选手评分的题目,后来他们设计了TrueSkill算法。这个算法是基于概率图模型的。由于比较复杂,详细的介绍能够望

https:///p/48737998这篇文章。

总之这是一个方便实在定离线颜值的工具。

比如吾们能够用GAN生成10个美女的人脸,然后用True Skill算法,对他们进走随机20次比较。然后就能够得到这些美女的颜值排序了!

棋牌炎点

这个算法吾们在实在科研内里照样会用的,比如用来人造判定GAN的生成图像益不益。这个吾们在ECCV的一个图像生成的做事内里用过,用TrueSkill来判定差别奏效果果的益坏。

棋牌炎点

从TrueSkill到Learning2Rank

棋牌炎点

在TrueSkill中,吾们其实异国用到每个物体的内在属性。吾们异国关注内在的每幼我脸是不是皮肤益,是不是年轻,是不是五官轮廓清亮等等。但是隐微是存在某些湮没的“共性”特点,是会造就一个更具有吸引力的人脸的。吾们频繁夸女生时兴的时候,也会说,你长得像xx明星,那实际上就是表明你和xx明星近似时兴。

也就是说吾们能够想手段行使数据与数据之间的相通性,得到更益的颜值评价模型。这实际上就是Learning2Rank算法。吾们先描述线性Learning2Rank的算法,然后推广到更清淡的深度学习的样式。

吾们倘若每个样本都有一个特征phi,在这个特征空间,长得像的人脸是比较挨近的。Learning2Rank的现在的是追求一个分数函数s( phi; w ),使得倘若吾们觉得i样本比j样本益,就有s(phi_i ; w ) > s(phi_j ; w )。在线性样式下,s被定义为w^T phi 也就是权值和特征的内积。

写成优化样式差不众就是

Find w

St. w^T( phi_i – phi_j ) > 0 , for 肆意 i样本> j 样本

这个样式等价于解一个线性SVM,也就是你必要对每个pair的( phi_i – phi_j )进走分类,倘若i样本> j样本就是正样例pair,逆之就是负样例。求出这个线性SVM的权值就能解决这个题目。

比如倘若吾们用深度学习先得到人脸的特征,然后基于之前排序的10个美女人脸的吾们训练一个线性的Ranker,然后能够给新来的10个美女颜值进走排序。

棋牌炎点

很容易就能够推广这个线性SVM到深度的情况。你只要做一个Siamese的网络,然后在feature层作差,然后接fc到一个2分类用SoftMax Loss就能够训练了。

倘若你拿有余的美女进走比较,然后训练一个比较安详的Ranker。那就能够得到一个颜值分类器了。

从算法到实际

理论上就是这么能够做一个颜值的Ranker。但实际上照样有许众要仔细的。比如一路先最益找几百张遮盖面比较宽的样本,排序之后人造望一望,做一些调整。行为Anchor。然后剩下新来的样本尽量和Anchor比较。就能够把一个pairwise的题目转化为一个Ordinal的属性题目。

另一方面实际过程中,颜值模型受到照片质量的影响。比如倘若捕捉到暧昧的图,很容易就给出矮的评分。受到P图的影响也很大,P过的图很容易偏高。吾们后来也想过把成像质量和实在颜值睁开商议,甚至颜值还分素颜和美化程度睁开,但是那片面就太细节又trivial了就没做。

总体来说Learning to Rank这些都是挺不错的算法,不过拿来评价颜值照样算屠龙之术,毕竟你做个颜值分类器就会发现,颜值稍微高一点的女生根本就不会和你搭话。

什么?你和吾说能够拿来做幼电影分类筛选举举器?

————————————————————————

后记

先写一点后记,由于Learning to Rank这么复杂的东西,吾们答该不会写到K12教材内里。于是先写个科普文出来望望。内里许众东西其实照样比较复杂的。