Category: 数学 Math

如何识别知乎上的美女爆照贴

博客荒废了许久,今天发一个福利科普贴,开坑准备写一系列的分类器算法,以下正文。 一个简单的想法 很容易也很自然的会想到两个粗暴的解决方案: 1. 从用户头像筛,拿opencv做个筛子看看是不是美女头像 2. 从用户的发帖来筛,判断爆照贴里面的照片是不是美女 事实上可以看出来这两种方案都挺低效且吃力不讨好的,明显的缺点如下: 1. 往往只能判断是不是一张好脸,而判断是不是好腰好屁股好胸好腿好身材是很难的 2. 做图像分类/识别,在算法效率和准确率上仍然有瓶颈 3. 事实上使用美女/女明星照片做头像的人还是不少的 当然,用图像识别这种解决方法是很有用的,但不是这么用,至于怎么使用,以后讲。 做一点微小的改进 改进的方案是用发帖的评论内容和收藏夹名字做筛子,这么做的优点有: 1. 评论和收藏夹名字是人类看到帖子之后的反应输出,已经经过了一轮人工筛选 2. 不仅仅是好脸蛋,好腰好屁股好胸好腿什么的,都会得到反应 3. 可以更加细化的做分类,好腰,好腿都可以独立做筛子给分出来 4. 对某类文本分类相对来说计算量低了不少,准确率也得到了极大的提高 5. 使用找美女/女明星做头像的情况,除非是用户自己想欺骗社区,一般不会继续发对应头像的爆照贴 6. 不仅仅能应用于找美女这个case,还能用于找到各类其他的目标帖/目标用户,比如我还搞了高富帅土豪识别、寻找牛人的筛子、moha内容识别、政治左右筛子,对于其他类似的需求也都可以做,只需要看你脑洞多大咯 那么让我们先来看看一个美女爆照帖子下面正常的评论是怎么样的: “美翻了” “我只想说,真漂亮” “没有一年前那个好看啊” “这才是真漂亮” “我就看看不说话” “111 我觉得这个妹子面相很好” “好美~” “真的美” “应该是晈筷子练了苹果肌”

read more

  • 23rd Mar, 2016

走江湖

走江湖,本来是指游方术士、算卦、看面相的;所以有个引申义是忽悠。 最近的枕边书是克莱因的《古今数学思想》,正好看到微积分的创立这,体会了下牛顿和莱布尼茨的走江湖~ 这江湖主要是走在无穷小量这个东西上。 对于无穷小量,早期牛顿的描述是无限小的量、不可分的量、微元;到了《自然哲学的数学原理》里面,牛顿用了“消失的可分量”来描述。 量在其中消失的最后比,严格说来,不是最后量的比,而是无限减少的这些量的比所趋近的极限,而它与这个极限之差虽然能比任何给出的差更小,但是在这些量无限缩小以前既不能越过也不能达到这个极限。 – 《自然哲学的数学原理》by 牛顿 以上是牛顿做过的最清楚的说明。 莱布尼茨在早期写的是dx是很小的差,但dx的意义是什么仍然是不明的。莱布尼茨描述求xy的微分: (x+dx)(y+dy) – xy = xdy + ydx + dxdy, 但是dxdy是不可比较地小于xdy+ydx, 所以必须舍弃。 那么这个无穷小量和0有什么区别呢?为什么无穷小量的和能是个有限的值呢?既然如此那为什么在这个上面那个微分的时候,dxdy又怎么能直接被舍去呢?难道这个无穷小量就能被忽略了吗? 可以看的出来牛顿和莱布尼茨两人这里都在走江湖,并没有严格的搞清楚。作为看手稿的别人又怎么能被说服呢?后来又有许多人尝试用各种不同的方法对微积分给出严密性的说明,结果各人有各人不同的理解说明方法却没能真正解决问题,最后就搞的一团乱麻。罗尔批判当时微积分就是“a collection of ingenious fallacies”就是指的这一团乱麻。 早期人们在使用微积分的时候还是很别扭的,明知道这东西有没解释清楚的地方,但是确实这工具又真好用,就不得不用了。当时人们就是这样嘴巴上说不要身体却很诚实的把微积分用了下去。 来看傲娇的欧拉,就拒绝无穷小这概念: 毫无疑问,任何一个量可减小到完全消失的程度。但是,一个无穷小量无非是一个正在消失的量,所以它本身就等于0。这与无穷小的定义也是协调的,按照无穷小的定义,它应该小于任一指定的量;它毫无疑问的就应该是无;因为除非它等于0,否则总能给它指定一个和它相等的量,而这与假设矛盾的。- 《微分学原理》 by 欧拉 那时候微积分就像是个信仰: “坚持,你就会有信心” – 达朗贝尔 一直到柯西完善了极限理论,严格用极限给出了微积分一系列的概念和精确定义,这个问题才算是在一定程度上被解决。 现在的微积分教材为了理论的严谨,一般是从实数理论开讲、然后柯西的极限那套、再然后才开始微分;正好与数学发展史相反。这样写在理论上确实是很完美很严谨,只是真的会把很多初学微积分的人给吓退了。 其实一直觉得顺着数学发展史来讲是比较自然的,先走江湖,再来完善底层理论;这样似乎更人让人理解到微积分到底要讲些什么,回头再来补上严谨的理论,这样也更能让人理解为什么要用ε-δ语言那么死板的格式来定义极限。

read more

  • 21st Nov, 2014

线性代数

25E4-25BA-25BA-25E7-2594-259F-25E8-258B-25A6-25E7-259F-25AD-25E5-25B0-25B1-25E4-25B8-258D-25E8-25AF-2581-25E6-2598-258E-25E4-25BA-2586

前段日子深感线代水平不行,一直停留在只能解题的层次上,却从未抓住某些本质性的东西。 我微积分的感觉和本质是靠做了几千道吉米多维奇数学分析习题集里面的各种题目做出来的。 线代当时没这么练过,一直觉得自己很虚,本质一直没把握住。 所以,这个月来一直配合着作者Gilbert Strang本人在MIT上课的视频看Introduction to Linear Algebra。 我只能这么说,赞,太赞了!各种让人眼前一亮,各种一两句话就把本质点出,各种不动声色之间风起云涌。 第一时间推荐给老爹,老爹看了之后立刻就不行了,在一个星期内把视频都看掉之后,就到处找这种开放课程听。Gilbert的微积分重点,MIT的单元微积分和多元微积分,微分方程。 然后这段时间天天跟老爹电话,每天聊的内容就是这些东西,天天讨论数学。 以下是精彩截图:

  • 23rd Oct, 2011