Category: 自然语言处理 NLP

如何识别知乎上的美女爆照贴

博客荒废了许久,今天发一个福利科普贴,开坑准备写一系列的分类器算法,以下正文。 一个简单的想法 很容易也很自然的会想到两个粗暴的解决方案: 1. 从用户头像筛,拿opencv做个筛子看看是不是美女头像 2. 从用户的发帖来筛,判断爆照贴里面的照片是不是美女 事实上可以看出来这两种方案都挺低效且吃力不讨好的,明显的缺点如下: 1. 往往只能判断是不是一张好脸,而判断是不是好腰好屁股好胸好腿好身材是很难的 2. 做图像分类/识别,在算法效率和准确率上仍然有瓶颈 3. 事实上使用美女/女明星照片做头像的人还是不少的 当然,用图像识别这种解决方法是很有用的,但不是这么用,至于怎么使用,以后讲。 做一点微小的改进 改进的方案是用发帖的评论内容和收藏夹名字做筛子,这么做的优点有: 1. 评论和收藏夹名字是人类看到帖子之后的反应输出,已经经过了一轮人工筛选 2. 不仅仅是好脸蛋,好腰好屁股好胸好腿什么的,都会得到反应 3. 可以更加细化的做分类,好腰,好腿都可以独立做筛子给分出来 4. 对某类文本分类相对来说计算量低了不少,准确率也得到了极大的提高 5. 使用找美女/女明星做头像的情况,除非是用户自己想欺骗社区,一般不会继续发对应头像的爆照贴 6. 不仅仅能应用于找美女这个case,还能用于找到各类其他的目标帖/目标用户,比如我还搞了高富帅土豪识别、寻找牛人的筛子、moha内容识别、政治左右筛子,对于其他类似的需求也都可以做,只需要看你脑洞多大咯 那么让我们先来看看一个美女爆照帖子下面正常的评论是怎么样的: “美翻了” “我只想说,真漂亮” “没有一年前那个好看啊” “这才是真漂亮” “我就看看不说话” “111 我觉得这个妹子面相很好” “好美~” “真的美” “应该是晈筷子练了苹果肌”

read more

  • 23rd Mar, 2016

Individualized Sentiment Analysis

There are many characters in a novel, how to do sentiment analysis for each individual one of them? Is he/she feeling good in this chapter? Is this episode a good/bad scenario for someone? Bigger questions: Is this news good/bad for

read more

  • 4th Jul, 2014

Some Social Media Related Things

I spent some time in analyzing about 2 millions tweets post on weibo.com from May 21th to 31st, 2012. I don’t want to talk about the techniques in detail because that’s gonna take too long. If you have further interests, contact me or leave a message. Just for fun~ 1. Distributions of posts in a

read more

  • 30th Apr, 2013