每周学点大数据 | No.50 众包应用举例

No.50期

众包应用举例

小可:那除了维基百科之外,众包还有哪些应用呢?

Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法,

有些众包算法是显性的任务分配和任务处理,也有些众包算法是隐性的。比如这种特殊的验证码:

小可:哦,验证码还是很常用的,只是这个验证码中有两个单词。在登录网站时,为了防

止一些自动的脚本攻击网站,会将一个机器难以识别而人容易识别的图像文字放在登录窗口中,只要把相应的文字输进去就可以登录了。

Mr. 王:不错,但是这个验证码比较特殊,之所以使用了两个单词,是因为它有另一个用途。

在这两个单词中有一个是真的验证码,用于鉴别正在登录的是不是一个真正的人,这个真正的验证码和其他验证码并无两样;而另一个则是网站希望识别的一个模糊的或者字体比较特殊的单词,比如从古书上、破旧的文章中截取的文本片段。正由于它是比较迷糊的,如果用机器来做文本模式识别的话,就会比较困难,错误率会比较高;但是作为一个人来说,看清楚这个单词还是非常容易的。网站巧妙地利用了这一点,在用户输入验证码的同时,还帮助网站进行了图像文本识别。

小可:真是一举两得啊,而且其充分发挥了用户的力量,让用户不知不觉间就帮助网站完

成了文本识别工作。

Mr. 王:这是一个图像文本识别的例子。在机器翻译中,众包也有很好的应用。时下,机

器翻译的质量还没有达到一个非常高的水平,我们常用的翻译平台虽然能够将单词翻译对,但是句式结构往往处理得不够好,语序颠倒的情况时有发生。另外,对于一些意思很多的词汇来说,在特定的语境下识别一个词的意思就很困难了。目前,不仅机器翻译仍然面临着一些困难,而且用机器对人工或者机器翻译好的文章进行翻译质量评价也是很困难的。

小可:嗯,不仅翻译难,而且评价也难。所以,我们就要发挥人的力量,让人进行翻译和评估。

Mr. 王:没错,语言之间的翻译具有一个特点,就是翻译专家和母语的非专家对一个翻译

过来的句子的认识是差不多的,毕竟不是专家的人也可以凭借其对母语的了解和熟悉去评价一个句子是不是通顺等。所以不妨将机器翻译或者翻译评价的工作交给那些非专家、网络上的人来做,通过对母语的语感他们就能够很好地评价翻译效果,让人来执行通常会比机器来做好得多。

Mr. 王:其实在图像识别中,众包的例子也有很多。比如我在网上挂一个图,问这是不是“哈工大校园”。

这样的工作让机器来做其实很麻烦,因为哈工大校园里面有各种各样的风景,图像模式非

常多,甚至在天气阴晴、季节、相机曝光度和拍摄角度等不同的时候,完全相同的风景都会呈现出不同的效果,让机器来识别难度就非常大。但如果由人来做,就容易多了,不论是什么季节,不论是白天还是夜晚,只要是哈工大的学生或者是去过哈工大的人往往就可以非常容易地辨识出这个图景是不是属于哈工大校园,这种识别的准确度要比机器高很多。

Mr. 王:另外,还有一个很有趣的例子,如果让计算机来识别两张照片是不是同一个人,

可能难度就比较大。当今虽然人脸识别技术已经日趋成熟,但是由于光线角度不同、人所处的环境不同,或者是发型、妆容变化等,甚至一张是人年轻时的照片,另一张是中年时的照片,都会给计算机识别带来很大的麻烦。

小可:嗯,没错,看看两张照片是不是一个人,对人来说还是挺容易的。即使是年轻和年

长时的照片,我们也可以通过观察一些特征,分辨出他们是不是一个人。

Mr. 王:嗯,众包还可以应用在图片分类上。比如这张图片:

小可一眼就认出了图片中的车,说:这不是大众的迈腾嘛!

Mr. 王笑着说:你看,如果让计算机来识别这张图片的话,它可能充其量会告诉你这是一

辆汽车的图片,但是如果众包出去,比如交给你,你不仅能看出这是一辆轿车的图片,连它具体是什么品牌、什么型号都可以识别出来,识别的信息精确程度远大于计算机的能力。在实际应用中,众包分类系统可能就会问用户,这是不是一种交通工具啊?用户就会回答“是”;这是不是一辆汽车啊?用户回答“是”;是什么牌子的车啊?……,在这个过程中就像是一棵决

策树一样,通过非常简单的步骤,利用人的知识和识别能力,有效地完成了对图像的识别分类任务。

在计算机视觉方面,众包也是有很多应用的。比如给出两张绘画的图片,这两张图片的差

异很大,但是我们希望知道这两张图片的绘画风格是不是一样的。

对计算机来说,识别两张图片的颜色是不是一致、描述这两张图片里面的是不是同一件东

西或许做起来还可以,但是对于绘画风格这样的概念,是很难让计算机实现的,因为绘画风格这种东西的确很抽象,两张使用不同的色彩、完全不同的绘画,可能同属一个绘画风格,或者出自一位画家之手。

小可:的确,这样的工作由人来做的确可以相对轻松地完成,毕竟人对这种抽象概念的认

识还是要强于计算机很多的。如果这个人略懂艺术的话,那么对于绘画风格这样的抽象概念也就可以在很短的时间内进行很有效的分辨。

Mr. 王:其实在数据库中,也有众包的例子。比如模糊匹配问题。假如有一个人叫张三,

在有些数据库记录中,可能被记作“张三”“、Zhang San”“、San Zhang”“、S.Zhang”“、Zhang,San”等,即使两个名字是不同的形式,他们也可能是同一个人。在一些情况下让计算机来做匹配也是有难度的,计算机往往会通过一些形如字符串匹配这样的方法来判断两个名字是不是一个人,这样仍然不够准确。另外,很多名字相同的人,反而不是一个人,不过如果人参与识别的话,判断两条记录是不是一个人,就可以通过比较名字、在现实世界的一定范围内是不是有重名的人,或者是看看各关键字相关的记录,比如头衔、住址这样的信息进行匹配。这些内容有时也是模糊的,比如同一个地址的描述方式有很多,但人依然容易识别它们,可以通过各种模糊逻辑处理方法来解决匹配问题。所以有些系统会借助人的力量来完成这种工作,让人参与到数据库记录的匹配和连接中去,实现更高精度和更好效果的连接。在这方面典型的例子是CrowdDB,如果你感兴趣,可以查阅关于CrowdDB 的一些论文。

内容来源:灯塔大数据 文章编辑:柯一