验证码背后的秘密

很多时候电脑为了分辨出正在登陆网站的是人还是机器,会让你输入附近一张图片内的字母或者数字,这就是万恶的验证码。现在看来也许验证码是个显而易见的点 子,但是从历史上看,它绝对是个判断正在输入的是人类还是机器的简单高效方法。再后来,设计师Luis von Ahn就想了,每天这么多人都在识别输入一串字符,能不能利用它呢?于是后来他就又搞出了reCAPTCHA。如果我们想电子化一些从前的文档,比如19 世纪的纽约时报,我们要不得依靠人力,手动地一个一个字地输入电脑,要不然就直接扫描,然后用软件识别。但是软件识别的准确率不能保证,尤其是扫描或者文 档本身质量很差的时候,比如:

验证码背后的秘密

reCAPTCHA做的,简单来说就是把上图的单词切割抽取出来,然后与一组自动生成的字符混合,生成验证码,发送到各各网站上,像这样:

验证码背后的秘密

reCAPTCHA默认如果电脑产生的字符你输入正确,那么从文档中抽取的字符你的输入也将是正确的,然后通过交叉验证,重复验证,各种算法保证准确率。 于是坐在电脑前上网的我们,每次输入验证码的时候,就可能顺便为某个图书馆的文档录入做出了贡献。一个经常被提到的实例就是,借助广大网民之手,纽约时报 从1851年到现在的所有报纸,总共超过1千3百万篇文章都已经成功录入计算机。如果依靠手工输入,人力,资金,时间都将是巨大的,然而借助 reCAPTCHA, 以及每天上网的我们,这项工作短时间内已经完成了。09年reCAPTCHA被谷歌收购了,大家可能也都注意到了,谷歌更进一步利用验证码来帮助它们识别 门牌号,路牌等等,用来修正谷歌地图的精度。这样谷歌地图的准确度,以及用户的体验都得到了提升。

验证码背后的秘密

Luis von Ahn真是很有想法的人,后来他又创办了很火的Duolingo,帮助大家学外语。Duolingo利用大家的学习参与过程,实现翻译文本。(例如截取 CNN新闻的片段让你翻译成中文,多个参与者的练习拼凑起来就是一篇翻译好的文本,然后卖回去给CNN。)

你是不是觉得这些秘密让你觉得你不知不觉的在无私的为世界上的电子化图书馆做着无私的奉献呢?

[Via]

coak

2 Responses

  1. meatbones说道:

    原来是这样!!!

  2. 说道:

    都没人评价,哎,喵

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据