验证码背后的秘密

由 coak · 发布日期 2015/01/18 · 已更新 2015/04/09

很多时候电脑为了分辨出正在登陆网站的是人还是机器，会让你输入附近一张图片内的字母或者数字，这就是万恶的验证码。现在看来也许验证码是个显而易见的点子，但是从历史上看，它绝对是个判断正在输入的是人类还是机器的简单高效方法。再后来，设计师Luis von Ahn就想了，每天这么多人都在识别输入一串字符，能不能利用它呢？于是后来他就又搞出了reCAPTCHA。如果我们想电子化一些从前的文档，比如19 世纪的纽约时报，我们要不得依靠人力，手动地一个一个字地输入电脑，要不然就直接扫描，然后用软件识别。但是软件识别的准确率不能保证，尤其是扫描或者文档本身质量很差的时候，比如：

reCAPTCHA做的，简单来说就是把上图的单词切割抽取出来，然后与一组自动生成的字符混合，生成验证码，发送到各各网站上，像这样：

reCAPTCHA默认如果电脑产生的字符你输入正确，那么从文档中抽取的字符你的输入也将是正确的，然后通过交叉验证，重复验证，各种算法保证准确率。于是坐在电脑前上网的我们，每次输入验证码的时候，就可能顺便为某个图书馆的文档录入做出了贡献。一个经常被提到的实例就是，借助广大网民之手，纽约时报从1851年到现在的所有报纸，总共超过1千3百万篇文章都已经成功录入计算机。如果依靠手工输入，人力，资金，时间都将是巨大的，然而借助 reCAPTCHA, 以及每天上网的我们，这项工作短时间内已经完成了。09年reCAPTCHA被谷歌收购了，大家可能也都注意到了，谷歌更进一步利用验证码来帮助它们识别门牌号，路牌等等，用来修正谷歌地图的精度。这样谷歌地图的准确度，以及用户的体验都得到了提升。