该怎么形容目前的人机验证呢？

2024-12-13 07:34:03 (Last Modified: 2024-12-13 07:34:03)

应该是失望吧？

为了确保资源服务于人类，而不是爬虫等程序，人机验证的存在是必要的。大概在 2005 年前后，互联网上的人机验证机制就比较常见了。当然，最早我们在 Google 那种风格的登录窗口上可以看到，会给你显示两个英文单词，一个写的很清晰，一般是正式的印刷体，另一个比较潦草，也是印刷出来的，但有一定的扭曲。作为用户，正确的输入这两个单词，就代表你是一个正常的人类。这种验证方式背后还有一项很“浪漫”的目标——这两个单词是从扫描纸质的印刷物的过程中取出来的。有些部分扫描质量很好，机器可以辨认出来，有些部分扫描的质量较低，比如靠近装订的那一部分。把两种类别的单词放在一起，用户正确的输入可以清晰识别的那个单词，证明了他是人类，然后输入用户辨认的不清晰的那个单词，在大数据的作用下，辅助人们将不好辨认的英文单词人工来校对。

我不确定这项技术是不是 Google 设计的，但那个时候我们非常相信这一判断。因为 Google 在那时应该是世界上最具浪漫的互联网公司了吧。主营的搜索业务以最优雅的形式展现给用户，Gmail 的 1GB 起步的电子邮箱也是当时仅有的白月光，Google Books 是搜索全世界最全面的全文图书索引，我是相信这项人机验证的设计帮助了 Google 来数字化世界上的书籍的。

这很符合当时 Web 2.0 的特色，用户不仅是信息的获取者，还是信息的贡献者。我们相信，Google Books 这样的服务可以帮助人类将书籍数字化，可以造福全世界的人类，让人们可以更高效率的获取知识，也打破书籍出版的壁垒，让人类知识可以更广泛的传播。在这一伟大的过程中，全球的用户贡献每一份微小的力量，辨认当时机器识别未能精确辨认的书籍内容，这是多么的“与有荣焉”？

而现在的人机验证是什么玩意？

目前比较常见的有两种，应该也都是 Google 的作品。我近期遇到了两种，都是我非常讨厌的。这是第一种，我尚还不那么的深恶痛绝：

它的原理是，告诉你一个目标，比如这个例子中是“人行道”，需要用户在下面的九张照片中选出包含人行道的图片。点击之后这张图片会替换成另外一张，如果仍然包含人行道，需要用户继续点击，直道九张照片全都不包含人行道为止。此时点击验证，则验证通过。

下面这第二种则是我目前最最厌恶的一种：

它的原理是，给你一张照片，被以 4×4 宫格的形式分成了十六份，也告诉用户一个目标，在这个例子中是“公交车”，需要用户选出包含公交车部分的照片。这种人机验证的通过率尤其的低，我至今不确定是科学上网的问题还是规则不清晰的问题。看似规则简单，但如何判定一张图片里是否包含公交车这件事，对人类来说就是有点吊诡的问题了。比如，这个例子中第二排第四列，它到底是否应该被选中呢？严格来说它的左下角有几个像素是公交车的蓝色车顶，但面积占据不到整幅图片的 1%。这种情况下应该选中还是不应该选，我至今没有见过明确的规定。我还遇见过“摩托车”作为目标的例子，这种情况下，驾驶摩托车的人所在的部分是否应该选中呢？这也是我没有弄明白的规则。

如果我按照自己的判定标准，比如选中了包含公交车顶的这长照片，哪怕仅有几个像素，结果验证通过了，那我经历几次也就明白了规则，但事实是，我会再被提供另一张照片，让我继续做测试。这种验证机制是需要用户做足三个、五个还是十个吗？还是说我使用的科学上网导致验证失败？没有人告知，我只好在一次一次的重复的过程中，对这种验证方法失去了信心，因为我印象中没有通过这种验证的情况。

这一类的人机验证，把过程纯粹搞成了折磨人的过程。或许现在人工智能进化的过快，普通的验证方式已经无法有效辨认人类了，所以只能出此下策；又或许曾经的书籍都已经被识别完毕，或者说机器已经可以轻易的识别英文单词了，造成传统的验证方式也失效了？总之，当初填写人机验证的浪漫感与使命感都已经不在了，这实在不能说不是一件令人失望又沮丧的事。