若水资讯

专注于web交互设计和Web2.0应用领域的个人博客

搜索引擎是如何保障隐私的

By Ruisin • 4 23rd, 2008 • Category: 互联网故事

想起写这篇文章,是因为大概去年开始用校内网的时候,在他页面的最下一行依稀有一行小字,大意是让你不要把你的页面地址直接帖到其他网站上,否则这个页面可能会被搜索引擎搜到,泄露隐私。当然,现在现在你已经看不到这行小字了——因为他已经开始强迫浏览者一定要注册后才能访问了。

说句老实话,虽然校内网模仿的对象是facebook,但是facebook的很多精华和深层技术不知道出于什么原因,比如说丰富的API支持等校内并没有模仿。而通过第一段的那句话,可以很容易的发现许多国内web开发人员在基础技术上的缺陷,甚至不知道如何保护网站不希望被搜索引擎收录的页面。

前两天看到报道说,Google已经开始尝试深层搜索,大意就是说他们的引擎将更加智能,开始尝试填写各种网站上的表单,以此来增加可能搜索到的页面。而更有报道说仅去年1年Google就吞噬了约100 Exabytes(1 Exabyte=1000000000 Gigabyte)的数据。搜索引擎是在肆意的搜索互联网上的各种信息吗?当然不是。

其实早在1994年的时候,就有一群人通过一个名字叫做robots-request@nexor.co.uk的邮件组建立了一套非正式的标准:Robots Exclusion Standard,用来规范搜索引擎哪些是网站不允许被搜索的地方。这个标准主要通过在网站的根目录下建立一个叫做robot.txt的文本文件,通过一些规范写法指明哪些目录是禁止搜索引擎访问的。当然,作为一个十多年前的非正式的标准,它的确存在着很多局限性,比如配置文件不够强大,也不够现代,而且作为非正式的标准,虽然事实上被现在的主流搜索引擎接受,但是它在法律上对搜索引擎没有约束力,是否遵守此规定完全是一种搜索方的自愿行为。

去年的时候,有一个刚刚发布的名字叫做ACAP(Automated Content Access Protocol)的协议开始试图替代现有的不规范的事实标准。具体来说ACAP并不是一个针对搜索引擎的访问控制协议,但是作为整个协议内容的一部分,他给用户提供了一些更强大的控制搜哦索引擎对其网站内容进行检索的控制方法——当然,实施这种方法最重要的前提就是绝大多数的搜索引擎愿意接受这个标准,但是ACAP被大家接受的路还很远。

当然,无论是robot.txt还是ACAP,互联网应用上的各种协议标准越来越多,像sitemap、XFN、RSS和Atom等等。作为直接用户,可能凡是你能够想到的内容,都有标准在约束,而国内的很多开发者并没有兴趣了解过这些内容,所以就进行了很多“自主创新”,但是就像IPv9一样,可能在很多领域,使用已经形成的规范将是一件更有效率和节约成本的事情。

Tagged as: , , ,

Ruisin is
Email this author | All posts by Ruisin

Leave a Reply