若水资讯

专注于web交互设计和Web2.0应用领域的个人博客

迁移到Unicode 5.1(翻译)

By Ruisin • 5 6th, 2008 • Category: 互联网故事

前两天听说feedburner被河蟹掉了,今天去翻google的官方博客新闻,发现blogsopt也再次河蟹了,感慨自己前两天的英明抉择没有在上面开博。
这是一篇我在google的官方博客上看到的消息,原文地址:http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.html。因为我的英语水平一般,所以是带有意译的成分,用词不一定和原文对应的上。

正文如下:

还没有等Unicode 5.1发布满一个月,Google已经开始支持他了。这种特性已经在搜索中可以使用,所以像使用Malayalam(印尼南部的一种方言)这种语言的人已经可以在搜索的内容包含在Unicode 5.1中新添加的字符了。网页文件可以使用许多种不同的字符编码,例如ASCII、Latin-1、Windows 1252以及Unicode等。大部分的编码,只能涵盖少数的语言,但Unicode能够处理任何从中文到法语乃至阿拉伯语。我们(这里指Google)长期以来一直使用Unicode作为进行文字搜索的内部格式:任何其他编码首先是转换为Unicode去处理。因此,我们会定期更新到每个新版本的Unicode(包括相关的标准,CLDR和的BCP 47 )以确保我们是最新的。因此, Unicode在我们的使命发挥了关键作用。

原生的Unicode网页增多

仅仅在去年12月,在网上有一个有趣的里程碑。我们发现在网页上Unicode第一次巧合性地在10天内同时超越ASCII和西欧编码,成为是最常见的编码 。但是更令人印象深刻的不仅仅是超越,而是这件事发生之迅速,请看看图形中的蓝色线条。

编码占有率

你可以看到以ASCII编码( 不含音调的字母A到Z )的页面的长期下降趋势  。最近,使用只涉及西欧字母( ASCII的和少数带音调字母像Ä, Ç, 和 Ø)的编码有一个显著下降趋势 。在其他特定语言的编码中我们也看到类似的下降。 另一方面,Unicode的使用出现了大幅增加。

这些数据是基于我们对网页的索引资料,因而有些部分可能会与其他的搜索引擎所找到的有所不同。不过,趋势是相当清楚的,而且持续上升,使用Unicode使得我们处理覆盖范围里的多种语言更容易。

P.S.原文中图片上的文字可能看不清,蓝色是Unicode编码,红色是ASCII,黄色是西欧编码,绿色是中文的GB2312编码,灰色是日文编码。

Tagged as: ,

Ruisin is
Email this author | All posts by Ruisin

Leave a Reply