作者:Xavier de Morales,谷歌搜索质量团队

原文:Working with multilingual websites

网站站长级别:中级

多语言网站是指拥有两种以上语言版本的网站。比如说,您的网站既有中文版本,又有英文版本,那他就是一个多语言的网站。

显然,如果浏览您的网站的人使用的是不同的语言,那么多语言网站就非常实用。如果您想让巴西人浏览您写的关于拉美足球的博客,您只需要选用葡萄牙语来发布。但如果您想让阿根廷球迷也能浏览您的博客,使用西班牙语则能帮助您达到目的。


谷歌和语言识别

谷歌需要确定您每个网页的主用语言。如果您在每个页面仅使用一种语言,并且避免并行翻译,这将更有利于谷歌进行语言识别。虽然谷歌可以对一种语言以上的网页进行识别,但我们建议,网页的基本部分如标题、工具条和菜单等最好使用同一种语言。

请注意,谷歌会忽略所有代码级语言信息,包括从”lang”属性到文档类型定义(DTD)。有些网页编辑程序会自动生成这些属性,因此,在识别网页语言时它们并不十分可靠。

如果有人在谷歌上使用本国语言进行搜索,并期望找到本地化的搜索结果,此时,网站站长要发挥作用了:如果您要使信息本地化,那么用以下技巧可使搜索结果显现出来。

多语言网站剖析:URL结构

在开发多语言网站时无需建立特别的URL。但是,您的用户可能希望查看URL来确定他们在浏览您网站的哪个版面。例如,下面的URL能让用户知道他们正在浏览网站的英语页面:
http://example.ca/en/mountain-bikes.html
http://en.example.ca/mountain-bikes.html

而下面的URL能让用户知道他们在浏览同一页面的法语页面:
http://example.ca/fr/mountain-bikes.html
http://fr.example.ca/mountain-bikes.html

另外,URL结构能让您更容易地分析多语言内容的索引。

如果您想用非英语字符建立URL,请一定使用UTF-8编码。用UTF-8编辑的URL在链接内容时能正确的被转换。 如果您需要对URL进行手动转换,您可以找到一个在线URL编码器来轻松帮您完成。例如,如果我想把下面的URL从英语转换到法语,http://example.ca/fr/mountain-bikes.html

URL转换之后可能会变为:
http://example.ca/fr/vélo-de-montagne.html

因为这个URL中包含一个非英语字符(é),所以在网页链接转换之后的情况可能是:

http://example.ca/fr/vélo-de-montagne.html

多语言网站的抓取和索引

我们建议您不要允许自动翻译来获得索引。自动翻译有时候没有意义,并且可能被当做垃圾信息。更重要的是,建立多语言网站的目的,在于通过提供多种语言的内容从而吸引更多的用户。如果您的用户无法理解自动翻译的内容,或者觉得翻译太僵硬,也许您需要考虑是否真的有必要为用户提供自动翻译的内容。

如果您计划将信息本地化,让Googlebot轻松地抓取到您网站所有语种的版本。您可以考虑在网页与网页间进行横向连接。换句话说,您可以在同样内容的不同语言的网页间建立链接。这样做对您的用户也有很大帮助。用我们之前提供的例子,假设一个法语网民碰巧登陆了页面http://example.ca/en/mountain-bikes.html; 现在,他可以点一下链接转换到页面http://example.ca/fr/vélo-de-montagne.html ,在这里他可以看到法语版的同样内容。

为了让您网站的所有内容更容易被抓取到,就应避免根据用户所用语言而进行的自动重新定向。这些重新定向会使用户(和搜索引擎)无法浏览您网站的所有版本。

最后,确保不同语言的内容有不同的URL,不用要cookies来显示转换的版本。

文字编码的处理

谷歌直接从HTTP标题、HTML 页面标题和内容中摘录文字编码。在文字编码上您不需做什么,除开要留意冲突信息,如内容和标题间的冲突。虽然谷歌能识别不同的文字编码,但我们建议您在网站上尽可能使用UTF-8。

如果您的舌头已经打结……

既然您对此已经有所了解,那么使用多种语言时,即使您的舌头会打结,但您的网站却不会无法应对!

欲知更多信息,请关注我们的下一篇博文,我们将研究关于跨区域网站。谢谢。

本文转载自:Google(谷歌)中文网站站长博客