Google如何解析HTML页的元标记
作者:晋城网站建设 日期:2012-02-16
如果你能写好和维持准确的元标记(例如,描述性标题和为搜索机器人提供的信息),Google就可以更准确地爬行、索引并在搜索结果中显示你的网站。元标记为各种各样的客户端(例如浏览器和搜索引擎)提供信息。请记住,每一个客户端可能只解析对该客户端有用的元标记,而忽略了其他元标记(虽然它们有其他用处)。
下面是Google如何解析以下HTML页的元标记:
<!DOCTYPE …><head>
<title>传统瑞士奶酪火锅食谱<title> Google使用此标记,网站管理员应非常注意它的准确性
<meta name="description" c> Google使用此标记,我们的搜索结果会显示它
<meta name="revisit-after" c> Google不使用此标记,其他主要搜索引擎也不使用
<META name="verify-v1" c /> 可选,Google网络管理员工具用到此标记
<meta name="GoogleBot" c> 可选
<meta …>
<meta …>
</head>
<meta name="description" c>
此标记提供了对当前页面一个简短描述。在很多情况下该描述会作为页面摘要(snippet)显示在Google的搜索结果中。详情请参阅我们的博客文章“使用更好的元描述来改善页面摘要”以及帮助中心的文章“如何更改网站的标题和描述”。虽然描述元标记是可选的,并且不会影响到您的排名,一个好的描述可以产生一个更好的页面摘要,这反过来又可以帮助提高我们的搜索结果质量和你的网页的访问者数量。
<title>页面标题</title>
从技术上讲,标题标记并不是一个元标记,它经常与"description"标记一起使用。此标记的内容(即标题)一般显示在搜索结果中(当然,当用户使用浏览器来浏览网页或察看书签时也能看到页面标题)。我们的博客文章"针对访问者,还是针对搜索引擎?"尤其是"充分利用网页标题"中有关于标题标记的更多信息。
<meta name="robots" c>
<meta name="googlebot" c>
这些元标记控制搜索引擎如何抓取和索引页。 "robots"元标记指定的规则适用于所有搜索引擎,"googlebot"元标记指定的规则只适用于Google。Google可以理解以下值(当指定多个值时,用逗号将它们分开) :
noindex: 防止网页被索引(见"使用元标记拦截或删除网页")
nofollow: 不要通过当前页的链接来寻找并抓取新的网页(也见"使用元标记拦截或删除网页")
nosnippet: 在搜索结果中显示当前页时,不要显示页面摘要(见"防止显示或删除页面摘要")
noodp: 在为本页产生标题或页面摘要时,不要使用开放式目录项目(又名dmoz.org)中的文本(见"如何更改网站的标题和描述?")
noarchive: 在显示本网页于搜索结果中时,不要显示一个"网页快照"链接(见"防止显示或删除缓存的网页")
unavailable_after:[日期]:在指定的日期和时间后从搜索结果中删除这个网页(见"机器人排除协议:现在更灵活")
当你完全省略此标记或当你指定c时,默认规则是"index, follow"。"使用robots元标记"中有关于"robots"元标记的更多信息。作为一个说明,你现在也可以在你的页面首部通过"X-Robots-标签"HTTP头指令来指定这一信息。这特别有用,尤其是当你想微调抓取和索引诸如PDF、图片或其他类型的非HTML文件时。
<meta name="google" value="notranslate">
当我们认识到一个页面的内容并不是用用户可能想读的语言所写时,我们往往在搜索结果中提供一个链接以自动翻译你的网页。一般来说,这让你有机会提供独特和令人折服的内容给一个更广大的用户群。不过,在特定情况下,你可能不想你的网页被翻译。用这个元标记,你可以表明你不想让Google提供一个翻译 此页的链接。这个元标记一般不影响该页为任何特定语言的排名。更多的信息请参阅"Google翻译常见问题解答"。
<meta name="verify-v1" c>
这是一个Google网站管理员工具的特定元标记,它是被用在你网站的高层页面,以在网站管理员中核实一个网站的所有者(另一种核实方法是上传一个HTML文件)。你为这个标记所设置的"c 如何通过向网站主页中添加元标记来验证网站?"
<meta http-equiv="Content-Type" c>
这个元标记定义该页的内容类型和字符集。使用这个元标记时,content属性的值必须放在引号中;否则字符属性可能被错误理解。如果你决定 使用这个元标记,不用说,你应该确保你的内容实际上用的是指定的字符集。"Google的网络作者统计"里有一些关于这个元标记的使用的有趣数据。
<meta http-equiv="refresh" c>
这个元标记在一定的时间后将用户指引到一个新的URL,有时它被用来作为一种简单的重定向形式。不是所有浏览器都支持这种重定向。它也可能混淆用户。对显示在搜索引擎结果中的某一页面,如果你需要改变它的URL,我们建议您使用服务器端的301重定向。此外,W3C的"网页内容易读性技巧和故障指南2.0"把它列在应该被废弃的标记中。
(X)HTML和大小写
Google既能阅读HTML式的元标记,也能阅读XHTML式的元标记(无论网页用的是哪种编码)。此外,元标记的大小写一般并不重要--我们把<TITLE> and <title>看作是同样的。但是,"verify-v1"元标记是一个例外,它是区分大小写的。
revisit-after网站地图的lastmod 和 changefreq标记
偶尔,网络管理员不必要地包含了"revisit-after"标记以加快一个搜索引擎的爬行速度,不幸的是,这个元标记大多数情况下是被忽略的。如果你想 让搜索引擎知道你更改页面的信息,你可以提交一个XML格式的网站地图。在该文件中,你可以说明你网站的最后修改日期(lastmod)和URL页面的改变频率(changefreq)。