如何创建XML网站地图(Sitemap)以更符合搜索引擎收录要求
如何创建XML网站地图(Sitemap)以更符合搜索引擎收录要求
XML网站地图是网站优化中一个容易被误解但又非常重要的工具。它不仅帮助搜索引擎了解网站的结构和内容,还能提高抓取效率,优化利用抓取预算。本文将详细介绍XML网站地图的概念、创建方法、提交流程以及常见误区,帮助网站管理员更好地利用这一工具。
什么是XML网站地图?
XML网站地图是搜索引擎的网站目录。普通网站地图可以帮助访客浏览网站,而XML网站地图则可以帮助搜索引擎了解网站的结构和内容。
下面是网站地图的样子:
当您添加新的产品页面、发布博文或更新服务项目时,您需要Google(和其他引擎)尽快找到并索引这些内容。
网站地图包括哪些内容?
您的XML网站地图会告诉Google有关每个页面的四个重要信息。
1. 位置 (loc)
这是页面的URL,必须是完整的URL。
<loc>https://www.dreamhost.com/products/blue-widget</loc>
2. 最后修改日期(lastmod)
显示内容更新时间的时间戳。微软必应团队强调,包含lastmod标签对有效抓取“至关重要”。谷歌特别关注有意义的更新。
根据他们的文档,“如果
<lastmod>2024-11-30T14:30:00+00:00</lastmod>
谷歌还解释了如何查看页面更新的lastmod日期:
“该值应反映页面最后一次重要更新的日期和时间。例如,页面上主要内容、结构化数据或链接的更新通常被视为重要更新;但版权日期的更新则不被视为重要更新”。
3. 更改频率 (changefreq)
内容更新的频率。以下是一些示例值:
- 对于您的主页:daily或always
- 对于产品页面:weekly
- 博客文章:monthly
- 关于页面:yearly
- 其他页面:never
<changefreq>weekly</changefreq>
4. 优先级(priority)
与其他页面相比的相对重要性。该值范围为0至1:
- 主页:1.0
- 主分类页面:0.8
- 产品页面:0.6
- 博客文章:0.4
- 存档页面:0.2
<priority>0.8</priority>
您的网站需要XML网站地图吗?
我们强烈建议您为网站创建网站地图。虽然大多数人建议只有在以下情况下才创建网站地图:
- 非常大的网站
- 拥有大量档案的网站
- 只有少量链接指向的新网站
- 使用富媒体内容的网站
谷歌认为,有了适当的内部链接,他们的爬虫就能自然地找到您的内容。现实是什么?大多数网站都无法实现完美的内部链接结构。每个现代网站都能从XML网站地图中获益。
原因如下:互联网的复杂性与日俱增,使正确的网站索引变得越来越具有挑战性。您应尽量为搜索引擎提供每一个可能的细节,帮助他们找到您的内容。
XML网站地图不仅能帮助发现内容,还能提高整个抓取过程的效率,帮助优化利用抓取预算。
网站地图中应添加哪些页面?
您的网站包含两种不同类型的页面。
1.搜索登陆页面
用户应通过搜索找到的页面:
- 产品页面
- 类别列表
- 博客文章
- 服务描述
- 关键信息页面
2.实用页面
具有一定功能但不应出现在搜索中的页面:
- 登录页面
- 订单确认页面
- 密码重置表单
- 感谢页面
- 管理部分
您的XML网站地图应仅包含搜索登陆页面。包含实用页面会降低网站的感知质量,并浪费搜索引擎宝贵的抓取资源。
如何创建XML网站地图?
创建XML网站地图有多种选择,包括手动创建和自动解决方案。让我们从最简单的方法开始,然后再学习更高级的方法。
手动创建网站地图
对于小型静态网站,您可以使用任何文本编辑器手动创建XML网站地图。
创建一个名为“sitemap.xml”的新文件,并使用此基本结构:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.yourwebsite.com</loc>
<lastmod>2024-01-01</lastmod>
</url>
</urlset>
为每个要包含的页面添加一个新的
WordPress网站的解决方案
如果你运行的是WordPress网站,那么你已经拥有了几款强大的搜索引擎优化工具:
- Smart SEO Tool:这是闪电博开发的插件,提供自动Sitemap地图生成支持,且还包括TDK、图片SEO、链接优化和robots.txt等一系列功能。
- All in One SEO:提供全面的网站地图功能,包括支持自定义帖子类型以及根据内容年龄和类型自动计算优先级。在“yourdomain.com/sitemap.xml”中访问网站地图。
- Yoast SEO:最受欢迎的WordPress网站地图生成工具。安装后,网站地图会在“yourdomain.com/sitemap_index.xml”中自动生成。您可以通过插件设置控制网站地图中出现的内容类型。
- Rank Math:提供与Yoast类似的功 能,但包含Google新闻网站地图和视频网站地图等附加功能。您的网站地图可在“yourdomain.com/sitemap.xml”中找到。
- WordPress核心:自5.5版起,WordPress就包含了基本的网站地图功能。不过,大多数搜索引擎优化专业人员更喜欢专用插件,因为它们具有额外的控制和功能。
非WordPress网站的解决方案
如果您使用其他平台构建网站,它们很可能有创建这些网站地图的内置解决方案。如果您没有使用其他平台,而是建立了一个完全自定义的网站,那么您就需要依赖外部网站地图生成器,并定期将自动生成的网站地图上传到您的网站服务器。
以下是几款不错的网站地图生成器:
如何向谷歌提交网站地图
生成网站地图只是整个过程的开始。您需要告诉谷歌在哪里可以找到它。
虽然谷歌最终可能会通过您的robots.txt文件发现您的网站地图,但通过谷歌搜索控制台直接提交会大大加快这一过程。
提交之前
首先,确保您的网站地图能够正常运行。一个损坏的网站地图会浪费Google和你的时间。在浏览器中访问“yourdomain.com/sitemap.xml”。你应该看到一个格式正确的XML文件,而不是错误页面。
专业提示:如果您看到的是乱码,不用担心,这是正常现象。XML文件在浏览器中通常看起来很乱。重要的是您可以看到列出的URL。
通过谷歌搜索控制台提交
- 登录Google Search Console。
- 选择网站属性。
- 从左侧边栏进入“Sitemap”部分。
- 在“添加新网站地图”字段中输入网站地图URL,然后点击提交。
根据您使用的是域名属性还是URL前缀,您需要输入完整的URL,或者只输入域名后面的部分。
例如,在上图中,你可以看到我们输入了完整的URL,因为它是域名属性。
下面是URL前缀属性的情况–在这里,你只需要输入域名后面的部分:
您通常会将XML网站地图存储为“https://yourdomain.com/sitemap.xml”或“sitemap_index.xml”。
Google会立即检查网站地图是否存在基本错误。您将看到以下状态指示器之一:
- 成功:Google可以正确读取网站地图。
- 无法获取:Google无法访问您的网站地图。
- 无法读取:Google找到了您的网站地图,但无法处理。
了解网站地图报告
提交后,Google Search Console会向您显示:
- 您提交了多少个URL。
- Google实际索引了多少个URL。
- Google最后一次读取网站地图的时间。
重要:如果索引的URL数量与提交的URL数量不同,请不要惊慌!谷歌不会因为网页在网站地图中就将其索引,请记住,这只是一个建议,而不是命令。
多个网站地图
对于大型网站,您可能有多个网站地图:
- 产品网站地图
- 博客文章网站地图
- 分类网站地图
- 图片网站地图
分别提交每个网站地图,以帮助Google更好地了解您的网站结构,并更轻松地跟踪索引问题。
向必应提交网站地图
虽然谷歌在搜索领域占据主导地位,但聪明的搜索引擎优化专业人员知道搜索引擎多样化的价值。必应占据了很大一部分搜索流量,尤其是在某些人群和地区。此外,他们的网站管理员工具往往能提供其他地方找不到的独特见解。
你会发现,当你点击“添加新网站”时,它会给你两个选择–“从GSC导入你的网站”或“手动添加你的网站”。
从Google Search Console导入网站
已经在Google Search Console中验证了您的网站?你很幸运!Bing提供简化的导入流程,可为您节省宝贵的设置时间。
- 前往必应网站管理员工具。
- 单击“从Google Search Console导入”。
- 按照验证步骤操作。
- 您的网站详细信息(包括网站地图)将自动传输!
手动提交网站地图
对于新手或喜欢手动控制的用户,Bing的直接提交流程非常简单:
- 导航至必应网站管理员工具。
- 选择“手动添加网站”。
- 输入网站的URL。
- 通过首选方法验证所有权:
- 上传XML文件。
- 添加元标签。
- 添加CNAME记录。
从左侧边栏进入网站Sitemap,然后点击提交网站地图。
最后,添加完整的网站地图XML并点击提交。
常见的提交错误
在必应网站管理员工具中,你只会看到“错误”或“成功”字样,点击该行可获得有关错误的更多详细信息。
但是,对于Google Search Console,你会在那里看到错误。
如果出现“无法获取”,请检查以下问题:
- 您的网站地图URL是否正确。
- 您的网站可以访问。
- 您的robots.txt文件没有阻止网站地图。
如果出现“无法读取”,请确认:
- 您的XML语法有效。
- 使用了正确的XML模式。
- 文件没有压缩或损坏。
提交后
定期监控网站地图状态。注意:
- 索引页面急剧下降。
- 提交的URL与索引的URL之间的差距越来越大。
- 网站地图报告中的警告信息。
请记住:向Google等搜索引擎提交网站地图是一个持续的过程,而非一次性任务。随着网站的成长和变化,请不断监测和更新网站地图。
关于XML网站地图的常见误区
让我们来澄清一些关于XML网站地图及其在搜索引擎优化中的作用的顽固误解。
误区1:网站地图可确保Google索引
许多网站所有者认为提交网站地图意味着自动索引。但将网页添加到网站地图并不能保证谷歌会将它们收录到搜索结果中。
谷歌的算法会根据页面质量、独特性和对用户的整体价值等诸多因素来决定索引内容。网站地图只是向谷歌提出一个温和的建议:“嘿,这些页面值得你关注”。
就像在主导航菜单中添加页面一样,这是Google用来了解网站结构和内容层次的众多信号之一。
误区2:网站地图中应包含所有页面
网站所有者通常会将整个网站结构添加到网站地图中,认为越多越好。
网站地图只应包含您真正希望用户通过搜索找到的页面。尽量将网站地图的大小保持在50,000个URL以下,未压缩的文件大小保持在50MB以下。
UTF-8编码也有助于搜索引擎正确读取网站地图,而正确的XML格式则可防止解析错误,以免影响您的工作。
问题是,如果您开始包含登录页面、感谢页面或重复内容,就会向Google表明,您并不了解哪些内容对用户真正重要。
把网站地图想象成餐厅菜单。你不会列出厨房、储藏室或员工浴室–你只会显示顾客可以点的菜。
误区3:更新频率并不重要
网站地图是活文档。
即使手动更新看起来很麻烦,您也需要使用某种形式的自动化来自动更新网站地图,将新发布的重要页面添加到网站地图中。
包含已删除页面或缺少新内容的过时网站地图实际上会损害网站的抓取效率。谷歌爬虫在检查不存在的页面时会浪费宝贵的时间,同时还有可能错过您的新内容。
网站地图应反映网站的当前状态,就像地图需要显示当前的道路和地标才能发挥作用一样。
误区4:所有XML标签都同样重要
很多人都在花时间完善自己的变更频率和优先级值,认为它们会对Google的行为产生重大影响。
URL位置(loc)和最后修改日期(lastmod)是XML网站地图中仅有的两个必备元素。其他标签提供了上下文,但不会直接影响抓取或索引决策。
因此,将精力集中在维护准确的URL和最后修改日期上,就完全不用担心优先级和更改频率了。
小结
您的XML网站地图讲述了您网站的组织结构和优先级。因此,要让搜索引擎有时间阅读和处理它。
这里有一点需要注意:质量胜于数量。包含最佳页面的网站地图比包含所有内容的杂乱无章的目录更胜一筹。