定位网站内重复的内容
当实现搜索引擎排名在谷歌中对你很重要,你会想要确保你的网站没有重复内容的问题。以下是一些识别方法重复内容以及如何避免它冲淡你网站的主题。
重复内容-博客
博客是一种很容易分享信息和与访问者互动的好方法。的某些功能网络博客能否在同一内容内自动生成多个网页,造成问题重复的内容。
诸如分类页面、trackback网址、档案和RSS提要等内容都是在博客程序(如WordPress)中自动创建的,应该尽快处理。
为了防止您的博客的这些特定区域有重复的内容,您可以简单地告诉搜索引擎不要索引服务器中存在重复内容的特定目录。
请记住,您通常不会在服务器本身上找到这些目录,它们可能是通过调用数据库动态生成的。
在robots.txt文件中添加以下内容以防止WordPress创建重复的内容:
- 不允许:/ /类别
- 不允许:/引用/
- 不允许:/ /
上面列出的disallow函数告诉谷歌它们不会在这些文件夹中索引任何页面。这为您提供了在文件夹级别上控制谷歌在网站中做什么和不做什么索引的能力。如果你不希望索引特定的文件,你也需要在页面级使用meta robots标记。
重复内容-内容管理系统
一个CMS是一种最方便的方式,添加副本到您的网站,而不需要一个网页设计师每次更改需要作出。
它们易于使用和构建,因此几乎任何人都可以轻松地开始实现过程,而不需要大量关于系统的培训或信息。
通常,这些内容管理系统创建重复的内容,试图为访问者提供不同版本的页面。这其中最大的两个罪魁祸首是:
- 打印机友好版本
- 可下载版本(Word Docs / PDF文件)
在你的网站上有打印友好的版本和多格式的版本绝对没有错,但是,它们对搜索引擎没有任何好处;因此,在Robots.txt文件中禁止它们是您的最佳利益。下面是如何防止谷歌索引这些类型的重复页面的示例:
- 不允许:/打印/
- 不允许:/ pdf /
- 不允许:/ /
请记住,上面显示的所有示例都只是示例。您需要找到这些文件夹的正确位置,并在robots.txt文件中进行必要的修改。
如果您希望查看更改对网站的影响,您可以使用谷歌网站管理员控制台它可以让你看到哪些文件夹可以被Googlebot索引。
关于Robots.txt文件的最后一点注意事项。请不要在robots.txt文件中放入以下内容:
- 不允许:/
本质上,这意味着禁止根文件夹....中的所有内容实际上,有些人无法在搜索引擎中索引他们的任何页面,结果发现这个调用在robots.txt文件中。我相信主要的搜索引擎已经修改了他们阅读上述呼吁的方式,在那里它意味着不允许“什么”,但我不建议冒险。
好运!