重复的内容是许多网站所有者持续焦虑的来源。
几乎阅读任何关于它的东西,你会相信你的网站是一个重复内容问题的定时炸弹。距离100亿美元的罚款只有几天了。
值得庆幸的是,这不是真的,但是重复的内容仍然会导致SEO问题。在25-30%的网页内容重复的情况下,知道如何避免和解决这些问题是很有用的。
在本指南中,您将学习:
什么是重复内容;
为什么重复内容不利于SEO ?
谷歌是否有重复内容惩罚;
内容重复的常见原因;
如何检查(和修复)重复的内容
技术SEO新手?看看我们的技术SEO初学者指南
什么是重复内容?
重复内容是指在多个地方出现的相同或相似的内容。它可以存在于一个网站或跨多个网站。
例如,让我们玩一个找出差异的游戏……
这是位于caltonnutrition.com/tag/protein-powder/的页面…
这是位于caltonnutrition.com/tag/whey/的页面:
注意到有什么不同吗?我也不。两个url上的内容是相同的。也就是重复内容。
为什么重复内容不利于SEO?
谷歌说,没有重复内容惩罚这回事。但是重复的内容会损害你的SEO表现,原因有几个。
搜索结果中不受欢迎或不友好的url;
反向链接稀释;
烧爬预算;
抓取或联合内容排名高于你。
1. 搜索结果中不受欢迎或不友好的url
假设同一个页面有三个不同的url:
domain.com/page/
domain.com/page/ ? utm_content = buffer&utm_medium =社会
domain.com/category/page/
第一个应该出现在搜索结果中,但谷歌可能会犯错误。如果发生这种情况,一个不受欢迎的URL可能会取代它。
因为人们可能不太倾向于点击一个不友好的URL,你可能会得到更少的自然流量。
2. 反向链接稀释
如果相同的内容在许多url上可用,那么每个url都可能吸引反向链接。这导致了url之间“链接权益”的分裂。
为了展示一个野外的例子,看看buffer.com上的这两个页面:
https://buffer.com/library/social-media-manager-checklist
https://buffer.com/resources/social-media-manager-checklist
这几页几乎一模一样。他们分别有106个和144个参考域名(来自独特网站的链接)。
在您恐慌之前,要知道这并不总是一个问题,因为谷歌处理重复内容的方式。
简单地说,当它们检测到重复内容时,它们将url分组到一个集群中。然后,他们“选择[他们]认为在搜索结果中代表集群的‘最佳’URL”,并“将集群中URL的属性(如链接受欢迎程度)整合到具有代表性的URL”。这个过程被称为规范化。
因此,在上面的例子中,谷歌应该在自然搜索中只显示一个URL,并将集群(106+144)中的所有引用域都归为该URL。
但事实并非如此,因为我们看到两个url在谷歌中排名相似的关键字。
在这种情况下,谷歌可能不会在一个URL上整合“链接权益”。
免责声明
我们无法确定谷歌是如何看到这两个url的,因为我们无法访问Buffer的谷歌搜索控制台帐户。可能他们认为这两个url都是重复的,其中一个很快就会从自然搜索中消失。
3. 燃烧爬行预算
谷歌通过爬行在您的网站上发现新内容,这意味着他们遵循从现有页面到新页面的链接。他们还会不时地抓取他们知道的页面,看看是否有什么变化。
拥有重复的内容只会为他们创造更多的工作。这会影响它们抓取新页面或更新页面的速度和频率。
这很糟糕,因为它可能会导致索引新页面和重新索引更新页面的延迟。
旁注。因为b谷歌的“爬行速率限制”对于响应更快的网站来说更高,所以对于带宽更小的慢网站来说,这是一个更大的问题。他们的系统也会更少地抓取重复的url。
4. 抓取排名高于你的内容
偶尔,您可能会允许其他网站重新发布您的内容。这就是所谓的辛迪加。其他时候,网站可能会在未经许可的情况下抓取你的内容并重新发布。
这两种情况都会导致跨多个域的重复内容,但通常不会造成问题。只有当抓取或重新发布的内容在你的网站上排名超过原始内容时,问题才会出现。
好消息是这种情况很少发生,但也有可能发生。
b谷歌有重复内容惩罚吗?
谷歌已经多次声明他们没有重复内容惩罚。
我们没有重复内容惩罚。这并不是说我们会降低一个网站有很多重复的内容。 John Mueller,网站管理员趋势分析师b谷歌
朋友们,让我们一劳永逸地解决这个问题:不存在所谓的重复内容惩罚。 Susan Moskwa,前网站管理员趋势分析师b谷歌
dyk谷歌没有重复内容惩罚。 Gary Illyes,网站管理员趋势分析师b谷歌
但是,这并不完全正确。如果你的重复内容是偶然的,而不是故意操纵搜索结果或垃圾邮件的结果,那么你就不会受到惩罚。如果是,那么你可能会。
谷歌在这里确认:
在极少数情况下,谷歌认为重复的内容可能会有意操纵我们的排名和欺骗我们的用户,我们也会对相关网站的索引和排名进行适当的调整。因此,网站的排名可能会受到影响,或者网站可能会完全从谷歌索引中删除,在这种情况下,它将不再出现在搜索结果中。
问题是,什么才算“故意操纵我们的排名和欺骗我们的用户”?
b谷歌在这方面有很多信息。但基本上,它是这样的:
故意创建具有大量重复内容的多个页面、子域或域。
发布大量抓取的内容
发布从亚马逊或其他网站抓取的附属内容(不增加额外价值)
然而,正如上面所讨论的,重复的内容仍然会伤害seo——即使没有惩罚。
重复内容的常见原因
造成重复内容的原因并不单一。有很多。
在上雕琢平面/过滤导航
分面导航是用户可以过滤和排序页面上的项目的地方。电子商务网站经常使用它。
这种导航将参数附加到URL的末尾。
由于这些过滤器通常有多种组合,分面导航通常会导致大量重复或近乎重复的内容。
例如,看看这两页:
bbclothing.co.uk / en /服装/ shirts.html吗?new_style =检查bbclothing.co.uk / en /服装/ shirts.html吗?大小= S&new_style =检查
url是唯一的,但内容几乎是相同的。
另外,参数的顺序通常并不重要。例如,同一个页面可以通过以下两个url访问:
bbclothing.co.uk / en /服装/ shirts.html吗?new_style = Checked&Size = XL bbclothing.co.uk / en /服装/ shirts.html吗?大小= XL&new_style =检查
如何解决这个问题
分面导航是一个复杂的庞然大物。如果您怀疑这是导致重复内容问题的原因,请阅读本文。
跟踪参数
参数化url也用于跟踪目的。例如,您可以使用UTM参数来跟踪b谷歌Analytics中的时事通讯活动的访问量:
例如:example.com/page ? utm_source =通讯
如何解决这个问题
将您的参数化url规范化为seo友好的版本,而无需跟踪参数。
会话id
会话id存储有关访问者的信息。它们通常会在URL后面添加一个长字符串,如下所示:
例如:example.com ? sessionId = jow8082345hnfn9234
如何解决这个问题
将url规范化为对seo友好的版本。
HTTPS vs. HTTP,非www vs. www
大多数网站都可以通过以下四种方式访问:
https://www.example.com (HTTPS, www)
https://example.com (HTTPS,非www)
http://www.example.com (HTTP, www)
http://example.com (HTTP,非www)
如果您使用HTTPS,它将是前两个之一。无论是www还是非www版本都是您的选择。
但是,如果您没有正确配置服务器,您的站点将可以在其中两个或更多的变体中访问。这并不好,可能会导致重复的内容问题。
如何解决这个问题
使用重定向来确保你的网站只能在一个地方访问。
区分大小写的url
谷歌将url视为区分大小写的。
旁注。Bing似乎不是这样,它将所有url都视为小写。
这意味着这三个url都是不同的:
example.com/page
example.com/PAGE
example.com/pAgE
如何解决这个问题
保持内部链接的一致性(即,不要在内部链接到多个版本的url)。如果这不能解决问题,您总是可以规范化或重定向。
尾斜杠与非尾斜杠
谷歌将带斜杠和不带斜杠的url视为唯一的。这意味着这两个url在谷歌的眼中是唯一的:
example.com/page/
example.com/page
如果两个url都可以访问您的内容,那么可能会导致重复内容问题。
要检查这是否是一个问题,请尝试加载带有或不带有尾斜杠的页面。理想情况下,只加载一个版本。另一个会重定向。
例如,如果你试图加载这篇文章而不使用斜杠,它将重定向到带有斜杠的URL。
谷歌声明这种行为是理想的。
如果只能返回一个版本(即另一个重定向到它),那就太好了!这种行为是有益的,因为它减少了重复的内容。
如何解决这个问题
将不需要的版本(例如,不带尾斜杠)重定向到需要的版本(例如,带尾斜杠)。你还应该确保与内部链接保持一致。不要有时链接到带有斜杠的版本,有时没有。选择一个并坚持下去。
Print-friendly url
打印友好版本具有与原始版本相同的内容。只有URL不同。
example.com/page
example.com/print/page
如何解决这个问题
将打印友好版本标准化为原始版本。
友好的url
移动友好的url和打印友好的url一样,都是重复的。
example.com/page
m.example.com/page
如何解决这个问题
将适合移动设备的版本标准化。使用rel= “ alternate “告诉谷歌移动友好的URL是桌面内容的替代版本。
推荐阅读:桌面和移动url的注释
AMP url
加速移动页面(AMP)是重复的。
example.com/page
example.com/amp/page
如何解决这个问题
将AMP版本规范化为非AMP版本。使用rel=“amphtml“告诉谷歌AMP URL是非AMP内容的替代版本。
如果只有AMP内容,请使用自引用规范标记。
推荐阅读:让你的页面可被发现- amp.dev
标签和类别页面
当您使用标签时,大多数CMS都会创建专用的标签页面。
例如,如果你有一篇关于有机乳清蛋白的文章,你同时使用“蛋白粉”和“乳清”作为标签,那么你最终会得到这样两个标签页面:
https://www.caltonnutrition.com/tag/whey/
https://www.caltonnutrition.com/tag/protein-powder/
这本身并不总是会导致重复的内容,但它可以。
这里的情况就是这样,因为网站上只有一个页面有这两个标签,所以每个标签页面都是相同的。
如何解决这个问题
两个选择:
不要使用标签。大多数时候,它们几乎没有价值。
不要索引你的标签页。这并不能解决抓取预算的问题,因为谷歌仍然会浪费时间抓取这些页面。
请注意,类别页面可能会导致与标记页面类似的问题。举个例子:
https://www.xs-stock.co.uk/adidas/
https://www.xs-stock.co.uk/brands/Chelsea-FC.html
这两个页面几乎是相同的,因为在任何一个类别下都没有列出产品。所以我们剩下的就是样板模板副本了。
解决这个问题的方法是在你的网站上使用合理数量的分类,或者甚至不索引你的分类页面。
附件图片网址
许多CMS为图像附件创建了专门的页面。这些页面通常只显示图片和一些样板文件。
由于该副本在所有自动生成的页面上都是相同的,因此会导致重复的内容。
如何解决这个问题
在CMS中禁用图像专用页面。在WordPress中,你可以使用像Yoast这样的插件来做到这一点。
分页的评论
WordPress和其他CMS允许分页评论。这会导致重复的内容,因为它有效地创建了相同url的多个版本。
example.com/post/
example.com/post/comment-page-2
example.com/post/comment-page-3
如何解决这个问题
关闭评论分页或者使用像Yoast这样的插件不索引你的分页页面。
本地化
如果您向使用相同语言的不同地区的用户提供类似的内容,那么这可能会导致重复内容。
例如,您可能为美国、英国和澳大利亚的用户提供不同版本的站点。因为提供给每个地区的内容之间可能只有很小的差异(例如,以美元和英镑计算的价格),所以这些版本将几乎是重复的。
旁注。根据约翰·穆勒的说法,翻译的内容不是重复的内容。如何解决这个问题
使用标签来告诉搜索引擎变体之间的关系。
搜索结果页面
很多网站都有搜索框。使用这些通常会将您带到一个参数化的搜索URL。
示例:example.com ? q =搜索词汇
b谷歌的前Webspam负责人Matt Cutts表示:
通常,网络搜索结果不会给用户增加价值,因为我们的核心目标是尽可能提供最好的搜索结果,所以我们通常会将搜索结果排除在我们的网络搜索索引之外。(当然,并非所有包含“/results”或“/search”之类内容的url都是搜索结果。) Matt Cutts, Webspam b谷歌的前负责人
如何解决这个问题
使用robots元标记从谷歌的索引中删除搜索页面或阻止访问robots.txt中的搜索结果页面。避免内部链接到搜索结果页面。
登台环境
登台环境是用于测试目的的站点的副本或近似副本版本。
例如,假设你想在你的网站上安装一个新的插件或修改一些代码。你可能不想把它直接推送到一个每天有数十万访问者的网站上。发生灾难的风险太高了。解决方案是首先在登台环境中测试更改。
当谷歌对登台环境进行索引时,登台环境就会成为一个SEO问题,因为它会导致重复的内容。
如何解决这个问题
使用HTTP身份验证、IP白名单或VPN访问保护您的登台环境。如果它已经被索引了,使用robots noindex指令将其删除。
如何检查网站上的重复内容
转到SEO研究院网站审核,开始抓取。
https://www.youtube.com/watch?v=LjinWqfGyVE
完成后,转到内容质量报告。
寻找没有规范的重复和近似重复的集群。这些用橙色突出显示。
单击这些集群中的任何一个以查看受影响的页面。
调查重复内容的原因,然后采取适当的措施。
请注意,这些并不总是需要纠正的问题,特别是在接近重复的情况下。
不是SEO研究院用户?
在谷歌搜索控制台中查找这些与重复内容相关的警告:
没有用户选择规范的副本
重复,谷歌选择的规范与用户不同
重复,提交的URL没有被选为规范
在这里了解更多关于如何处理这些警告的信息。
要查看谷歌如何处理特定的URL,请使用URL检查工具。
还可以在HTML标记报告中检查重复的标题标记、元描述和h1。
你要找的就是劣质复制品。这些页面有重复的元标签,但标准不同。
通过点击HTML标签和内容下的“坏重复”切换来选择这些。
单击任何黄色条查看受影响的页面。
具有重复标题、元描述或H1的页面通常非常相似。
例如,这两个有相同的标题标签,内容几乎相同,因为产品是相同的。唯一的区别是,其中一页是3包即时点燃的木柴,而另一页只有一个。
https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/
https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-camp-fire-chiminea/
谷歌指出,你应该尽量减少类似的内容,像这样:
如果您有许多相似的页面,请考虑扩展每个页面或将页面合并为一个页面。
然而,少量类似的页面不太可能是一个大问题。
如何检查整个网络的重复内容问题
内容抓取和联合也可能导致重复的内容问题。但只有当你看到你的内容被抄袭的版本排名高于你的时候,这才会成为一个问题。
这种情况会发生吗?是的,但这通常是一个新网站或弱网站的问题。为什么?因为抓取你内容的网站往往更权威。这有时会“欺骗”谷歌,使其认为他们的是原版。
如果你有一个小网站,那么你经常可以通过搜索谷歌来找到你页面上的文本片段。
对于较大的站点,您需要使用Copyscape之类的自动化工具。它会搜索网页上其他出现的内容。
无论使用哪种方法,大多数结果都来自垃圾和低质量的网站。
一般来说,这些都没什么好担心的。然而,如果你发现一个合法的网站抓取了你的内容,并担心它可能会窃取你的流量,把URL扔进SEO研究院的网站浏览器,看看自然流量估计。
如果它比你的页面获得更多的流量,那么可能有问题。
在这种情况下,您有三个选项:
联系并要求他们删除这些内容。
联系并要求他们在你的网站上为原文添加一个规范的链接。
通过谷歌提交DMCA删除请求。
如果你有意将内容联合到其他网站,那么要求他们添加到原始内容的规范链接是值得的。这将消除重复内容问题的风险。
在你自己的网站上重新发布内容?
如果你在你的网站上重新发布别人的内容,有两种方法可以防止重复的内容问题:
回归到原作。
不要索引该页。
最终的想法
不要过分强调重复的内容。它通常比人们想象的要小得多。
如果您有少量重复或近乎重复的页面,则不太可能有太大的问题。引用其他网站或您网站上其他页面的内容也是如此。少量的重复或样板内容应该是可以的。谷歌有适当的系统来处理这些事情。
你需要注意的是技术上的搜索引擎优化失误,它会导致数百或数千页的重复内容的产生,比如电子商务网站上分面导航的不正确实现。
这些会严重影响你的爬行预算。
如果你被重复的内容所困扰,请在评论或推特上告诉我。