当前位置: 首页 > news >正文

重复的内容:为什么会发生以及如何解决它

重复的内容:为什么会发生以及如何解决它。希望了解什么是重复的内容,以及它如何伤害你的SEO?

重复的内容是许多网站所有者持续焦虑的来源。

几乎阅读任何关于它的东西,你会相信你的网站是一个重复内容问题的定时炸弹。距离100亿美元的罚款只有几天了。

值得庆幸的是,这不是真的,但是重复的内容仍然会导致SEO问题。在25-30%的网页内容重复的情况下,知道如何避免和解决这些问题是很有用的。

在本指南中,您将学习:

什么是重复内容;

为什么重复内容不利于SEO ?

谷歌是否有重复内容惩罚;

内容重复的常见原因;

如何检查(和修复)重复的内容

技术SEO新手?看看我们的技术SEO初学者指南

什么是重复内容?

重复内容是指在多个地方出现的相同或相似的内容。它可以存在于一个网站或跨多个网站。

例如,让我们玩一个找出差异的游戏……

这是位于caltonnutrition.com/tag/protein-powder/的页面…

这是位于caltonnutrition.com/tag/whey/的页面:

注意到有什么不同吗?我也不。两个url上的内容是相同的。也就是重复内容。

为什么重复内容不利于SEO?

谷歌说,没有重复内容惩罚这回事。但是重复的内容会损害你的SEO表现,原因有几个。

搜索结果中不受欢迎或不友好的url;

反向链接稀释;

烧爬预算;

抓取或联合内容排名高于你。

1. 搜索结果中不受欢迎或不友好的url

假设同一个页面有三个不同的url:

domain.com/page/

domain.com/page/ ? utm_content = buffer&utm_medium =社会

domain.com/category/page/

第一个应该出现在搜索结果中,但谷歌可能会犯错误。如果发生这种情况,一个不受欢迎的URL可能会取代它。

因为人们可能不太倾向于点击一个不友好的URL,你可能会得到更少的自然流量。

2. 反向链接稀释

如果相同的内容在许多url上可用,那么每个url都可能吸引反向链接。这导致了url之间“链接权益”的分裂。

为了展示一个野外的例子,看看buffer.com上的这两个页面:

https://buffer.com/library/social-media-manager-checklist

https://buffer.com/resources/social-media-manager-checklist

这几页几乎一模一样。他们分别有106个和144个参考域名(来自独特网站的链接)。

在您恐慌之前,要知道这并不总是一个问题,因为谷歌处理重复内容的方式。

简单地说,当它们检测到重复内容时,它们将url分组到一个集群中。然后,他们“选择[他们]认为在搜索结果中代表集群的‘最佳’URL”,并“将集群中URL的属性(如链接受欢迎程度)整合到具有代表性的URL”。这个过程被称为规范化。

因此,在上面的例子中,谷歌应该在自然搜索中只显示一个URL,并将集群(106+144)中的所有引用域都归为该URL。

但事实并非如此,因为我们看到两个url在谷歌中排名相似的关键字。

在这种情况下,谷歌可能不会在一个URL上整合“链接权益”。

免责声明

我们无法确定谷歌是如何看到这两个url的,因为我们无法访问Buffer的谷歌搜索控制台帐户。可能他们认为这两个url都是重复的,其中一个很快就会从自然搜索中消失。

3. 燃烧爬行预算

谷歌通过爬行在您的网站上发现新内容,这意味着他们遵循从现有页面到新页面的链接。他们还会不时地抓取他们知道的页面,看看是否有什么变化。

拥有重复的内容只会为他们创造更多的工作。这会影响它们抓取新页面或更新页面的速度和频率。

这很糟糕,因为它可能会导致索引新页面和重新索引更新页面的延迟。

旁注。因为b谷歌的“爬行速率限制”对于响应更快的网站来说更高,所以对于带宽更小的慢网站来说,这是一个更大的问题。他们的系统也会更少地抓取重复的url。

4. 抓取排名高于你的内容

偶尔,您可能会允许其他网站重新发布您的内容。这就是所谓的辛迪加。其他时候,网站可能会在未经许可的情况下抓取你的内容并重新发布。

这两种情况都会导致跨多个域的重复内容,但通常不会造成问题。只有当抓取或重新发布的内容在你的网站上排名超过原始内容时,问题才会出现。

好消息是这种情况很少发生,但也有可能发生。

b谷歌有重复内容惩罚吗?

谷歌已经多次声明他们没有重复内容惩罚。

我们没有重复内容惩罚。这并不是说我们会降低一个网站有很多重复的内容。 John Mueller,网站管理员趋势分析师b谷歌

朋友们,让我们一劳永逸地解决这个问题:不存在所谓的重复内容惩罚。 Susan Moskwa,前网站管理员趋势分析师b谷歌

dyk谷歌没有重复内容惩罚。 Gary Illyes,网站管理员趋势分析师b谷歌

但是,这并不完全正确。如果你的重复内容是偶然的,而不是故意操纵搜索结果或垃圾邮件的结果,那么你就不会受到惩罚。如果是,那么你可能会。

谷歌在这里确认:

在极少数情况下,谷歌认为重复的内容可能会有意操纵我们的排名和欺骗我们的用户,我们也会对相关网站的索引和排名进行适当的调整。因此,网站的排名可能会受到影响,或者网站可能会完全从谷歌索引中删除,在这种情况下,它将不再出现在搜索结果中。

问题是,什么才算“故意操纵我们的排名和欺骗我们的用户”?

b谷歌在这方面有很多信息。但基本上,它是这样的:

故意创建具有大量重复内容的多个页面、子域或域。

发布大量抓取的内容

发布从亚马逊或其他网站抓取的附属内容(不增加额外价值)

然而,正如上面所讨论的,重复的内容仍然会伤害seo——即使没有惩罚。

重复内容的常见原因

造成重复内容的原因并不单一。有很多。

在上雕琢平面/过滤导航

分面导航是用户可以过滤和排序页面上的项目的地方。电子商务网站经常使用它。

这种导航将参数附加到URL的末尾。

由于这些过滤器通常有多种组合,分面导航通常会导致大量重复或近乎重复的内容。

例如,看看这两页:

bbclothing.co.uk / en /服装/ shirts.html吗?new_style =检查bbclothing.co.uk / en /服装/ shirts.html吗?大小= S&new_style =检查

url是唯一的,但内容几乎是相同的。

另外,参数的顺序通常并不重要。例如,同一个页面可以通过以下两个url访问:

bbclothing.co.uk / en /服装/ shirts.html吗?new_style = Checked&Size = XL bbclothing.co.uk / en /服装/ shirts.html吗?大小= XL&new_style =检查

如何解决这个问题

分面导航是一个复杂的庞然大物。如果您怀疑这是导致重复内容问题的原因,请阅读本文。

跟踪参数

参数化url也用于跟踪目的。例如,您可以使用UTM参数来跟踪b谷歌Analytics中的时事通讯活动的访问量:

例如:example.com/page ? utm_source =通讯

如何解决这个问题

将您的参数化url规范化为seo友好的版本,而无需跟踪参数。

会话id

会话id存储有关访问者的信息。它们通常会在URL后面添加一个长字符串,如下所示:

例如:example.com ? sessionId = jow8082345hnfn9234

如何解决这个问题

将url规范化为对seo友好的版本。

HTTPS vs. HTTP,非www vs. www

大多数网站都可以通过以下四种方式访问:

https://www.example.com (HTTPS, www)

https://example.com (HTTPS,非www)

http://www.example.com (HTTP, www)

http://example.com (HTTP,非www)

如果您使用HTTPS,它将是前两个之一。无论是www还是非www版本都是您的选择。

但是,如果您没有正确配置服务器,您的站点将可以在其中两个或更多的变体中访问。这并不好,可能会导致重复的内容问题。

如何解决这个问题

使用重定向来确保你的网站只能在一个地方访问。

区分大小写的url

谷歌将url视为区分大小写的。

旁注。Bing似乎不是这样,它将所有url都视为小写。

这意味着这三个url都是不同的:

example.com/page

example.com/PAGE

example.com/pAgE

如何解决这个问题

保持内部链接的一致性(即,不要在内部链接到多个版本的url)。如果这不能解决问题,您总是可以规范化或重定向。

尾斜杠与非尾斜杠

谷歌将带斜杠和不带斜杠的url视为唯一的。这意味着这两个url在谷歌的眼中是唯一的:

example.com/page/

example.com/page

如果两个url都可以访问您的内容,那么可能会导致重复内容问题。

要检查这是否是一个问题,请尝试加载带有或不带有尾斜杠的页面。理想情况下,只加载一个版本。另一个会重定向。

例如,如果你试图加载这篇文章而不使用斜杠,它将重定向到带有斜杠的URL。

谷歌声明这种行为是理想的。

如果只能返回一个版本(即另一个重定向到它),那就太好了!这种行为是有益的,因为它减少了重复的内容。

如何解决这个问题

将不需要的版本(例如,不带尾斜杠)重定向到需要的版本(例如,带尾斜杠)。你还应该确保与内部链接保持一致。不要有时链接到带有斜杠的版本,有时没有。选择一个并坚持下去。

Print-friendly url

打印友好版本具有与原始版本相同的内容。只有URL不同。

example.com/page

example.com/print/page

如何解决这个问题

将打印友好版本标准化为原始版本。

友好的url

移动友好的url和打印友好的url一样,都是重复的。

example.com/page

m.example.com/page

如何解决这个问题

将适合移动设备的版本标准化。使用rel= “ alternate “告诉谷歌移动友好的URL是桌面内容的替代版本。

推荐阅读:桌面和移动url的注释

AMP url

加速移动页面(AMP)是重复的。

example.com/page

example.com/amp/page

如何解决这个问题

将AMP版本规范化为非AMP版本。使用rel=“amphtml“告诉谷歌AMP URL是非AMP内容的替代版本。

如果只有AMP内容,请使用自引用规范标记。

推荐阅读:让你的页面可被发现- amp.dev

标签和类别页面

当您使用标签时,大多数CMS都会创建专用的标签页面。

例如,如果你有一篇关于有机乳清蛋白的文章,你同时使用“蛋白粉”和“乳清”作为标签,那么你最终会得到这样两个标签页面:

https://www.caltonnutrition.com/tag/whey/

https://www.caltonnutrition.com/tag/protein-powder/

这本身并不总是会导致重复的内容,但它可以。

这里的情况就是这样,因为网站上只有一个页面有这两个标签,所以每个标签页面都是相同的。

如何解决这个问题

两个选择:

不要使用标签。大多数时候,它们几乎没有价值。

不要索引你的标签页。这并不能解决抓取预算的问题,因为谷歌仍然会浪费时间抓取这些页面。

请注意,类别页面可能会导致与标记页面类似的问题。举个例子:

https://www.xs-stock.co.uk/adidas/

https://www.xs-stock.co.uk/brands/Chelsea-FC.html

这两个页面几乎是相同的,因为在任何一个类别下都没有列出产品。所以我们剩下的就是样板模板副本了。

解决这个问题的方法是在你的网站上使用合理数量的分类,或者甚至不索引你的分类页面。

附件图片网址

许多CMS为图像附件创建了专门的页面。这些页面通常只显示图片和一些样板文件。

由于该副本在所有自动生成的页面上都是相同的,因此会导致重复的内容。

如何解决这个问题

在CMS中禁用图像专用页面。在WordPress中,你可以使用像Yoast这样的插件来做到这一点。

分页的评论

WordPress和其他CMS允许分页评论。这会导致重复的内容,因为它有效地创建了相同url的多个版本。

example.com/post/

example.com/post/comment-page-2

example.com/post/comment-page-3

如何解决这个问题

关闭评论分页或者使用像Yoast这样的插件不索引你的分页页面。

本地化

如果您向使用相同语言的不同地区的用户提供类似的内容,那么这可能会导致重复内容。

例如,您可能为美国、英国和澳大利亚的用户提供不同版本的站点。因为提供给每个地区的内容之间可能只有很小的差异(例如,以美元和英镑计算的价格),所以这些版本将几乎是重复的。

旁注。根据约翰·穆勒的说法,翻译的内容不是重复的内容。如何解决这个问题

使用标签来告诉搜索引擎变体之间的关系。

搜索结果页面

很多网站都有搜索框。使用这些通常会将您带到一个参数化的搜索URL。

示例:example.com ? q =搜索词汇

b谷歌的前Webspam负责人Matt Cutts表示:

通常,网络搜索结果不会给用户增加价值,因为我们的核心目标是尽可能提供最好的搜索结果,所以我们通常会将搜索结果排除在我们的网络搜索索引之外。(当然,并非所有包含“/results”或“/search”之类内容的url都是搜索结果。) Matt Cutts, Webspam b谷歌的前负责人

如何解决这个问题

使用robots元标记从谷歌的索引中删除搜索页面或阻止访问robots.txt中的搜索结果页面。避免内部链接到搜索结果页面。

登台环境

登台环境是用于测试目的的站点的副本或近似副本版本。

例如,假设你想在你的网站上安装一个新的插件或修改一些代码。你可能不想把它直接推送到一个每天有数十万访问者的网站上。发生灾难的风险太高了。解决方案是首先在登台环境中测试更改。

当谷歌对登台环境进行索引时,登台环境就会成为一个SEO问题,因为它会导致重复的内容。

如何解决这个问题

使用HTTP身份验证、IP白名单或VPN访问保护您的登台环境。如果它已经被索引了,使用robots noindex指令将其删除。

如何检查网站上的重复内容

转到SEO研究院网站审核,开始抓取。

https://www.youtube.com/watch?v=LjinWqfGyVE

完成后,转到内容质量报告。

寻找没有规范的重复和近似重复的集群。这些用橙色突出显示。

单击这些集群中的任何一个以查看受影响的页面。

调查重复内容的原因,然后采取适当的措施。

请注意,这些并不总是需要纠正的问题,特别是在接近重复的情况下。

不是SEO研究院用户?

在谷歌搜索控制台中查找这些与重复内容相关的警告:

没有用户选择规范的副本

重复,谷歌选择的规范与用户不同

重复,提交的URL没有被选为规范

在这里了解更多关于如何处理这些警告的信息。

要查看谷歌如何处理特定的URL,请使用URL检查工具。

还可以在HTML标记报告中检查重复的标题标记、元描述和h1。

你要找的就是劣质复制品。这些页面有重复的元标签,但标准不同。

通过点击HTML标签和内容下的“坏重复”切换来选择这些。

单击任何黄色条查看受影响的页面。

具有重复标题、元描述或H1的页面通常非常相似。

例如,这两个有相同的标题标签,内容几乎相同,因为产品是相同的。唯一的区别是,其中一页是3包即时点燃的木柴,而另一页只有一个。

https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-3-pack-camp-fire-fuel/

https://www.xs-stock.co.uk/big-k-instant-light-the-wrapper-firelog-camp-fire-chiminea/

谷歌指出,你应该尽量减少类似的内容,像这样:

如果您有许多相似的页面,请考虑扩展每个页面或将页面合并为一个页面。

然而,少量类似的页面不太可能是一个大问题。

如何检查整个网络的重复内容问题

内容抓取和联合也可能导致重复的内容问题。但只有当你看到你的内容被抄袭的版本排名高于你的时候,这才会成为一个问题。

这种情况会发生吗?是的,但这通常是一个新网站或弱网站的问题。为什么?因为抓取你内容的网站往往更权威。这有时会“欺骗”谷歌,使其认为他们的是原版。

如果你有一个小网站,那么你经常可以通过搜索谷歌来找到你页面上的文本片段。

对于较大的站点,您需要使用Copyscape之类的自动化工具。它会搜索网页上其他出现的内容。

无论使用哪种方法,大多数结果都来自垃圾和低质量的网站。

一般来说,这些都没什么好担心的。然而,如果你发现一个合法的网站抓取了你的内容,并担心它可能会窃取你的流量,把URL扔进SEO研究院的网站浏览器,看看自然流量估计。

如果它比你的页面获得更多的流量,那么可能有问题。

在这种情况下,您有三个选项:

联系并要求他们删除这些内容。

联系并要求他们在你的网站上为原文添加一个规范的链接。

通过谷歌提交DMCA删除请求。

如果你有意将内容联合到其他网站,那么要求他们添加到原始内容的规范链接是值得的。这将消除重复内容问题的风险。

在你自己的网站上重新发布内容?

如果你在你的网站上重新发布别人的内容,有两种方法可以防止重复的内容问题:

回归到原作。

不要索引该页。

最终的想法

不要过分强调重复的内容。它通常比人们想象的要小得多。

如果您有少量重复或近乎重复的页面,则不太可能有太大的问题。引用其他网站或您网站上其他页面的内容也是如此。少量的重复或样板内容应该是可以的。谷歌有适当的系统来处理这些事情。

你需要注意的是技术上的搜索引擎优化失误,它会导致数百或数千页的重复内容的产生,比如电子商务网站上分面导航的不正确实现。

这些会严重影响你的爬行预算。

如果你被重复的内容所困扰,请在评论或推特上告诉我。

相关文章:

  • 什么是自然搜索?关于自然搜索你需要知道的一切
  • 10个有效的潜在客户生成策略(案例)
  • 如何将你的网站提交到谷歌搜索
  • 7个有用的营销技巧 帮助我在职业生涯中茁壮成长
  • 如何成为一名SEO自由职业者-从业10多年的经验教训
  • 如何找到竞争对手的关键词
  • 2024年必应搜索最热门的100个关键词汇总
  • 2024年YouTube最热门的100个搜索关键词
  • 2024年亚马逊最热门的100个搜索关键词
  • 网站制作论坛/拓客软件排行榜
  • 做外贸的网站b2c/seo扣费系统
  • 温州 建网站的公司 新/百度广告费用