工作室有专门的网站/seo网站优化平台-黄石网站建设

在本文中，我概述了一种识别重复内容元素的方法，以提高列表页面的质量和重点。这对于提高谷歌排名是必不可少的，从而使潜在客户快速找到他们想要的东西，并实现销售转化。此过程包含空的和低质量的分类法，例如产品列表页面、博客类别和标记。

电子商务企业通常有多个产品、类别和子类别，其中许多都不会增加价值。最好有少量的目标页面，这些页面根据相关查询进行排名，从而使潜在客户找到你的产品，并相信你是一个可靠的商家。下面是一个商店的例子，其中类别页面只包含一种产品，而不是一系列口腔卫生用品。搜索客户的选择有限，他们可能会在其他地方搜索。

https://www.argos.co.uk/browse/health-and-beauty/dental-care/teeth-whitening/c:29234/

同样的道理也适用于博客网站。发布者一个月可以根据不同的兴趣领域创建许多文章。然而，内容有限的低价值页面将很难在潜在受众搜索的术语中排名，因此不会吸引潜在客户。下面是一个只有两个帖子的例子。更糟糕的是，相同的文章被分配了许多分类，导致潜在的重复。

https://contentmarketinginstitute.com/tertiary-category/branded-content/

正如您所看到的，电子商务列表页面和存档页面都包含很少的内容，这对任何人都没有帮助。这些例子说明了为什么你应该检查你的网站，并确保你没有类似的东西。

复制很容易

如果你有一个在线商业或博客网站，生成重复或低价值的页面是很容易的；如果你的网站不经常被审计，这一点尤其正确。因此，当在你的网站上发布文章或产品时，我推荐以下简单的检查清单：

你给你的新职位/产品分配了多少类别？

你给你的文章/产品添加了多少标签？

你检查标签的拼写了吗？你是否保持了它们的一致性，比如单复数，如果有多个单词，使用连字符等等？

你们对编辑和电子商务经理进行培训了吗？

你有一个可靠的分类法策略吗？

你是否进行了扎实的关键词研究？

我审计过的许多网站都没有这样做。这就是为什么在本文中，我描述了一种方法，它将帮助您找到内容很少或没有内容的存档或列表页面（无论是帖子还是产品），并定义解决这个问题所需的操作。

副本可以自动生成很容易

很容易无意识地生成重复和低质量的页面，特别是在像WordPress这样的博客平台上，给帖子分配类别或标签是一键操作。我在审核网站时经常发现自动生成的副本。如果放任不管，它们可能是有害的。

带有多个相似标签和类别的博客文章会自动为每个标签生成存档。自动生成页面也出现在内容量很大或网站有几年历史的时候。

计划外重复分类法的后果包括：

生成具有相同内容的存档，从而产生重复的页面

缺乏网页优化

只包含少量内容的页面

提供糟糕的用户体验

发布潜在的内容蚕食问题

强制b谷歌（和其他搜索引擎）选择其他网站上的页面

这样做的结果是更少的自然流量转化为潜在的销售。

在发布新内容时，您应该组织您的站点以提供最好的主题相关信息。您创建或自动生成的每个页面都应该有自己独特的目标。

有多种方法可以做到这一点，这超出了本文的范围。有用的例子包括主题集群、网站架构、网站架构、内部链接、创建筒仓、架构问题等等。

这到底是什么意思？

以数字营销博客为例，重点关注3个广泛使用的标签：“数字营销”、“谷歌广告”和“社交媒体”。

下面是你可以在你的标签仪表板中找到的一个例子：

数字营销domain.com/tag/digitalmarketing domain.com/tag/digital-marketing

谷歌广告domain.com/tag/googleads domain.com/tag/google-ads domain.com/tag/adwords domain.com/tag/ad-words domain.com/tag/googleadwords domain.com/tag/google-adwords

社交媒体domain.com/tag/social domain.com/tag/socialmedia domain.com/tag/social-media domain.com/tag/socialmediamarketing domain.com/tag/social-media-marketing

每个标签页面包含的内容很少，流量很低，不能为读者提供太多价值，还会产生内容蚕食问题。

用你的策略进行审计

一个有1000个帖子的网站有几千个分类页面是很常见的。根据你网站的规模，你应该考虑潜在的抓取预算问题。您的目标是确保谷歌清楚地了解每个页面是关于什么的，而不是让它的算法在多个页面之间做出决定。内容策略是必不可少的，你的网站应该用经过扎实的关键词研究后创建的新帖子来组织。

在对你的网站进行审计时，问下面列出的问题是一个起点：

档案是否有关键词研究的支持？

他们的目标是什么？

存档页面是定制的还是只提供标题列表？

请注意，重命名、合并或删除分类法页面可能会影响站点结构。这也会影响内容和技术元素，并产生破碎的页面或内部重定向。

从技术角度来看，改变将文章分配给分类法的方式会减少url的数量，并由于分页顺序的减少而生成破碎的页面——这是应该避免的。

那么，如何处理分类法呢？你应该301重定向他们吗？应该将它们从谷歌索引中删除吗？爬行预算呢？

从内容和业务的角度来看，存档页面提供任何价值吗？他们有反向链接吗？它们是否产生了转化或流量？你在SEO审计中发现的网站范围内的重复内容主要与存档页面有关吗？在做决定时应该考虑这些问题，因为每个行动都会影响到其他元素。

尽管我非常相信内容删减，但每个选择都应该是更大战略的一部分。

应该采取的步骤

您如何识别低价值的存档页面，为决策者提供相关的见解，并采取行动？

SEMrush提供了对重复页面的洞察，这是这个过程的第一步。

SEMrush站点审计工具

为了进行更深入的研究，您可以通过识别常见的模式、指纹和HTML元素来收集更多的数据，这些元素可以增强您对问题的理解。

我建议使用一种名为XPath的语言，它有助于在XML文档中选择值、变量和特定元素的位置。如果您不熟悉这种语言，我建议您阅读Builtvisible的SEO XPath指南，了解它如何在不同的上下文中发挥作用。

然后使用一个工具来抓取你的网站并提取选定的元素。我最喜欢的是尖叫青蛙的网页抓取工具。

现在让我们看看如何识别这些元素，配置尖叫青蛙，并提取做出正确决策所需的信息。

1)识别共同元素

首先，找到指纹并提取出来。

这些元素是HTML标记、资源和其他模式，它们允许您在检查的每个页面的特定区域中识别指纹。这使您能够收集这些元素，并找到可以改进的异常或常见模式。

包含和排除url

因为您不想被太多的数据淹没，所以只抓取与包含您识别的指纹的页面相匹配的url。这样做决定了页面的结构，并定义了抓取和不抓取的内容。

文件夹、单词和其他模式是应该包含的常见元素。下面我列举了几个例子：

domain.com/element/page

domain.com/tag/post

domain.com/category/product

domain.com/product-category/product

排斥也是爬行的一个关键方面。在本例中，分页序列不重要。实际上，如果归档被分页，则已经达到了帖子（或产品）的最小数量。你也不想抓取你的整个网站，因为它会消耗资源，花费时间，收集太多的数据。

要排除的页面可以包括：/page/ ?page这样的模式，这意味着存档有多个页面。

H1或标题标签

这些元素标识分类法名称（或标题），并且在分页序列中应该是唯一的。

在执行审计时，应该注意解决偶然发现的任何其他潜在问题。所以，如果你找不到H1标题，这是一个你可以快速修复的问题，因为H1应该定义页面的主要关键字/主题。

文章标题/产品名称

帖子的标题（或产品的名称）是标识存档中列表的主要唯一元素。请注意此组件以构建指纹列表。

页面上文章的数量

该元素计算存档页面包含的文章（或产品）的数量。这是这项工作的一个关键方面，因为它可以让您轻松地概述需要审查的类别，因为它们缺乏内容或产品。

2)在XPath查询中查找和翻译HTML指纹

接下来，您应该耐心地检查上述元素并注意HTML源代码。您可以使用谷歌Chrome DevTools或刮类似的Chrome扩展。正如前面提到的，SEO的XPath指南可以帮助您找到所有元素，以及这个备忘单。

谷歌Chrome DevTools

抓取类似的Chrome扩展

示例：为了将理论转化为实践，我为您审核了三个网站，识别了上述指纹，选择了HTML源代码中的元素，并将它们转换为XPath查询。

通过这些示例，您将能够看到类别页面是否缺少内容，仅分配了几篇文章（content Marketing Institute和SEMrush博客），以及产品列表页面是否包含很少的产品（Argos）。

在查看了每个元素及其XPath查询之后，就可以配置scream Frog了。以下是这三个例子的要素：

内容营销协会- https://contentmarketinginstitute.com标题标签：/ html/head/ Title H2标签链接：// H2 /a每页文章数：count（//div[@3] - Configure -scream - Frog “>3）配置尖叫青蛙

现在是时候配置尖叫青蛙了。

转到Configuration > Custom > Extraction并配置XPath元素。

添加Include和Exclude路径模式。

4)抓取你的网站

配置现在已经完成。从链接“Include”配置中的URL模式的任何页面运行抓取。如果您的主页无法访问博客类别或产品列表页面，请选择另一个起点，或者选择分类法页面本身。

5)分析提取

一旦爬行完成，检查尖叫青蛙的自定义标签，并选择“提取”过滤器。您将看到抓取的url、分类法的Title/H1以及帖子的标题或产品的名称。在这一行的末尾，您会发现同一页面中包含的文章（或产品）的数量。

导出该文件以帮助分析您的抓取，以查找重复的分类法、内容少、类似的url等。

6)确定可操作元素

一旦所有的分析都完成了，根据你的策略来完成这个过程。

因为每个项目都有自己的变量、目标和资源，所以我不能给出一个“一刀切”的方法。

我在下面列出了一些问题，以帮助您实现流量和业务目标，并确定关键因素：

你发现分类比帖子还多吗？

你是否发现类别的帖子数量非常有限或根本没有帖子？

你能把这些页面定义为重复的内容吗？

分类法有相似的名称吗？

存档页面是否有相似的名称、单数/复数版本、连字符/非连字符？

这些分类法可以合并吗？

列表页面有用吗？还是可以删除所有页面？

这些页面对定义网站结构有帮助吗？

你应该根据关键词研究改变URL/标题吗？

页面是否对任何相关查询进行排名？

你能优化上市页面带来更多价值，提高转化率和排名吗？

连接尖叫青蛙b谷歌分析和谷歌搜索控制台，这些页面得到流量吗？来源是什么？

连接尖叫青蛙雄伟，Ahrefs或蚊子，这些页面得到相关的反向链接吗？

这些页面是否有助于引导转换？

你是否应该在成功的列表页面中添加更多的产品或内容？

你应该在你的产品列表页面中添加更多的库存吗？

你能找到多少“即将到货”和“缺货”的产品？

你能找到很少或没有评论的产品并实施相关的策略吗？

你能说明变更为什么以及如何实现你的业务目标吗？

结论

SEO审计是任何企业确保您的网站与您的业务目标一致的第一步。

识别和删除重复内容对于关键字排名、提高网站质量以及将新吸引的流量转化为销售和潜在客户至关重要。

参考文献

尖叫青蛙的XPath语法自定义提取：使用SEO蜘蛛工具进行XPath和CSSPath网络抓取和数据提取

相关文章：