在本文中,我概述了一种识别重复内容元素的方法,以提高列表页面的质量和重点。这对于提高谷歌排名是必不可少的,从而使潜在客户快速找到他们想要的东西,并实现销售转化。此过程包含空的和低质量的分类法,例如产品列表页面、博客类别和标记。
电子商务企业通常有多个产品、类别和子类别,其中许多都不会增加价值。最好有少量的目标页面,这些页面根据相关查询进行排名,从而使潜在客户找到你的产品,并相信你是一个可靠的商家。下面是一个商店的例子,其中类别页面只包含一种产品,而不是一系列口腔卫生用品。搜索客户的选择有限,他们可能会在其他地方搜索。
https://www.argos.co.uk/browse/health-and-beauty/dental-care/teeth-whitening/c:29234/
同样的道理也适用于博客网站。发布者一个月可以根据不同的兴趣领域创建许多文章。然而,内容有限的低价值页面将很难在潜在受众搜索的术语中排名,因此不会吸引潜在客户。下面是一个只有两个帖子的例子。更糟糕的是,相同的文章被分配了许多分类,导致潜在的重复。
https://contentmarketinginstitute.com/tertiary-category/branded-content/
正如您所看到的,电子商务列表页面和存档页面都包含很少的内容,这对任何人都没有帮助。这些例子说明了为什么你应该检查你的网站,并确保你没有类似的东西。
复制很容易
如果你有一个在线商业或博客网站,生成重复或低价值的页面是很容易的;如果你的网站不经常被审计,这一点尤其正确。因此,当在你的网站上发布文章或产品时,我推荐以下简单的检查清单:
你给你的新职位/产品分配了多少类别?
你给你的文章/产品添加了多少标签?
你检查标签的拼写了吗?你是否保持了它们的一致性,比如单复数,如果有多个单词,使用连字符等等?
你们对编辑和电子商务经理进行培训了吗?
你有一个可靠的分类法策略吗?
你是否进行了扎实的关键词研究?
我审计过的许多网站都没有这样做。这就是为什么在本文中,我描述了一种方法,它将帮助您找到内容很少或没有内容的存档或列表页面(无论是帖子还是产品),并定义解决这个问题所需的操作。
副本可以自动生成很容易
很容易无意识地生成重复和低质量的页面,特别是在像WordPress这样的博客平台上,给帖子分配类别或标签是一键操作。我在审核网站时经常发现自动生成的副本。如果放任不管,它们可能是有害的。
带有多个相似标签和类别的博客文章会自动为每个标签生成存档。自动生成页面也出现在内容量很大或网站有几年历史的时候。
计划外重复分类法的后果包括:
生成具有相同内容的存档,从而产生重复的页面
缺乏网页优化
只包含少量内容的页面
提供糟糕的用户体验
发布潜在的内容蚕食问题
强制b谷歌(和其他搜索引擎)选择其他网站上的页面
这样做的结果是更少的自然流量转化为潜在的销售。
在发布新内容时,您应该组织您的站点以提供最好的主题相关信息。您创建或自动生成的每个页面都应该有自己独特的目标。
有多种方法可以做到这一点,这超出了本文的范围。有用的例子包括主题集群、网站架构、网站架构、内部链接、创建筒仓、架构问题等等。
这到底是什么意思?
以数字营销博客为例,重点关注3个广泛使用的标签:“数字营销”、“谷歌广告”和“社交媒体”。
下面是你可以在你的标签仪表板中找到的一个例子:
数字营销domain.com/tag/digitalmarketing domain.com/tag/digital-marketing
谷歌广告domain.com/tag/googleads domain.com/tag/google-ads domain.com/tag/adwords domain.com/tag/ad-words domain.com/tag/googleadwords domain.com/tag/google-adwords
社交媒体domain.com/tag/social domain.com/tag/socialmedia domain.com/tag/social-media domain.com/tag/socialmediamarketing domain.com/tag/social-media-marketing
每个标签页面包含的内容很少,流量很低,不能为读者提供太多价值,还会产生内容蚕食问题。
用你的策略进行审计
一个有1000个帖子的网站有几千个分类页面是很常见的。根据你网站的规模,你应该考虑潜在的抓取预算问题。您的目标是确保谷歌清楚地了解每个页面是关于什么的,而不是让它的算法在多个页面之间做出决定。内容策略是必不可少的,你的网站应该用经过扎实的关键词研究后创建的新帖子来组织。
在对你的网站进行审计时,问下面列出的问题是一个起点:
档案是否有关键词研究的支持?
他们的目标是什么?
存档页面是定制的还是只提供标题列表?
请注意,重命名、合并或删除分类法页面可能会影响站点结构。这也会影响内容和技术元素,并产生破碎的页面或内部重定向。
从技术角度来看,改变将文章分配给分类法的方式会减少url的数量,并由于分页顺序的减少而生成破碎的页面——这是应该避免的。
那么,如何处理分类法呢?你应该301重定向他们吗?应该将它们从谷歌索引中删除吗?爬行预算呢?
从内容和业务的角度来看,存档页面提供任何价值吗?他们有反向链接吗?它们是否产生了转化或流量?你在SEO审计中发现的网站范围内的重复内容主要与存档页面有关吗?在做决定时应该考虑这些问题,因为每个行动都会影响到其他元素。
尽管我非常相信内容删减,但每个选择都应该是更大战略的一部分。
应该采取的步骤
您如何识别低价值的存档页面,为决策者提供相关的见解,并采取行动?
SEMrush提供了对重复页面的洞察,这是这个过程的第一步。
SEMrush站点审计工具
为了进行更深入的研究,您可以通过识别常见的模式、指纹和HTML元素来收集更多的数据,这些元素可以增强您对问题的理解。
我建议使用一种名为XPath的语言,它有助于在XML文档中选择值、变量和特定元素的位置。如果您不熟悉这种语言,我建议您阅读Builtvisible的SEO XPath指南,了解它如何在不同的上下文中发挥作用。
然后使用一个工具来抓取你的网站并提取选定的元素。我最喜欢的是尖叫青蛙的网页抓取工具。
现在让我们看看如何识别这些元素,配置尖叫青蛙,并提取做出正确决策所需的信息。
1)识别共同元素
首先,找到指纹并提取出来。
这些元素是HTML标记、资源和其他模式,它们允许您在检查的每个页面的特定区域中识别指纹。这使您能够收集这些元素,并找到可以改进的异常或常见模式。
包含和排除url
因为您不想被太多的数据淹没,所以只抓取与包含您识别的指纹的页面相匹配的url。这样做决定了页面的结构,并定义了抓取和不抓取的内容。
文件夹、单词和其他模式是应该包含的常见元素。下面我列举了几个例子:
domain.com/element/page
domain.com/tag/post
domain.com/category/product
domain.com/product-category/product
排斥也是爬行的一个关键方面。在本例中,分页序列不重要。实际上,如果归档被分页,则已经达到了帖子(或产品)的最小数量。你也不想抓取你的整个网站,因为它会消耗资源,花费时间,收集太多的数据。
要排除的页面可以包括:/page/ ?page这样的模式,这意味着存档有多个页面。
H1或标题标签
这些元素标识分类法名称(或标题),并且在分页序列中应该是唯一的。
在执行审计时,应该注意解决偶然发现的任何其他潜在问题。所以,如果你找不到H1标题,这是一个你可以快速修复的问题,因为H1应该定义页面的主要关键字/主题。
文章标题/产品名称
帖子的标题(或产品的名称)是标识存档中列表的主要唯一元素。请注意此组件以构建指纹列表。
页面上文章的数量
该元素计算存档页面包含的文章(或产品)的数量。这是这项工作的一个关键方面,因为它可以让您轻松地概述需要审查的类别,因为它们缺乏内容或产品。
2)在XPath查询中查找和翻译HTML指纹
接下来,您应该耐心地检查上述元素并注意HTML源代码。您可以使用谷歌Chrome DevTools或刮类似的Chrome扩展。正如前面提到的,SEO的XPath指南可以帮助您找到所有元素,以及这个备忘单。
谷歌Chrome DevTools
抓取类似的Chrome扩展
示例:为了将理论转化为实践,我为您审核了三个网站,识别了上述指纹,选择了HTML源代码中的元素,并将它们转换为XPath查询。
通过这些示例,您将能够看到类别页面是否缺少内容,仅分配了几篇文章(content Marketing Institute和SEMrush博客),以及产品列表页面是否包含很少的产品(Argos)。
在查看了每个元素及其XPath查询之后,就可以配置scream Frog了。以下是这三个例子的要素:
内容营销协会- https://contentmarketinginstitute.com标题标签:/ html/head/ Title H2标签链接:// H2 /a每页文章数:count(//div[@3] - Configure -scream - Frog “>3)配置尖叫青蛙
现在是时候配置尖叫青蛙了。
转到Configuration > Custom > Extraction并配置XPath元素。
添加Include和Exclude路径模式。
4)抓取你的网站
配置现在已经完成。从链接“Include”配置中的URL模式的任何页面运行抓取。如果您的主页无法访问博客类别或产品列表页面,请选择另一个起点,或者选择分类法页面本身。
5)分析提取
一旦爬行完成,检查尖叫青蛙的自定义标签,并选择“提取”过滤器。您将看到抓取的url、分类法的Title/H1以及帖子的标题或产品的名称。在这一行的末尾,您会发现同一页面中包含的文章(或产品)的数量。
导出该文件以帮助分析您的抓取,以查找重复的分类法、内容少、类似的url等。
6)确定可操作元素
一旦所有的分析都完成了,根据你的策略来完成这个过程。
因为每个项目都有自己的变量、目标和资源,所以我不能给出一个“一刀切”的方法。
我在下面列出了一些问题,以帮助您实现流量和业务目标,并确定关键因素:
你发现分类比帖子还多吗?
你是否发现类别的帖子数量非常有限或根本没有帖子?
你能把这些页面定义为重复的内容吗?
分类法有相似的名称吗?
存档页面是否有相似的名称、单数/复数版本、连字符/非连字符?
这些分类法可以合并吗?
列表页面有用吗?还是可以删除所有页面?
这些页面对定义网站结构有帮助吗?
你应该根据关键词研究改变URL/标题吗?
页面是否对任何相关查询进行排名?
你能优化上市页面带来更多价值,提高转化率和排名吗?
连接尖叫青蛙b谷歌分析和谷歌搜索控制台,这些页面得到流量吗?来源是什么?
连接尖叫青蛙雄伟,Ahrefs或蚊子,这些页面得到相关的反向链接吗?
这些页面是否有助于引导转换?
你是否应该在成功的列表页面中添加更多的产品或内容?
你应该在你的产品列表页面中添加更多的库存吗?
你能找到多少“即将到货”和“缺货”的产品?
你能找到很少或没有评论的产品并实施相关的策略吗?
你能说明变更为什么以及如何实现你的业务目标吗?
结论
SEO审计是任何企业确保您的网站与您的业务目标一致的第一步。
识别和删除重复内容对于关键字排名、提高网站质量以及将新吸引的流量转化为销售和潜在客户至关重要。
参考文献
尖叫青蛙的XPath语法自定义提取:使用SEO蜘蛛工具进行XPath和CSSPath网络抓取和数据提取