今天,我们对数据库的搜索量准确性进行了改进。这篇文章解释了我们如何做到这一点的技术细节。
如何衡量搜索量的准确性
为了使我们的搜索量预测算法尽可能准确,我们必须找到一种方法来衡量我们是否在目标上。
为了实现这一目标,我们需要:
选择一个尽可能接近真实体积的量数据源,并将其用作基准值
清除选定源中的数据,以避免不相关和垃圾
确保关键字的选择在小批量查询(长尾关键字)、大批量查询和中等批量查询中均匀分布
在我们验证了关键字的选择之后,我们进行了研究,看看Semrush与Moz, Ahrefs, serstat, Sistrix,谷歌Keyword Planner相比,在提供准确的搜索量方面是如何的。
我们如何选择基准数据源
在采访了50多位经验丰富的seo之后,我们的共识很明确:专家们认为最准确的搜索量来源是谷歌搜索控制台(GSC)。
因为我们的小组非常自信,而且因为GSC包含直接来自谷歌的真实数据,所以我们一致认为GSC可以很好地作为我们的基准。虽然GSC中没有“搜索量”指标,但有一个相近的指标:印象。
我们使用这个指标是有保留的,因为,正如这里所说的,印象与数量不同。印象是指人们在b谷歌上看到你网站链接的频率。根据结果类型,链接可能需要滚动或展开到视图中。”
虽然印象和音量不同,但也有相似之处。
如果每个输入查询的人都能立即看到你的域名的位置(无需在桌面或移动结果上滚动),那么在大多数情况下,印象量将等于访问量。
可见位置的100次显示≈100次总搜索。
基于这种关系,我们可以说印象是比较研究的有效参考搜索量来源。
从GSC中过滤数据并准备关键字样本
感谢我们的一些好心的用户,我们有许多人同意与我们分享他们的匿名GSC数据进行比较研究。我们最终得到了一组url -关键字平均位置绑定,就像我们在GSC的Pages报告中看到的那样。
因为不是每个绑定都有保证可见的平均位置(前3位),所以我们不能使用每个关键字进行比较。因此,我们必须清理我们拥有的数据。
为了清理数据集,我们删除了:
url在GSC中的平均位置在前三名之外的关键字,只留下在SERP中立即可见的最高机会的url
商业和交易关键字在SERP上包含了太多的广告,以至于有机结果不能立即可见
其他关键字的SERP布局在滚动之前没有显示在用户屏幕(桌面或移动设备)的可见区域的有机位置
确保样本中关键字特征的均匀分布
在前一阶段,我们收集了1M个关键词样本,从中我们要选择10000个关键词进行研究。为了使最终的样本无偏和准确,我们需要确保特征的均匀分布。
我们对样本进行了微调,使其包含相等比例的:
关键词来自不同的卷组(从低到高的5个桶)
关键词包含不同数量的单词、主题、意图和其他参数。
例如,我们将数据分成5个月度印象区间,每个区间的印象数相等:
1 ~ 100
101至1000
1,001至10,000
10,001至100,000
从100001 +
我们对其余的参数做了同样的处理,将样本划分为相等的范围。
最后,我们确保10,000对于这种类型的样本来说是足够的大小。我们确认是因为,在基于上述参数的关键字分布相同的情况下,更大的关键字集合仍然带来相同的结果。
我们上面描述的过程允许我们创建一个公正的,统一的样本,准确地反映了每个工具的质量和覆盖率的真实情况。
在新算法的开发过程中,我们连续几个月重复这样的比较,每次都得到相同的结果,证明了它的性能稳定。
我们非常喜欢比较的结果,因此我们在数据收集管道中定期增加了对数据库的质量检查。现在,通过每月更新,我们有信心为您提供最好的数量数据。