大约一年半以前,我们为自己设定了一个目标。
我们的目标是为我们的客户建立最大、更新最快、质量最高的反向链接数据库,并在市场上优于领先的知名竞争对手。
现在我们已经达到了我们的目标,我们迫不及待地想让你自己测试一下!
你想知道我们究竟是如何建立这样一个数据库的吗?
我们在基础设施上进行了投资,将我们的工程师和数据科学家团队的30,000小时的工作,500多台服务器以及大约16,722杯咖啡结合在一起。
听起来很简单,对吧?
只要看看这篇博文就知道我们现在的速度有多快了。
新的和改进的反向链接数据库
首先,让我们谈谈什么是新的,然后我们将向您展示我们是如何实现的,以及我们解决了哪些问题。
随着存储的增加和三倍多的爬虫和我们的反向链接数据库现在有能力找到,索引和增长更多。
平均而言,我们现在正在爬行:
Semrush反向链接数据库是如何工作的
在深入了解改进的内容之前,让我们先了解一下反向链接数据库的基本操作。
首先,我们生成一个url队列,该队列决定提交哪些页面进行爬行。
然后我们的爬虫会去检查这些页面。当我们的爬虫识别出从这些页面指向互联网上另一个页面的超链接时,它们会保存该信息。
接下来,将有一个临时存储,在将所有这些数据转储到任何Semrush用户都可以在工具中看到的面向公共的存储之前,它将保存一段时间。
在我们的新版本中,我们实际上删除了临时存储步骤,增加了3倍的爬虫,并在队列之前添加了一组过滤器,因此整个过程更快更高效。
队列
简单地说,互联网上有太多的页面需要抓取。
有些需要更频繁地爬行,有些根本不需要爬行。因此,我们使用一个队列来决定提交url进行爬行的顺序。
在这个步骤中一个常见的问题是抓取太多相似的,不相关的url,这可能会导致人们看到更多的垃圾邮件和更少的唯一引用域。
我们做了什么?
为了优化队列,我们添加了过滤器,优先考虑独特的内容,更高权威的网站,并防止链接农场。因此,系统现在可以找到更多独特的内容,并生成更少的带有重复链接的报告。
它现在的工作方式有一些亮点:
为了保护我们的队列免受链接场的影响,我们检查是否有大量的域来自相同的IP地址。如果我们看到太多来自同一IP的域名,它们在队列中的优先级将被降低,允许我们从不同的IP抓取更多的域名,而不会被困在链接场上。
为了保护网站,避免类似的链接污染我们的报告,我们检查是否有太多来自同一域名的url。如果我们在同一个域中看到太多的url,它们将不会在同一天全部被抓取。
为了确保我们尽快抓取新鲜页面,我们之前没有抓取的任何url将有更多的优先级。
每个页面都有自己的哈希码,帮助我们优先抓取独特的内容。
我们考虑源页面上生成新链接的频率。
我们考虑网页和域名的权威评分。
如何改进队列:
10+不同的因素过滤掉不必要的链接。
由于新的质量控制算法,更多独特和高质量的页面。
爬虫
我们的爬虫遵循内部和外部链接在互联网上搜索新的网页与链接。因此,我们只能找到一个页面,如果它有传入的链接。
在回顾我们以前的系统时,我们看到了一个增加整体抓取能力和找到更好内容的机会——网站所有者希望我们抓取和索引的内容。
我们做了什么?
我们的爬虫数量增加了三倍(从10个增加到30个)。
停止抓取url参数不影响页面内容的页面(&sessionid, UTM等)。
增加了阅读和遵守网站上robots.txt文件指令的频率。
爬虫是如何改进的:
更多的爬虫(现在有30个!)
清理数据没有垃圾或重复链接
更善于找到最相关的内容
爬行速度为每天250亿页
存储
存储是我们保存作为Semrush用户可以看到的所有链接的地方。此存储将在工具中向您显示链接,并提供过滤器,您可以应用这些过滤器来查找您要查找的内容。
我们对旧存储系统的主要担忧是,它只能在更新时完全重写。这意味着每隔2-3周就要重写一次,整个过程将重新开始。
因此,在更新期间,中间存储中积累了新的链接,从而导致工具对用户的可见性延迟。我们想看看能否在这一步提高速度。
我们做了什么?
为了改进这一点,我们从头开始重写了架构。为了消除对临时存储的需求,我们将服务器的数量增加了四倍多。
这花费了超过30000小时的工程时间来实现最新的技术。现在,我们有了一个可扩展的系统,无论现在还是将来都不会遇到任何限制。
如何改进存储:
服务器总数超过500台
287TB RAM内存
16128个CPU内核
总存储空间30pb
快速过滤和报告
即时更新-没有更多的临时存储
反向链接数据库研究
我们分两部分进行了一项研究,将我们的反向链接分析与Moz、Ahrefs和Majestic的速度进行了比较。
要了解我们的工具与市场上其他SEO工具相比运行速度究竟有多快,请阅读这篇博客文章。
我们是如此自豪的我们新的反向链接分析数据库,我们希望每个人都能体验到它所提供的一切。
试试吧,让我们知道你的想法!
欢迎来到动态反向链接管理的未来!