阅读几乎任何文章LSI关键词,你会告诉两件事:
谷歌使用一种称为LSI的技术来索引网页。
在您的内容中使用LSI关键字可以帮助您在b谷歌上排名更高。
这两种说法在技术上都是错误的。
在本指南中,您将了解为什么会这样以及如何处理它。
但首先,基本的…
网页搜索引擎优化新手?看看我们的网页搜索引擎优化新手指南
什么是LSI关键字?
LSI关键词是b谷歌认为与某个主题在语义上相关的单词和短语——至少在SEO社区中是这样。如果你在谈论汽车,那么LSI关键词可能是汽车,发动机,道路,轮胎,车辆和自动变速器。
但是,根据b谷歌的John Mueller, LSI关键字不存在:
没有所谓的LSI关键字——任何告诉你不是这样的人都错了,抱歉。——John (@JohnMu), 2019年7月30日
那么这是怎么回事呢?
在我们回答这个问题之前,我们首先需要更多地了解LSI本身。
什么是潜在语义索引(LSI)?
潜在语义索引(LSI)或潜在语义分析(LSA)是20世纪80年代发展起来的一种自然语言处理技术。
不幸的是,除非您熟悉特征值、向量和单值分解等数学概念,否则该技术本身并不那么容易理解。
因此,我们不会讨论大规模集成电路是如何工作的。
相反,我们将把重点放在创建它要解决的问题上。
以下是大规模集成电路的创造者如何定义这个问题:
搜索者使用的词通常与所搜索的信息被编入索引的词不同。
但这到底是什么意思呢?
比如说你想知道夏天什么时候结束,秋天什么时候开始。你的WiFi断了,所以你去老派找了本百科全书。而不是随机地浏览成千上万的页面,你在索引中查找“fall”,然后翻到正确的页面。
下面是你看到的:
显然,这不是你想了解的摔倒类型。
不是那么容易被打败的,你轻轻一翻,意识到你正在寻找的东西是在“秋天”的索引下——秋天的另一个名字。
这里的问题是“fall”是一个同义词和多义词。
什么是同义词?
同义词是指与另一个单词或短语意思相同或几乎相同的单词或短语。
例如rich和rich, fall和autumn,以及cars和automobile。
根据LSI的专利,下面是同义词存在问题的原因:
人们用来描述同一个物体或概念的词汇有很大的差异;这叫做同义词。处于不同语境中的用户,或者具有不同需求、知识或语言习惯的用户,会使用不同的术语来描述相同的信息。例如,有证据表明,任何两个人为一个众所周知的单一物体选择相同的主要关键字的几率平均不到20%。
但这与搜索引擎有什么关系呢?
假设我们有两个关于汽车的网页。两者是相同的,但有人用cars这个词的所有实例来代替automobile。
如果我们使用一个只索引页面上的单词和短语的原始搜索引擎,那么对于查询“cars”,它将只返回其中一个页面。
这很糟糕,因为两个结果都是相关的;只是用另一种方式描述了我们要找的东西。使用单词automobile而不是cars的页面甚至可能是更好的结果。
底线:搜索引擎需要理解同义词以返回最佳结果。
什么是多义词?
多义词是指具有多种不同含义的词和短语。
例子包括老鼠(啮齿类动物/计算机),银行(金融机构/河岸)和光明(光/智能)。
根据大规模集成电路的创造者的说法,以下是这些问题产生的原因:
在不同的语境中,或者当不同的人使用同一个词时,它具有不同的参考意义(例如,“bank”在river bank中与“bank”在储蓄银行中)。因此,在搜索查询中使用术语并不一定意味着包含相同术语或被相同术语标记的文本对象是感兴趣的。
这些词给搜索引擎带来了与同义词相似的问题。
例如,假设我们搜索“apple computer”。我们的原始搜索引擎可能会返回这两个页面,即使其中一个显然不是我们要找的:
底线:不理解多义词不同含义的搜索引擎很可能返回不相关的结果。
LSI是如何工作的?
电脑是哑巴。
它们没有我们人类对单词关系的固有理解。
例如,每个人都知道big和large是同一个意思。每个人都知道约翰·列侬是披头士乐队的成员。
但是如果没有被告知,计算机是不会有这些知识的。
问题是没有办法告诉计算机一切。这只会花费太多的时间和精力。
LSI通过使用复杂的数学公式从一组文档中推导出单词和短语之间的关系来解决这个问题。
简单地说,如果我们对一组关于季节的文档运行LSA,计算机可能会发现一些事情:
首先,fall这个词是autumn的同义词:
其次,像季节、夏天、冬天、秋天和春天这样的词都是语义相关的:
第三,fall在语义上与两组不同的单词相关:
然后,搜索引擎可以使用这些信息来超越精确的查询匹配,并提供更相关的搜索结果。
bb0是否使用LSI?
考虑到大规模集成电路解决的问题,很容易看出为什么人们认为b谷歌使用大规模集成电路技术。毕竟,很明显,匹配精确的查询对于搜索引擎返回相关文档来说是一种不可靠的方式。
另外,我们每天都能看到谷歌理解同义词的证据:
和一词多义:
但尽管如此,谷歌几乎肯定不会使用大规模集成电路技术。
我们怎么知道的?b谷歌的代表是这么说的。
不相信他们?
这里还有三个证据来支持这一事实:
1. LSI是一项老技术
大规模集成电路发明于20世纪80年代万维网诞生之前。因此,从来没有打算将它应用于如此大的文档集。
这就是为什么谷歌开发了更好、更可扩展的技术来解决同样的问题。
比尔·斯劳斯基说得最好:
LSI技术不是为任何Web大小的东西而创建的[…]谷歌已经开发了一种词向量方法(用于Rankbrain),它更现代,可扩展性更好,并且适用于Web。当你有Word2vec可用时,使用LSI就像用卡丁车驾驶法拉利赛车一样。
2. 创建大规模集成电路是为了索引已知的文档集合
万维网不仅庞大,而且是动态的。
这意味着谷歌索引中的数十亿个页面会定期变化。
这是一个问题,因为LSI专利告诉我们,分析需要“每次在存储文件中有重大更新时”运行。
这需要很大的处理能力。
3. LSI是一项专利技术
潜在语义索引(LSI)专利于1989年授予贝尔通信研究公司。苏珊·杜马斯(Susan Dumais)是这项技术的共同发明者之一,后来于1997年加入微软,从事与搜索相关的创新工作。
也就是说,美国专利在20年后到期,这意味着LSI专利在2008年到期。
考虑到谷歌在理解语言和返回相关结果方面相当好,比2008年早得多,这是另一个证据表明谷歌不使用LSI。
比尔·斯劳斯基说得再好不过了:
谷歌尝试索引同义词和单词的其他含义。但它并没有使用大规模集成电路技术来做到这一点。称之为大规模集成电路是在误导人们。谷歌至少从2003年就开始提供同义词替换和基于同义词的查询改进,但这并不意味着他们在使用LSI。这就像说你正在使用智能电报设备连接到移动网络。
提到相关的单词、短语和实体能提高排名吗?
大多数seo看到“LSI关键字”只不过是相关的单词,短语和实体。
如果我们使用这个定义——尽管它在技术上是不准确的——那么是的,在你的内容中使用一些相关的单词和短语几乎肯定有助于提高SEO。
我们怎么知道的?谷歌在这里间接告诉我们:
想想看:当你搜索“狗”的时候,你可能不希望一个页面上出现数百次“狗”这个词。考虑到这一点,算法会评估一个页面是否包含除了关键词“狗”之外的其他相关内容——比如狗的照片、视频,甚至是品种列表。
在一个关于狗的页面上,谷歌看到各个品种的名字在语义上是相关的。
但是,为什么这些帮助页面要对相关术语进行排名呢?
简单:因为它们帮助谷歌理解页面的整体主题。
例如,这里有两页,每一页都提到“狗”这个词的次数相同:
看看每页上的其他重要单词和短语,我们会发现只有第一个是关于狗的。第二部主要是关于猫的。
谷歌使用这些信息对相关查询的相关页面进行排名。
如何查找和使用相关的单词和短语
如果你对一个主题很了解,你自然会在你的内容中加入相关的单词和短语。
例如,如果不提到“PS4游戏”、“使命召唤”和“辐射”这样的词和短语,就很难写出最好的电子游戏。
但是很容易忽略重要的部分,尤其是对于更复杂的主题。
例如,我们的nofollow链接指南没有提到赞助链接和UGC链接的任何属性:
谷歌可能认为这些是重要的、与语义相关的术语,任何关于该主题的好文章都应该提到这些术语。
这可能是讨论这些事情的文章排名高于我们的部分原因。
考虑到这一点,这里有九种方法可以找到潜在的相关单词、短语和实体:
1. 运用常识
检查你的页面,看看你是否遗漏了什么明显的要点。
例如,如果该页面是一篇关于唐纳德·特朗普的传记文章,并且没有提到他的弹劾,那么可能值得添加一个部分。
在这样做的时候,你自然会提到相关的单词、短语和实体,比如“穆勒报告”、“南希·佩洛西”和“举报人”。
旁注。请记住,谷歌无法确切地知道这些单词和短语是否在语义上相关。然而,由于谷歌旨在理解我们人类天生理解的单词和实体之间的关系,因此使用常识是有道理的。
2. 看看自动完成的结果
自动补全结果并不总是显示重要的相关关键字,但它们可以提供可能值得提及的线索。
例如,我们看到“唐纳德·特朗普的配偶”、“唐纳德·特朗普的年龄”和“唐纳德·特朗普的推特”都是“唐纳德·特朗普”的自动补全结果。
这些关键词本身并不是相关的,但它们所指的人和事可能是相关的。在这个例子中,他们是73岁的梅拉尼娅·特朗普和@realDonaldTrump。
可能所有这些都应该在传记文章中提到,对吧?
3. 查看相关搜索
相关搜索出现在搜索结果的底部。
像自动补全结果一样,它们可以提供潜在相关单词、短语和值得提及的实体的线索。
这里的“唐纳德·特朗普教育”指的是他就读的宾夕法尼亚大学沃顿商学院。
4. 使用“LSI关键字”工具
流行的“LSI关键字”生成器与LSI无关。然而,他们偶尔也会提出一些有用的想法。
例如,如果我们在一个流行的工具中输入“唐纳德·特朗普”,它会拉出相关的人(实体),比如他的妻子梅拉尼娅·特朗普和儿子巴伦·特朗普。
5. 看看排名靠前的其他关键词
使用SEO研究院 ‘ Keywords Explorer中的“Also rank for”关键字创意报告来查找潜在的相关单词、短语和实体。
如果要处理的页面太多,可以尝试使用排名靠前的三个页面进行内容差距分析,然后将交集的数量设置为“3”。
这显示了所有页面排名的关键字,这通常会为您提供更精细的相关单词和短语列表。
6. 运行TF*IDF分析
TF-IDF与潜在语义索引(LSI)或潜在语义分析(LSA)无关,但它偶尔可以帮助发现“丢失”的单词、短语和实体。
7. 查看知识库
像Wikidata.org和Wikipedia这样的知识库是相关术语的绝佳来源。
谷歌还从这两个知识库中提取知识图数据。
8. 对知识图谱进行逆向工程
谷歌将许多人、事物和概念之间的关系存储在一种叫做知识图谱的东西中。知识图谱的结果经常出现在b谷歌的搜索结果中。
试着搜索你的关键词,看看是否有任何数据从知识图谱中显示出来。
因为这些是b谷歌与主题相关联的实体和数据点,所以在有意义的地方讨论相关的内容绝对值得。
9. 使用谷歌的自然语言API来查找实体
将一个顶级页面的文本粘贴到谷歌的自然语言API演示中。寻找你可能错过的相关和潜在重要的实体。
最终的想法
LSI关键字不存在,但语义相关的单词,短语和实体存在,他们有能力提高排名。
只要确保在有意义的地方使用它们,而不是随时随地随意地使用它们。
在某些情况下,这可能意味着在页面中添加新的部分。
例如,如果你想在一篇关于唐纳德·特朗普的文章中添加“弹劾”和“众议院情报委员会”这样的词和实体,那可能需要在新的小标题下添加几个新段落。
你对LSI关键字还有什么问题吗?
请留下评论或在Twitter上联系我。