APP推广合作
联系“鸟哥笔记小乔”
搜索引擎优化应该怎么做?了解一下搜索模型和四类基本算法!
2022-08-05 16:46:40

搜索引擎的基本搜索模型

搜索引擎一般是由在线和离线两部分构成,离线部分主要是搜索引擎爬取网页的原始数据再将其提取、充实、分析、索引的过程。

这一块我们需要注意的一点就是在索引数据当中有一条关于时效性索引数据的内容。主要是一些新闻的索引数据,搜索引擎会对一些有时效性的新闻给予快速的收录和较高的排名。

但是在过了时效性以后这些排名就会掉了,连收录都可能会掉出,这个时效性索引数据过了时效后的状态,主要是跟网站的结构和权威性有关。

 

而我们做搜索优化其实主要要在意的还是其离线部分的内容。

用户在输入了搜索词以后,搜索系统会进行Query理解从而采用不同的召回策略

就像我在搜索“塑聊”的时候,搜索引擎通过字典判断再给我纠错为“塑料”,在搜索“su料”的时候也会给我纠错为“塑料”。

在搜索“BTC”的时候会给我扩充“比特币”的内容,在搜索“土豆”的时候会给我呈现“马铃薯”的时候,都是出于对同义词的扩充。

在搜索“搜索引擎营销”的时候会将这几个字分词为“搜索/引擎/营销”或者“搜/索/引/擎/营/销/”等更多粒度的分词。

系统在经过了召回环节后并不是直接就呈现在用户面前,而是会将这些通过不同召回策略的索引数据作为候选集合,候选集合的数量大概在几千到几万个。再通过更精细的计算模型对候选集合中的内容进行分值计算,从而获得初步的排序

在经过了召回环节之后将会进入排序环节,而排序环节会分为粗排、精排和重排三个环节。粗排大致上是通过类似于评价搜索词和文档之间相关性的BM25算法来获取一个粗略的排序,这个数量大概是几百到几千个,在百度搜索引擎当中这个数值最大为760个。

在经过了粗排以后,搜索引擎会加载更多的特征和更复杂的模型,对粗排的内容进行排序计算,从粗排提供的候选池中选出用户最有可能点击的内容,这个数量值大概是在一百以内。

在经过精排以后,这些内容已经可以初步呈现给用户,但是在呈现之前还会有一个规则干预的环节,规则通常服务特定产品目的。例如百度信誉的官网认证服务,企业用户在做了官网认证以后,用户在搜索企业名称,企业内容会出现在搜索排名的第一位,这个就是重排。

此外排序并非是一成不变的,在内容展现给用户以后,用户点击反馈会影响到排序环节模型,用户点击更多的网址,在后续搜索展现当中会获得更高的排名,这个就是点击调权的过程,也是重排的过程。

搜索引擎的四类基本算法

TF-IDF 词频-逆文本率算法

TF=某个词在文章中出现的次数=某个词在文章中出现的次数/文章总词数

IDF=log(语料库文档总数/(包含该词文档数+1))

TF-IDF=词频(TF)*逆文档频率(IFD)

 

这个算法主要是为了评估字词对于一个文件集中的一份文件的重要程度

字词的重要性随着它在文件中出现的次数成正比增加。

但同时会随着它在语料库中出现的频率成反比下降。

这句话应该怎么去理解呢?我们举一个简单的例子:

图书馆有一万本书,其中一本书关于“姜母鸭”这词出现的次数是66次,关于“做法”这个词的出现的次数是1000次。那“做法”的TF是高于“姜母鸭”的。但是对比图书馆里的10000本书中,我们会发现“姜母鸭”在其他书中出现的频次很低,而“做法”在其他书中出现的频次也很高。因此会把“做法”的权重降低从而得出关键词“姜母鸭”

TF-IDF算法可以过滤掉一些常见词(如上述的“做法”)而保留重要的词(如上述的“姜母鸭”)从而得出文档当中的重点。这个算法可以说是搜索引擎的基本算法了,换成我们比较通俗的语言去讲,就是关键词密度

Hits 链接分析算法

在SEO当中,常常有内容为王,外链为皇的说法(现在已经不适用了),因为在SEO的早期,外链算法是对网站排名影响极大的算法。

例如当初李彦宏依靠“超链分析算法”成立了百度,而这个超链分析算法也就是我们现在比较熟知的锚文本链接。

后来谷歌对“超链分析算法”进行了优化,提出了不同网站的权重不同,所以外链传导的权重也应该不同的概念,这个就是后来的“PageRank算法”。

而现在百度和谷歌对这类算法也经历了无数个版本的迭代,而且也有新的链接分析算法出现,例如Hits算法。

Hits算法中有两个新概念,一个是“Authority”页面,一个是“Hub”页面

“Authority”页面指的是高质量的权威页面

“Hub”页面指的是指向很多权威页面的枢纽页面

一个好的权威页面会被很多枢纽页面指向

一个好的枢纽页面会指向很多权威页面。

这种算法可以比较简单通过链接的去判定网站的优劣,但是也比较容易作弊。

比如万物皆可运营的官网导出的外链有腾讯新闻、搜狐新闻、凤凰新闻、悠然布衣。而腾讯新闻、搜狐新闻等三个都是权威页面,那么悠然布衣也会被认为是权威页面。

TextRank算法和LDA主题模型

除了TF-IDF算法以外,像TextRank算法和LDA、LSA这类的主题模型算法也被广泛地应用在关键词提取领域

TextRank算法比起TF-IDF算法的特点在于它可以脱离语料库的背景,对单篇文档进行分析,提取单篇文档的关键词。但是缺点就是受分词、文本清洗影响大,受高频词影响大。

这个算法是引入了PageRank算法的理念,将文本拆成词汇组成网络模型,将词汇相似度的共现关系作为投票关系或者说推荐关系,从而去计算每个词的重要性。

例如:(例子来源于@知乎 黄鑫)

然后对上面这段话进行分词,去除中间的停用词,我们可以得到:程序员 英文 程序 开发 维护 专业 人员 程序员 分为 程序 设计 人员 程序 编码 人员 界限 特别 中国 软件 人员 分为 程序员 高级程序员 系统 分析员 项目 经理

然后建一个大小为9的窗口,每个单词要投票给它前后距离为5以内的词

然后开始迭代投票

这样得出来“程序员”是这段话当中权重最高的单词。

LDA主题模型:在很多场景下,单纯的提取文档里面的关键词是不够用的,比如中国古代很多的古诗就是这么玩的。

“解落三秋叶,能开二月花。过江千尺浪,入竹万竿斜。”这首李峤的《风》,虽然是描写风的,但是除了题目全诗没有一个”风“字。

还有朱熹的《秋月》:清溪流过碧山头,空水澄鲜一色秋。隔断红尘三十里,白云红叶两悠悠。是描写月亮的但是全诗没有一个月字。

虽然关键词和文档之间没有直接的联系,但是需要通过一个维度将其串联起来,这个就是主题。每个文档都应该对应一个或者多个主题,每个主题都会有对应的词分布。

LDA语义主题模型可以实现相同语义的主题单词之间的相互关联,给信息检索中文本的潜在语义信息的挖掘提供良好的检索模型框架,可以用来识别大规模文档集或语料库中的潜在隐藏的主题信息

比如一个文章如果涉及到“姜母鸭”这个主题,那么“闽南”、“厦门”、“泉州”等词语就会以较高的频率出现,而如果涉及到“老鼠干”,那么“闽西”、“客家”“宁化”就会出现的很频繁。

搜索引擎会分析用户查询词汇与哪些主题是相关的,这些相关会通过形容词的属性来作为参考。例如“姜母鸭”相关的都是属于美食,那么滋阴降火的功能属性、浓香鲜美的味道属性这些内容都是与它关联的。

现在百度搜索的下拉关联搜索、相关搜索等搜索词,应当就是与TextRank算法、LD算法、DNN算法等相关。

Simhash去重算法

为了计算一篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来计算文档之间的汉明距离,然后根据汉明距离来比较文档之间的相似度。(汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。)

例子:“我元宵节在家里用烤炉做了一只美味的烤鸡”和“我正月十五在家里用烤箱做了一盘超级好吃的烤鸡。”

首先去除停用词后变成了

“我 元宵 家里 烤炉 美味 烤鸡”和“我 正月十五 家里 烤箱 超级好吃 烤鸡”

做词频统计,再做同义词归一化 元宵=正月十五 烤炉=烤箱 美味=超级好吃

最后判断这两句话是同一个意思。

早期百度应该是对网页结构化数据进行simhash识别,而最新的原创识别应该是对句子级别的做simhash识别了。所以当前来说,简单的语句调换、关键词替换等方法做伪原创,其实对搜索引擎的影响不大,他们能够识别出来

TF-IDF算法、TextRank算法和LDA主题模型这几种算法,除了搜索引擎营销的人员以外,做新媒体运营的同学也可以做相关了解。除了在百度以外,例如抖音、小红书、微信等平台搜索算法也与此相关。

今天就简单的聊一聊搜索引擎的几类基本算法,了解这些算法,对于指导搜索优化和内容分发都有比较大的作用,但是毕竟我不是技术出身的,对这个理解的也不是特别透彻,所以大家感兴趣的可以自己再找资料学习学习。

下一篇内容,会比较详细地去盘点一下SEO当中比较常用的一些作弊手段,也就是黑帽SEO。嗯,有缘再更新吧~

布衣
公众号二维码
分享到朋友圈
收藏
收藏
评分
评论

综合评分:

我的评分

参与评论(0)

社区交流公约

暂无评论,快来抢沙发吧~
登录后参与评论
发布评论
鸟哥笔记用户社区交流公约

Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
超级nice便签砖
超级超级超级奈斯!
1000羽毛
立即兑换
【新品】办公/外出两用静音充电小电扇
办公桌必备小电扇!
2000羽毛
立即兑换
布衣
布衣
发表文章5
万物皆可运营
七年互联网营销经验,专注于多渠道引流获客与品牌宣传建设。
确认要消耗 羽毛购买
搜索引擎优化应该怎么做?了解一下搜索模型和四类基本算法!吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接