简单总结《改变未来的九大算法》(一)——搜索引擎

作者:杨润炜
日期:2022/1/9 18:21

注:将用系列的方式总结,避免长篇,看起来累

《改变未来的九大算法》深入浅出的讲述了几个影响深远的伟大算法的基本原理与思想,在这里简单整理复述一下,也是响应作者的号召,让更多的人了解计算机背后的原理与思想。这里重点是抛砖引玉,因在下才疏学浅难免有错漏,强烈建议去阅读原作,阅读好快也是种美妙的体验~。

搜索引擎索引

搜索引擎索引
搜索引擎将收集到的网页进行内容分析,将正文、元词(从网页HTML结构里的各种标题、描述提取)进行分词和词位置的索引构建,信息包含词所在的页码和页内偏移。
当有搜索词输入时,先对其分词,并对比索引里词位置的距离,按距离近的返回结果。

网页排名:PageRank

前面的算法解决搜索内容与网页的匹配问题,但可能会匹配到多个相似的结果,这时候需要一定的条件将这些结果进行排序,所以就有了排名算法。

权重把戏
最简单的是权重排名。搜索引擎分析收录网页,计算某个网页被超链接关联的次数,每次权重加1,最后根据权重值由大到小进行网页排名。

权重把戏缺陷
这种做法有个缺陷,就是当网页超链接的关联形成环状时,该计算流程会陷入无限循环中,导致某些网页的权重无限增大。

随机访问
随机访问能够解决无限循环的问题。
首先假设网络上有个随机上网的人,它从网页A访问,一开始通过网页A中的超链接不断访问到网页B,然后就突然改变主意(15%的概率)去访问跟A和B都没有关联的C,然后又继续先前的模式上网。
如上图,绿色表示某次迭代的访问路径,灰色表示原来存在的超链接。这样就能避免AB之间的环状超链接关系导致其权重无限增大的问题。
经过一番迭代,各网页就有被访问的次数,根据其由大到小(数值比较大,通常用比例表示)进行网页排名。

敬请期待下篇——公钥与数字签名

感谢您的阅读!
如果看完后有任何疑问,欢迎拍砖。
欢迎转载,转载请注明出处:http://www.yangrunwei.com/a/122.html
邮箱:glowrypauky@gmail.com
QQ: 892413924