你们好,最近小时发现有诸多的小伙伴们对于搜索引擎的工作原理可以分为哪几个部分,搜索引擎的工作原理这个问题都颇为感兴趣的,今天小活为大家梳理了下,一起往下看看吧。
1、 对于搜索引擎来说,几乎不可能抓取互联网上的所有网页。从目前公布的数据来看,
2、 检索技术存在瓶颈,无法遍历所有网页,很多网页无法从其他网页的链接中找到;另一个原创
3、 因为存储技术和处理技术的原因,如果每页平均大小20K(包括图片),100。
4、 一亿个网页的容量是1002000G字节,即使能存储,下载也有问题(按每秒一台机器计算)
5、 下载所有网页需要340台机器下载一年。与此同时,
6、 因为数据量太大,在提供搜索时也会对效率产生影响。所以很多搜索引擎的网络蜘蛛都是正义的。
7、 抓取那些重要的网页,评价重要性的主要依据就是一个网页的链接深度。
8、 有人认为搜索引擎收到搜索请求,就会实时查询全球所有服务器的信息。
9、 并将查询结果展示给用户,这其实是一个误区。如果搜索引擎是这样工作的,那么查询
10、 一条信息可能要等好几年才能得到搜索结果,这还不包括期间网页的变化。
11、 其实搜索引擎会提前访问大量的网站,提前存储这些网页的一些信息。
12、 这样用户搜索的时候,其实是在搜索引擎自己的服务器里查询,就像
13、 我们在自己的电脑里查阅文件。
14、 搜索引擎是一项非常复杂的技术,但它的基本原理并不复杂。它的基本技术包括爬行、索引,
15、 排序。
以上就是搜索引擎的工作原理这篇文章的一些介绍,希望对大家有所帮助。