搜索引擎有两个主要功能:爬取和索引,并依据相关性和重要性将结果答案排序。
试想一下,万维网网络仿佛停留在一个大城市的地铁系统里面
搜索引擎的基本功能:爬取和索引,并依相关性和重要性排序
每到一站,是它自己的独特的文件(通常是一个网页,但有时是PDF,JPG或其他文件)。搜索引擎需要一种方式来“爬行”整个城市以找到所有的沿途停靠点,所以他们使用的最佳路径是——链接。
1、抓取和索引。抓取和索引的数十亿文档,网页,文件,新闻,视频和媒体的万维网。
说到屏蔽搜索蜘蛛的抓取,自然而然的就会想到robots.txt文档。robots.txt是什么?其实在此前笔者也已经对此进行了基础的说明。robots.txt是一种存放在网站空间根目录下的文本文件,是一种协议,用来告诉搜索蜘蛛网站中哪些可被爬行抓取,哪些不可被爬行抓取。然而,在这里,笔者有着这么一个疑问,robots.txt是否能彻底屏蔽蜘www.woolrichonline.biz蛛的爬行抓取呢?