如何更加有效地使用robots.txt文件
“robots.txt”文件主要用来告知搜索引擎它们是否有权爬取您网站的特定目录或文件。该文件一定要严格的命名为“robots.txt”,注意大小写,并放置在网站的根目录下。
robots.txt的文件地址
任何的搜索引擎(通配符*划定的)都不能够接近或者抓取/image/下的内容或者任何的以/search做为路径开头的URL。
您可能不但愿您的网站中的某些页面被抓取,也许这些网页在搜索结果中泛起对于用户来说并没多大用处。假如您想防止搜索引擎抓取这些页面,谷歌网站治理员工具中有一个非常好用的robots.txt天生器,它可以帮您生成这个文件。需要注意的是,假如您的网站使用子域名而您不想被抓取的某些网页刚好在一个特定子域名下,您需要为那个子域名创建一个单独的robots.txt文件。假如您想了解更多的关于robots.txt的信息,建议您参阅网站管理员帮助中的关于使用robots.txt文件的指南。
还有很多别的方法可以保证您的网站的某些内容不泛起在搜索结果中,好比说给您的robots元标签加上“NOINDEX”标识;使用.htaccess文件对需要保护的目录加密;还可以使用网站管理员工具将已经被抓取的网页从搜索结果中移除。谷歌工程师Matt Cutts在视频中对如何从谷歌索引中删除内容进行了先容(英语)。 谷歌搜索引擎优化初学者指南,版本 1.1。
上一页:谷歌优化初学者指南之高质量内容
下一页:利用论坛签名吸引蜘蛛


评论