谷歌网站办理员详解:怎样利用robots.txt
中心提醒:robots.txt 文件对抓与收集的搜索系统遨游器(称为遨游器)停止限定。那些遨游器是主动的,正在它们会见网页前会检察能否存正在限定其会见特定网页的 robots.txt 文件。假如您念庇护网站上的某些内容没有被搜索系统支出的话,robots.txt是一个简朴有用的东西。那里简朴引见一下怎样利用它。 |
怎样安排Robots.txt文件
robots.txt本身是一个文本文件。它必需位于域名的根目次中并 被定名为“robots.txt”。位于子目次中的 robots.txt 文件无效,果为遨游器只正在域名的根目次中查找此文件。比方,http://example/robots.txt 是有用位置,http://example/mysite/robots.txt 则没有是。
那里举一个robots.txt的例子:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~name/
利用 robots.txt 文件阻拦或删除全部网站
要从搜索系统中删除您的网站,并避免一切遨游器正在当前抓与您的网站,请将以下 robots.txt 文件放进您效劳器的根目次:
User-agent: *Disallow: /
要只从 Google 中删除您的网站,并只是避免 Googlebot 未来抓与您的网站,请将以下 robots.txt 文件放进您效劳器的根目次:
User-agent: GooglebotDisallow: /
每一个端心皆应有本人的 robots.txt 文件。特别是您经由过程 http 战 https 托管内容的时分,那些和谈皆需求有各自的 robots.txt 文件。比方,要让 Googlebot 只为一切的 http 网页而没有为 https 网页体例索引,应利用上面的 robots.txt 文件。
关于 http 和谈 (http://yourserver/robots.txt):
User-agent: *Allow: /
关于 https 和谈 (https://yourserver/robots.txt):
User-agent: *Disallow: /
许可一切的遨游器会见您的网页
User-agent: *Disallow:
(另外一种办法: 成立一个空的 “/robots.txt” 文件, 大概没有利用robot.txt。)
利用 robots.txt 文件阻拦或删除网页
您能够利用 robots.txt 文件去阻遏 Googlebot 抓与您网站上的网页。 比方,假如您正正在脚动创立 robots.txt 文件以阻遏 Googlebot 抓与某一特定目次下(比方,private)的一切网页,可以使用以下 robots.txt 条目:
User-agent: GooglebotDisallow: /private
要阻遏 Googlebot 抓与特定文件范例(比方,.gif)的一切文件,可以使用以下 robots.txt 条目:
User-agent: GooglebotDisallow: /*.gif$
要阻遏 Googlebot 抓与一切包罗 ? 的网址(详细天道,那种网址以您的域名开首,后接随便字符串,然后是问号,然后又是随便字符串),可以使用以下条目:
User-agent: GooglebotDisallow: /*?
虽然我们没有抓与被 robots.txt 阻拦的网页内容或为其体例索引,但假如我们正在收集上的其他网页中发明那些内容,我们仍旧会抓与其网址并体例索引。因而,网页网址及其他公然的疑息,比方指 背该网站的链接中的定位笔墨,有能够会呈现正在 Google 搜刮成果中。不外,您网页上的内容没有会被抓与、体例索引战显现。
做为网站办理员东西的一部门,Google供给了robots.txt阐发东西。它能够根据 Googlebot 读与 robots.txt 文件的不异方法读与该文件,而且可为 Google user-agents(如 Googlebot)供给成果。我们激烈倡议您利用它。 正在创立一个robots.txt文件之前,有须要思索一下哪些内容能够被用户搜获得,而哪些则不该该被搜获得。 那样的话,经由过程开理天利用robots.txt, 搜索系统正在把用户带到您网站的同时,又能包管隐公疑息没有被支录。
注:相干网站建立本领浏览请移步到建站教程频讲。
相关信息
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|