SmartFAQ 由 SmartFactory 开发(https://www.smartfactory.ca),是 InBox Solutions 的一个部门(https://www.inboxsolutions.net)。

什么是蜘蛛爬虫以及 robots.txt,以及如何有效地和安全地使用它们?
以下内容摘自 搜索引擎世界 了解更多请访问此链接。 robots.txt教程 搜索引擎将在您的根域名中查找一个名为 "robots.txt" 的特殊文件(http://www.mydomain.com/robots.txt)。该文件告诉爬虫(蜘蛛)它可以爬行(下载)哪些文件。这个系统被称为 "机器人排除标准"。robots.txt 文件的格式是特殊的。它由记录组成。每个记录由两个字段组成:一个 User-agent 行和一个或多个 Disallow: 行。格式如下 ":" robots.txt 文件应使用 Unix 行结束模式创建!大多数好的文本编辑器都会有 Unix 模式,或者你的 FTP 客户端应该会为你进行转换。不要尝试使用不支持文本模式的 HTML 编辑器来创建 robots.txt 文件。User-agent 行指定了爬虫。例如:User-agent: googlebot 你也可以使用通配符 "*" 来指定所有爬虫:User-agent: * 你可以通过检查对 robots.txt 的请求来在自己的日志中找到用户代理名称。大多数主要搜索引擎都有自己的蜘蛛简短名称。Disallow: 记录的第二部分由 Disallow: 指令行组成。这些行指定了文件和/或目录。例如,以下行指示爬虫不能下载 email.htm:Disallow: email.htm 你也可以指定目录:Disallow: /cgi-bin/ 这将阻止爬虫访问你的 cgi-bin 目录。Disallow 指令具有通配符性质。标准规定,/bob 将阻止 /bob.html 和 /bob/index.html(文件 bob 以及 bob 目录中的文件均不会被索引)。如果你将 Disallow 行留空,则表示所有文件均可检索。每个 User-agent 指令必须至少有一个 disallow 行才能正确。一个完全空的 Robots.txt 文件等同于不存在。空白行与注释:Robots.txt 中的任何以 # 开头的行都仅被视为注释。标准允许在指令行末尾添加注释,但这种做法真的很不规范:Disallow: bob #comment 些爬虫可能无法正确解释上述行,而会尝试阻止 "bob#comment"。记住,要将注释单独一行放置。一行开头的空白允许,但并不推荐。Examples 以下示例允许所有爬虫访问所有文件,因为通配符 "*" 指定了所有爬虫。User-agent: * Disallow: 这个示例将阻止所有爬虫。User-agent: * Disallow: / 下一个示例阻止所有爬虫访问 cgi-bin 和 images 目录:User-agent: * Disallow: /cgi-bin/ Disallow: /images/ 这个示例禁止 Roverdog 访问服务器上的所有文件:User-agent: Roverdog Disallow: / 这个示例阻止 googlebot 访问 cheese.htm 文件:User-agent: googlebot Disallow: cheese.htm 对于更复杂的示例,可以尝试从像 CNN、Looksmart 这样的站点检索一些 robots.txt 文件。Extensions to the Standard 尽管已经提出了诸如 Allow 行或机器人版本控制等标准扩展,但机器人排除标准工作组尚未正式批准。---------------------------------------- RE: Robots.txt 在 Xoops 安装中,默认的 robots.txt 文件对于 *大多数*情况来说都是合适的。唯一需要更改该文件的时候是如果你安装了piCal,或者你只是不希望搜索引擎索引你网站的某些区域。你想要阻止 piCal 的原因是因为爬虫将逐月通过日历内的链接搜索,从而导致你的带宽消耗。要阻止 piCal,只需将以下内容添加到 robots.txt 中:Disallow: /modules/piCal/ 要阻止访问你网站上任何其他模块,使用相同的格式,只需将 piCal 替换为你希望拒绝访问的模块名称即可。例如:Disallow: /modules/newbb/


评论归作者所有。我们不承担其内容的责任。


Login

Who's Online

293 user(s) are online (21 user(s) are browsing XOOPS FAQ)


Members: 0


Guests: 293


more...

Donat-O-Meter

Stats
Goal: $100.00
Due Date: Aug 31
Gross Amount: $0.00
Net Balance: $0.00
Left to go: $100.00
Make donations with PayPal!

Did you know ?

Go into system admin>mail users and send in the body message this code

Quote:
{X_UACTLINK}


Random question

What is a 'spoiler tag'?