We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent bbe2a98 commit 78fee6cCopy full SHA for 78fee6c
ReadMe.md
@@ -263,15 +263,15 @@ Scrapy是一个基于Twisted的开源的Python爬虫框架,在工业中应用
263
264
在网站根目录下放一个robots.txt文本文件(如 https://www.taobao.com/robots.txt ),里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。网络爬虫在采集这个网站之前,首先获取到这个robots.txt文本文件,然后解析到其中的规则,然后根据规则来采集网站的数据。
265
266
-### Robots协议规则
+### 1. Robots协议规则
267
268
User-agent: 指定对哪些爬虫生效
269
Disallow: 指定不允许访问的网址
270
Allow: 指定允许访问的网址
271
272
注意: 一个英文要大写,冒号是英文状态下,冒号后面有一个空格,"/"代表整个网站
273
274
-### Robots协议举例
+### 2. Robots协议举例
275
276
禁止所有机器人访问
277
User-agent: *
0 commit comments