阿布云

你所需要的,不仅仅是一个好用的代理。

网络爬虫(二)

阿布云 发表于

7.png

URL的理解和举例

URL是URI的一个子集.它是Uniform Resource Locator的缩写,译为“统一资源定位符”.通俗地来说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上.采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等,而URL的一般格式为(带方括号[]的为可选项):

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

简单来说一下URL的组成部分: 

第一部分是协议(或称为服务方式).

第二部分是存有该资源的主机IP地址(有时也包括端口号).

第三部分是主机资源的具体地址,如目录和文件名等.

其中第一部分和第二部分会用“://”符号隔开,而第二部分和第三部分用“/”符号隔开,第一部分和第二部分是不可缺少的,第三部分有时可以省略. 

它们量之间的关系是什么呢?URI属于URL更低层次的抽象,一种字符串文本标准.换句话说,URI属于父类,而URL属于URI的子类,也就是说URL是URI的一个子集.

URI的定义是:统一资源标识符;

URL的定义是:统一资源定位符.

二者的区别在于,URI表示请求服务器的路径,定义这么一个资源.

而URL同时说明要如何访问这个资源(http://).

举两个小例子来看:

1.HTTP协议的URL示例:
使用超级文本传输协议HTTP,提供超级文本信息服务的资源. 

例:http://www.peopledaily.com.cn/channel/welcome.htm 

其计算机域名为www.peopledaily.com.cn.

超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm.

这是中国人民日报的一台计算机. 

例:http://www.rol.cn.NET/talk/talk1.htm 

其计算机域名为www.rol.cn.Net.

超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm.

这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室.
2.文件的URL
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息.

有时可以省略目录和文件名,但“/”符号不能省略. 

例:file://ftp.yoyodyne.com/pub/files/foobar.txt 

上面这个URL代表存放在主机ftp.yoyodyne.com上的pub/files/目录下的一个文件,文件名是foobar.txt.

例:file://ftp.yoyodyne.com/pub 

代表主机ftp.yoyodyne.com上的目录/pub. 

例:file://ftp.yoyodyne.com/ 

代表主机ftp.yoyodyne.com的根目录.

爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它 进行进一步的处理.因此,准确地理解URL对理解网络爬虫至关重要.