你所需要的,不仅仅是一个好用的代理。
URL的理解和举例
URL是URI的一个子集.它是Uniform Resource Locator的缩写,译为“统一资源定位符”.通俗地来说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上.采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等,而URL的一般格式为(带方括号[]的为可选项):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
简单来说一下URL的组成部分:
第一部分是协议(或称为服务方式).
第二部分是存有该资源的主机IP地址(有时也包括端口号).
第三部分是主机资源的具体地址,如目录和文件名等.
其中第一部分和第二部分会用“://”符号隔开,而第二部分和第三部分用“/”符号隔开,第一部分和第二部分是不可缺少的,第三部分有时可以省略.
它们量之间的关系是什么呢?URI属于URL更低层次的抽象,一种字符串文本标准.换句话说,URI属于父类,而URL属于URI的子类,也就是说URL是URI的一个子集.
URI的定义是:统一资源标识符;
URL的定义是:统一资源定位符.
二者的区别在于,URI表示请求服务器的路径,定义这么一个资源.
而URL同时说明要如何访问这个资源(http://).
举两个小例子来看:
1.HTTP协议的URL示例:
使用超级文本传输协议HTTP,提供超级文本信息服务的资源.
例:http://www.peopledaily.com.cn/channel/welcome.htm
其计算机域名为www.peopledaily.com.cn.
超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm.
这是中国人民日报的一台计算机.
例:http://www.rol.cn.NET/talk/talk1.htm
其计算机域名为www.rol.cn.Net.
超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm.
这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室.
2.文件的URL
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息.
有时可以省略目录和文件名,但“/”符号不能省略.
例:file://ftp.yoyodyne.com/pub/files/foobar.txt
上面这个URL代表存放在主机ftp.yoyodyne.com上的pub/files/目录下的一个文件,文件名是foobar.txt.
例:file://ftp.yoyodyne.com/pub
代表主机ftp.yoyodyne.com上的目录/pub.
例:file://ftp.yoyodyne.com/
代表主机ftp.yoyodyne.com的根目录.
爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它 进行进一步的处理.因此,准确地理解URL对理解网络爬虫至关重要.