有同学问上一篇代码中User-Agent的内容定义怎么来的呢? 简单,祭出我们的法宝:httpfox, 在第一篇中我们说开发要准备好firefox和几个插件,不知道有同学还有印象没有,httpfox就是其中一个插件。 如果有人问httpfox怎么获取和安装,那我只有一句话送给你:你根骨不适合修行。(最近玄幻小说看多了,出口都是专业术语啊!)
在安装httpfox后,可以在下图中启动,快捷键是shift+F2
图一:Httpfox启动
启动后在Firefox浏览器下部有一个窗口,如下图:
图二:Httpfox初始界面
在左上方有个绿色的"Start"按钮,点击它就会启动本页面的http协议信息嗅探,在其开始监听后,你输入页面时所有的http头,cookie,http内容信息都会被捕获到。 通过这个工具我们可以清楚得看到浏览器怎样在跟服务器打交道,它们在交流什么,可谓是打家劫舍,监听追踪不二法宝。 下图是我们捕获的访问百度页面的所有信息:
图三:Httpfox捕获界面
下面我列出了httpfox捕获的的一些内容的解释,左边栏是客户端(浏览器)发出的,右边栏是服务返回的:
- 红色框里面的就是User-Agent的内容,这个是浏览器主动发给服务器的,我们程序里面的User-Agent的内容就是从这里拷贝出来的。
- 绿色线上面的为服务器返回的HTTP代码,最常见成功的HTTP代码就是200
- 黑色线上面的为web服务器的类型, 这个BWS/1.0真的没有了解,可能是百度自己设计的web服务器,常见的为Apache和nginx.
- 棕色线上面的为服务器返回来的内容的大小,这里为6163个字节
- 土黄线上面的为服务器返回内容的类型和编码方式,这个对我们后面怎样处理内容比较重要,编码不同我们程序要做不同的处理,这里返回的内容是html内容,是用gb2312编码的