Web抓取分析机器人连载(三)

有同学问上一篇代码中User-Agent的内容定义怎么来的呢? 简单,祭出我们的法宝:httpfox, 在第一篇中我们说开发要准备好firefox和几个插件,不知道有同学还有印象没有,httpfox就是其中一个插件。 如果有人问httpfox怎么获取和安装,那我只有一句话送给你:你根骨不适合修行。(最近玄幻小说看多了,出口都是专业术语啊!)

在安装httpfox后,可以在下图中启动,快捷键是shift+F2

图一:Httpfox启动

图一:Httpfox启动

启动后在Firefox浏览器下部有一个窗口,如下图:

图二:Httpfox初始界面

图二:Httpfox初始界面

在左上方有个绿色的"Start"按钮,点击它就会启动本页面的http协议信息嗅探,在其开始监听后,你输入页面时所有的http头,cookie,http内容信息都会被捕获到。 通过这个工具我们可以清楚得看到浏览器怎样在跟服务器打交道,它们在交流什么,可谓是打家劫舍,监听追踪不二法宝。 下图是我们捕获的访问百度页面的所有信息:

图三:Httpfox捕获界面

图三:Httpfox捕获界面

下面我列出了httpfox捕获的的一些内容的解释,左边栏是客户端(浏览器)发出的,右边栏是服务返回的:

  • 红色框里面的就是User-Agent的内容,这个是浏览器主动发给服务器的,我们程序里面的User-Agent的内容就是从这里拷贝出来的。
  • 绿色线上面的为服务器返回的HTTP代码,最常见成功的HTTP代码就是200
  • 黑色线上面的为web服务器的类型, 这个BWS/1.0真的没有了解,可能是百度自己设计的web服务器,常见的为Apache和nginx.
  • 棕色线上面的为服务器返回来的内容的大小,这里为6163个字节
  • 土黄线上面的为服务器返回内容的类型和编码方式,这个对我们后面怎样处理内容比较重要,编码不同我们程序要做不同的处理,这里返回的内容是html内容,是用gb2312编码的
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇