来自 记录备份 2019-07-12 14:52 的文章

火车头采集器配合Fiddler采集HTML中没有的内容,试

有些网站的部分内容并没有在HTML中,而是通过调用显示在网页中。
这时候火车采集器不能直接采集到有效信息。需要配合抓包工具,通过“多页管理”分析并采集到真实信息。
本文并不用任何页面做事例,尽记录简单思路。
1.开启fiddler开启抓获,刷新网页A,抓包网页通讯信息。
2.使用快捷键Ctrl+F键快速定位到信息真正加载的页面B,分析此页面B的URL与原页面A的关系。
3.通过火车采集器的”多页管理“组合成网页B的URL。
4.采集网页B中的信息,注意选择所属多页。

TAG:火车头采集器Fiddler