标题: 讨论:用批处理抓取hao123网址
[打印本页]
作者: sunenze
时间: 2008-12-16 00:09
标题: 讨论:用批处理抓取hao123网址
网上有大把的ASP,以及一些小软件,但却不能实现对整个HAO123网页网址的自动提取,自动分类功能!
如果用批处理来抓取hao123整个站点的网址链接,分析整首页面面左侧栏目,然后根据左侧栏目来检索每一个子页面链接,而后提取每个子页面的网址,生成形式可是MDB数据,或者EXLCEL电子表格形式!
大家一起来进行讨论,看有没有好的解决思路!讨论并求此与此相关的源码
作者: everest79
时间: 2008-12-16 00:33
有见过这么一个
'&cls&(if "%~1"=="" (echo Usage:&echo links [URL])else cscript/nologo /e:vbs "%~f0" "%~1")&goto:eof
GetLink WSH.Arguments(0)
Sub GetLink(sURL)
With CreateObject("InternetExplorer.Application")
.Navigate sURL
Do While (.Busy Or .ReadyState <> 4)
WSH.Sleep 100
Loop
For Each sLink In .Document.Links
WSH.Echo sLink
Next
.Quit
End With
End Sub
作者: xjhma84
时间: 2008-12-16 09:28
是个方法~~~~
作者: dato
时间: 2008-12-16 09:41
用topfisher
http://www.topfisher.com/
作者: sunenze
时间: 2008-12-16 10:31
4楼给的这个网址,下载之后运行直接蓝屏死机,系统无法启动。
作者: dato
时间: 2008-12-16 16:37
晕没这么夸张吧,topfisher是目前用过的最好的数据采集软件,由于它采用脚本方式编写任务,所以可以完成一些很复杂的采集任务.但可能还有点点问题,在对付验证码方面.其它的基本都是GUI界面,很多东西都被限制在作者写好的框架所以有时候感觉不如它实用.
作者: sunenze
时间: 2008-12-17 10:11
确实是的,我双击直接蓝屏死机。