Board logo

标题: [已解决]求从html文件中分离出URL的dos工具或脚本 [打印本页]

作者: scanjet     时间: 2007-12-1 16:05    标题: [已解决]求从html文件中分离出URL的dos工具或脚本

大概跟flashget的那个"用flashget下载所有链接"的功能差不多,就是给出一个html文件,然后可以列出里面
所有的链接, 最好还可以通过修改参数或表达式来定制精确输出结果.

Dos命令行下面,我试了grep, sed, 没成功.
例如
grep -o http://([w-]+.)+[w-]+(/[w- ./?%&=]*)? test.htm
(表达式是照抄网上的),结果不是没东西出来,就是出来一堆东西....似乎它们是按行来操作的???
可是目标的行数位置都是不确定的话,怎么办??

比如说, 一个html文件test.htm包含以下代码
......
<a href="http://down2.download.com/2/5/52/6x1196486834x203330712200/tools.rar">
.....
我打 grep 参数|正则表达式 test.html, 我只要它返回以下结果就够了
http://down2.download.com/2/5/52/6x1196486834x203330712200/tools.rar
谢谢...

[ Last edited by scanjet on 2007-12-1 at 10:58 PM ]
作者: junchen2     时间: 2007-12-1 19:50
awk -F\042 "$0~/<a href=\042http:\/\/down2.download.com\//{for (i=1;i<=NF;i++){ if($i~/http:\/\/down2.download.com\/2\/5\/52\/6x1196486834x20333071/) print $i}}" test.htm