Board logo

标题: 求教:已写一bat檔利用wget抓出某网页原始檔 [打印本页]

作者: denis     时间: 2008-12-18 12:16    标题: 求教:已写一bat檔利用wget抓出某网页原始檔
求教:已写一bat檔利用wget抓出某网页原始檔于code.txt,但只要某”字符串”(如:所有的”yahoo”)填入于g.txt 该如编写?~谢谢?!! @echo off wget -q -O code.txt tw.dictionary.yahoo.com/ for /l %%i in (1,1,4) do echo %%i>nul cls title监控处理程序 ::有问题的写法;请各先进帮忙修正谢谢 for /f "tokens=* delims=*" %%a in ('FINDSTR "yahoo" code.txt') do (echo %%a >>g.txt) pause

作者: yishanju     时间: 2008-12-18 12:55
WGET 好像不能提交表单, 改用CURL 试试 CURL 功能上貌似更加强大

作者: denis     时间: 2008-12-18 13:06
我要问的重点不是wget的使用;而是在code.txt内已有该网页之原始檔存在,但为不规则排列 内有html卷标也有标点符号也有空格;但我只要将内文字符串所有的”yahoo”取出于g.txt;不知单用DOS批次作的到吗?谢谢!!

作者: HAT     时间: 2008-12-18 13:14
code.txt的内容贴出来 并指明你要提取哪些字符串

作者: denis     时间: 2008-12-18 13:35
code.txt的内容已上传 希望g.txt的内容为(有几个文字yahoo就印几行yahoo)如下: yahoo yahoo yahoo

作者: denis     时间: 2008-12-18 13:41
作者: clian76     时间: 2008-12-18 14:20
可以不用第三方工具的,用VBS直接取得网页源码或页面。再查找。用VBS看网页源码的代码搜索下坛子里有。

作者: denis     时间: 2008-12-18 16:26
我再把我的问题说明一遍好了 现在有txt里面如下 <!doctype html public "-//w3c//dtd html 4.01 transitional//en" "http://www.w3.org/tr/html4/loose.dtd"> <html> <head> <title>Yahoo!奇摩字典</title> <meta http-equiv="content-type" content="text/html; charset=utf-8"> <link href="http://l.yimg.com/tw.yimg.com/i/tw/dictionary/i7/dic.css?v=20071116a" rel="stylesheet" type="text/css"> </head> <!-- SpaceID=0 robot --> <!-- end header.inc --> <body> <div id="maincol"> <div id="yhtw_masthead"> <div class="mhlogo"> <a href="/"><img src="http://tw.yimg.com/i/tw/dictionary/masthead_logo.gif" alt="Yahoo!奇摩字典" /></a> </div> <div class="mhsch"> <form action="http://tw.rd.yahoo.com/referurl/srch/search/dictionary/*tw.search.yahoo.com/search" target="_top"> <input type="hidden" name="fr" value="ush_dict"> <input type="hidden" name="ei" value="UTF-8"> <p> <label class="t"><input type="text" name="p" /></label> <label class="s"><input type="submit" value="搜寻网页" /></label> </p> <div> <a href="/">服务首页</a><b>|</b><a href="http://tw.help.cc.yahoo.com/cp_info.html?product=dictionary">服务说明等等. 我想生成一个txt如下(将上述内码里有”yahoo”取出填入) yahoo yahoo yahoo 等. 老大帮帮忙

作者: ily2013     时间: 2008-12-18 17:33
区分大小写吗?不太明白生成这样一个文件有什么用,想知道^_^ sed "s/yahoo/\n&\n/g" test.txt|sed -n "/yahoo/p" 希望我理解的没错

作者: dwj61909     时间: 2008-12-18 18:23
来个gawk的
gawk "/yahoo|Yahoo/  {printf "yahoo\r\n"}" code.txt>g.txt
[ Last edited by dwj61909 on 2008-12-18 at 18:25 ]

作者: denis     时间: 2008-12-18 19:53
呀!顿时开悟不少~ 其实只是把yahoo的网页拿来当测试用…. 真正目的为要监控一系统网站;若原始码内有出现(Tier1)~(Ter4)就代表有异常…就必须对该系统作处理及通知负责人 若通知后该网页则会有”已通知”字符串出现;但同一时间又有可能其它server出现异常那上述(Tier1)~(Ter4)字符串又会出现 故以字符串去做判别的话: 状况1:”Tier*” exist && “已通知” !exist echo alert(“msg”) 状况2: num(”Tier” exist) = num(“已通知” exist) do nothing 状况3: num(”Tier” exist) > num(“已通知” exist) alert(“msg”) 状况3: ”Tier*” !exist && “已通知” !exist do nothing 将上述状况写成一bat run at every 2 minute…. 感谢各位大大先进帮忙;获益良多….

作者: ngd     时间: 2008-12-19 11:55
Originally posted by yishanju at 2008-12-18 12:55: WGET 好像不能提交表单, 改用CURL 试试 CURL 功能上貌似更加强大
wget和curl都能提交表单 记得保存cookie 以登录cn-dos为例: curl -c cookie.txt -d "username=ngd&password=密码" www.cn-dos.net/forum/logging.p ... wget --save-cookies=cookie.txt --post-data="username=ngd&password=密码" www.cn-dos.net/forum/logging.p ...

作者: denis     时间: 2008-12-22 09:42
Originally posted by dwj61909 at 2008-12-18 06:23 PM: 来个gawk的
gawk "/yahoo|Yahoo/  {printf "yahoo\r\n"}" code.txt>g.txt
[ Last edited by dwj61909 on 2008-12-18 at 18:25 ]
上述可改成gawk "/已通知/ {printf \"yahoo\r\n\"}" code.txt>g.txt吗? 即pattern型式可以为中文字符串吗?

作者: dxka8cww     时间: 2008-12-22 09:47
学习了`哈哈