中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » 【求助】网页复制到记事本有乱码
作者:
标题: 【求助】网页复制到记事本有乱码 上一主题 | 下一主题
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『楼 主』:  【求助】网页复制到记事本有乱码

测试网页:
http://bbs.xunshang.net/simple/index.php?t53815.html
为了大家方便测试,请大家启动cmd,然后在桌面路径下复制如下代码:
wget http://bbs.xunshang.net/simple/index.php?t53815.html -O test.htm
htox32c /ip test.htm test.txt
write test.txt
我本人对html标签不熟悉,所以我转换为txt

桌面的test.txt文本每行后面有乱码(请大家用写字板write打开它),大家如何把这些乱码过滤掉?

三方工具:
wget htox32c perl sed grep 在我网盘里都有(我签名的那个绿色就是)

[ Last edited by plp626 on 2010-4-25 at 23:01 ]



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2010-4-25 22:50
查看资料  发短消息 网志   编辑帖子  回复  引用回复
exzzz
初级用户

游手好闲 + 无所事事 ..



积分 194
发帖 167
注册 2007-4-30
状态 离线
『第 2 楼』:  

你在那个网页上点右键,查看源文件,翻两页,你就知道是什么原因了。

可以清理掉的啦。



  
2010-4-25 23:18
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
Pierre
初级用户





积分 30
发帖 19
注册 2009-4-4
状态 离线
『第 3 楼』:  

好恶心的论坛。。。

2010-4-26 00:11
查看资料  发短消息 网志   编辑帖子  回复  引用回复
Pierre
初级用户





积分 30
发帖 19
注册 2009-4-4
状态 离线
『第 4 楼』:  

这是一些论坛防抄加的乱码

2010-4-26 00:12
查看资料  发短消息 网志   编辑帖子  回复  引用回复
dato
高级用户




积分 916
发帖 377
注册 2004-3-8
状态 离线
『第 5 楼』:  

用http://www.topfisher.com/实现的.
topfisher在用于网页数据采集,数据分析是很强大的,虽然不支持图片验证,用户登录验证,但是对付常规页面还是小菜一碟.这个软件是目前所用过的所有采集软件里基于代码最灵活实现的. 其它更强大的也就那个织梦了,可以实时在线采集
//TopFisher v 2.10 脚本代码
//配置部分,您可以在这里直接修改配置参数
InitLink("http://bbs.xunshang.net/simple/index.php?t53815.html")
DbConnStr("Provider=Microsoft.JET.OLEDB.4.0;Data source=data.mdb;Jet OLEDB:Engine Type=5;")
dbTable("myTable",5)

//-----------------------------------------------------------

//代码部分
function main
webmem(DELETE,"<span style="display:none">","<br/>")
webmem(REPLACE,"<br/>","")
//这是TPF脚本的主函数,请将代码写在这里
_$str1=html[0].head[0].body[0].table[1].tr[0].td[0].table[0].tr[1].td[0].text
dellabel(_$str1)
printf(_$str1)

end

2010/04/26 02:06:39: main
2010/04/26 02:06:39: Creating .MDB file...
2010/04/26 02:06:39: Create .MDB file ok.
2010/04/26 02:06:39: open db ok.
2010/04/26 02:06:39: http://bbs.xunshang.net/simple/index.php?t53815.html
2010/04/26 02:06:39: write temp web file...
2010/04/26 02:06:39: webfile connect ok.
2010/04/26 02:06:39: Reading web file...
2010/04/26 02:06:39: Web file length is: 25798 bytes.
2010/04/26 02:06:39: building webBuffer...
2010/04/26 02:06:39: _$str1 = [
有人说现代的女人最怕没有外遇,是不是这样?
曾经跟人聊天说:“现代女人最怕什么?”不料一位文友说:“最怕没有外遇。”这句话猛听起来有点刺激,但仔细琢磨便觉得不无的道理。女人怕没有外遇,就是最怕激情不再、浪漫无踪。哪怕是精神外遇也好,因为浪漫、激情是女人生活的动力,冷落则是女人生活的大敌。女人需要激情,已婚女人更甚,这也是女人更喜欢婚外情根源。就激情而言,婚内不如混外,婚后不如婚前。婚前、婚后,婚内、婚外的滋味,用一句广告词来说:“感觉不一样,就是不一样。”大多有外遇的女士都有如此感觉:“丈夫不如小情人。”婚前的男人啥也不懂,啥也不会,单纯的不能再单纯了,但却让女人浪漫激情;婚后的男人啥也都懂了,啥也都明白了,尽管也很卖力,但是却让妻子心生厌倦。电视剧中,一女士离婚时对丈夫说:“你是个好丈夫,离婚后,我可能会后悔。可是,我还是选择离婚,因对女人来说,美妙的外遇更符合他们的天性。外遇给予女人极大的安慰和满足,跟情人的任何接触(包括精神的)都是那样充满浪漫、激情和刺激,情人的爱抚会让她们觉得身上的每一个细胞都在震颤和兴奋,而丈夫无论如何卖力,都不会让她们有在情人那里的感觉。有了外遇更能让女人身心振颤和投入,让女人成为性情中的完美女人。在婚姻中得不到满足的人会去寻找婚外情,而且,寻求婚外刺激的,无论是男性还是女性,都大有增加。人称四大闲:“下岗工人,调研员,老板的妻子,县长的钱。”对于“老婆基本不动”的老板们来说:自己的妻子自己不动,并不意味别人也不动。在资产阶级国家里,一些上层社会夫妇交往中,表面上跟我们公共场合的领袖们一样亲密无间,一旦避人耳目,夫妇二人便会各自去寻找各自的“蜜糖”。李升禹在《大部分的妻都有婚外情》指出:“如果一个女人虽然与丈夫没有离婚,但在长期工作和生活的相互关心中爱上了别的男人。虽然,这个女人和男人从未发生过关系,但女人是‘心里只有他’,深深的爱上了他。那么,这种情况就可以说:虽然这个女人没有和别的男人上床,但在她的生命中占最大份量的软件——爱情,都已经属于了丈夫以外的男人,对于这个女人来说,心已经走了——那也是婚外情的一种!在现谁都想有幻想打破家庭生活那一瞬间的勇气,谁都会产生过呼吸一下新生活的想法,谁都想换换沉闷、单调生活的口味。现在社会,任何时代的女人,只要是她们能表达自己的意志,她们都愿意过风流快活的日子,而不屑平静温和生活一辈子,这也是女人一生多悲剧的根源。在这个世界上,只有不能或不敢的女人,没有不行或感情不出轨的女出现,但爱人又不在身边,这种情况很可能出现婚外性一个重要诱因。当一个人独处时,很渴望得到别人的拥抱、轻抚、关怀,此时候,如果一个男性的出现,就可能成为独处女人沙漠中的一片绿洲。寂寞是朵无助的花,只要给它一点点的水分,它就会没完没了地开,全不去管明天是否枯萎。楚江南说:“婚外恋中主动的有男人,女人也想恋,但是女人心高,常常是渴望的时候多,实践的机会少,浪漫的向往常有,而令女人心动的人不常有。所以女人就比男人更加看重家庭,希望从家庭内部寻找爱情。而女人一旦把丈夫当成爱情对象,就会显得计较,爱抱怨,酸溜溜的,让男人无奈,男人又上外边寻找安慰,这是婚姻生活的怪圈。”也许不少人会认为,在当今的婚外情战场上,男性总是孜孜不倦,乐此不彼,而女性则总是被动角色。生活其实并非如此。专家在研究中指出,许多已婚女*****幻想和另一个他发生婚外关系。这就是说,无论是男性还是女性,都有拈花惹草之本性。特别是随着女性社会经济地位和教育程度的提高,其追求独立和自我实现的欲望也不断加强,因而在婚外感情或勾引男性方面真可谓巾帼不让须眉。我们常常认为夫妻感情不和是婚外情的主要诱因,但对于很多人来说并非如此。在婚姻中得不到满足的人,往往会去寻找婚外情,寻求婚外刺激的。一女士讲:“中国现在的家庭99%的是凑合着过。”这话至少对“觉悟”的妇女来说,是有道理的,同时,也道出女人心性的危机和危险。在对沈阳市1000对离婚夫妇所作的“对婚姻不满的原因”调查中,与异性接触频繁的男人32%,女人41%;与他人有暧昧关系的男人11%,女人29%。据对广州70个离婚妇女的调查表明,在感情方面对丈夫不美国人类学教授菲舍尔指出:“大多数女性在结婚生子之后,从感情上来讲便对丈夫失去了兴趣。而这个时候,只要遇到能让自己的心激起涟漪的新欢,她们往往就会移情别女人历经恋爱、结婚、生子、婚外情至离婚,通常只有四年左右时间。”也就是说,女人认识一个男人从新鲜、激情到厌倦,到见异思迁,上帝仅仅给了四年的时间。感情是个易碎品。由于时代的发展,感情这东西越变越快,快得无法控制。所以人们就渐渐对的白头到老现象没了兴趣,反而更能平心静气地面对见异思迁的现实。菲舍尔说:“随着时代的发展,妇女的经济独立性不断地提高,她们的这种基因最终会显示出更大更为明确的威力。”《时报周刊》的一项调查,参与调查的狮城妇女竟有41%承认对丈夫不忠,而韩国妇女对丈夫不忠的比例更高。随着社会的进步,人性的解放,不管离婚后社会和自身压力多子的主动占了 80%,而且,比例还在攀升。然而社会发展至今,女子的地位已有了根本的转变,不仅嫁鸡随鸡已成为历史。一调查中指出:“有21的出墙者称‘触电的浪漫’是她们尝试外遇的主要原因。在本次问卷调查中,受访的已婚者认为婚外情的主要目的依次是:追求新奇刺激、生理需要、感情需要和婚姻的调味品。”专家认为,人的感情完全是由大脑中的化学物质反应决定的,而这种化学物质就是脑垂体荷尔蒙。几乎可以肯定,脑垂体荷尔蒙就是决定人类性欲和幸福感的成分。一网文说:“许多人也许都还记得诸如鸳鸯生死相依这样的神话。这些神话可都是过去研究鸟类的科学家告诉我们的。不过,现在他们改口了,说动物王国根本不存在一夫一妻制。他们原以为94%的鸟类实行一夫一妻制,如今任何鸟巢中,却有平均30%甚至更多的小鸟不是巢中那只‘合法’的雄鸟所生。他们原以为哺乳动物中有2%到4%的忠诚的情种,现在却发现这令人感伤的数字还得往下调。最令他们惊奇也很不高兴的是,他们发现这些局面大多数是雌性造成的,也就是说,在自然界,‘水性杨花女’远远多于‘朝三暮四郎’。”适合自己。大多女人造男人的反没有表现出来急风暴雨的形式,也是因为社会经济的缘故。在西方发达国家,女人见异思迁,也不过是个人情调问题,似乎跟道德没有多大关系。富裕的女人多出轨,已经是不争的事实。西方专家认为:在所有的年龄层次中,外遇比例最高的是26岁到30岁的妇女。《美国配一成。美国一研究成果表明:少妇出轨也在加速。1960年前,结婚的妇女平均结婚14年半后才发生第一次外遇,而现代妇女只有5年就开始有婚外情了。有关专家就外遇问题与西方如“美国婚姻与家庭协会”所作的调查结果基本相同,他们发现妇女发生外遇的或许有人要问,既然如此,那么整个社会不乱套了。其实这是杞人忧天,因为女人毕竟是社会中女人、家庭中的女人。女人要把见异思迁变为行动要受社会、家庭以及经济道德等因素的制约。美国人类学教授菲舍尔说:“尽管事实上的确有不少夫妻能长相厮女人之所以比男人安分,是因为没有男人那么多的机遇。楚江南认为:“浪漫的向往常有,而令女人心动的人不常有。所以女人就比男人更加看重家庭,希望从家庭内部寻找爱情。而女人一旦把丈夫当成爱情对象,就会显得计较,爱抱怨,酸溜溜的,让男人无奈,男人又上外边寻找安慰,这是婚姻生活的怪圈。”而今,随着女人经济和社会地位的提高,经济和地位独立的女性越来越多,女人外遇也越来越成为一道风景。有人预言:21世纪是“新外遇”时代,在情感游戏面前男女趋于平等,“ 红杏出墙”在现代女人生活中像一条暗动的河流汹涌澎湃。人民网报道:“少数人把结婚看成一种性避难,对其他异性几乎没有什么实际上的兴趣。但对大多数人来说,婚姻并不能减少异性对他们的吸引力。这可以仅仅表现为妄想、友谊或者略带目的的适度的调情。有少数未成熟的人,没有能力在任何关系中认真地承担义务,所以,他尽管结了婚,婚外关系仍在继续。”这是一个渴望的时代,渴望激情,渴望浪漫,渴望情人和婚外恋。在这个时代,女人比男人更加充满热情和活力,对情调的索取超过了任何时代,感情的走私也更加频繁,对来越越多的感情走私和婚外情。只不过在中国,国人道学家的功底高深莫测,做得说不得,跟中国肮脏的官场一样。我们的领导总是一面荒淫无耻,另一面却在大讲“三讲”“五讲”。越是如此,我老翟越认为有刺激的必要。借用《红楼梦》中一首绝句:满纸荒唐言,一把辛酸泪;都云老翟痴,应知其中味?!]
2010/04/26 02:06:39: database closed.
2010/04/26 02:06:39: all .tpf file finished.
webMem(p1(操作指令),p2(字符串参数1),? p3(字符串参数2)): 直接对web页面源码进行过滤
说明:
直接对下载下来的web页面源码进行字符串过滤,如:替换某些字符串,或删除某些字符串等。这个函数一般情况下不需要使用。只有在某些网页源码比较杂乱,直接采集比较麻烦,需要先过滤一些无用的元素的时候,才有使用webMem函数的必要。

[ Last edited by dato on 2010-4-26 at 02:30 ]



http://dato.ys168.com
google search bot
http://dato.minidns.net/
2010-4-26 02:29
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
asnahu
初级用户





积分 99
发帖 53
注册 2006-8-18
状态 离线
『第 6 楼』:  


wget http://bbs.xunshang.net/simple/index.php?t53815.html -O - | htox32c /IP  | sed "s/ .*//g" | sed "/^[^\x80-\xff]\+/d"
其中[^\80-\xff]表示非中文字符。

   此帖被 +15 点积分         点击查看详情   
评分人:【 plp626 分数: +15  时间:2010-4-26 13:12


2010-4-26 09:32
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 7 楼』:  



  Quote:
Originally posted by asnahu at 2010-4-26 09:32 AM:
wget http://bbs.xunshang.net/simple/index.php?t53815.html -O - | htox32c /IP  | sed "s/ .*//g" | sed "/^[^\x80-\xff]\+/d"
其中[^\80-\xff]表示非中文字符。

喜欢这优美的代码
=========================

但是,[^\80-\xff] 过滤了网页中的乱码字符也过滤掉了文章中有用的数据比如阿拉伯数字还有某些英文单词

[ Last edited by plp626 on 2010-4-26 at 13:16 ]



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2010-4-26 13:13
查看资料  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 8 楼』:  



  Quote:
Originally posted by dato at 2010-4-26 02:29 AM:
http://www.topfisher.com/实现的.
topfisher在用于网页数据采集,数据分析是很强大的,虽然不支持图片验证,用户登录验证,但是对付常规页面还是小菜一碟.这 ...

是很强大,现在没分了,下次加上



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2010-4-26 13:19
查看资料  发短消息 网志   编辑帖子  回复  引用回复
Hanyeguxing
银牌会员

正在学习中的菜鸟...


积分 1039
发帖 897
注册 2009-3-1
来自 在地狱中仰望天堂
状态 离线
『第 9 楼』:  

在Microsoft Office FrontPage中,查找——HTML标记:设置查找标记为span,然后:
1,可以直接“替换操作”为“仅替换目录”,直接干掉<span style="display:none">**********</span>中的所有乱码。。。
2,可以直接“替换操作”为“替换标记和目录”,连span标记都干掉,世界就清净了。。。

基于以上目的,也可以使用sed来完成对<span style="display:none">**********</span>的跨行匹配等等



批处理之家 http://bbs.bathome.net/forum-5-1.html
2010-4-26 14:09
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
fsfss
初级用户





积分 22
发帖 20
注册 2009-7-6
状态 离线
『第 10 楼』:  


ie=WScript.createobject("internetexplorer.application");
fso=WScript.createobject("scripting.filesystemobject")
ie.navigate("http://bbs.xunshang.net/simple/index.php?t53815.html");
do{
    WScript.sleep(10);
}while(ie.readyState!=4&&ie.Busy==true);
len=ie.document.getElementsByTagName("span").length;
for(i=0;i<len;i++){
    if(ie.document.getElementsByTagName("span")[i].style.display=="none"){
            ie.document.getElementsByTagName("span")[i].innerText="";
    }
}
text=ie.document.getElementsByTagName("table")[2].innerText;
text=text.replace(/([\u4e00-\u9fcf])(?:\s*\r\n\s*)+([\u4e00-\u9fcf])/g,"$1$2");
text=text.replace(/(?:\s*\r\n\s*)+/g,"\r\n    ");
fso.CreateTextFile("html_text.txt",true,true).write(text);
WScript.sleep(500);
WScript.createobject("wscript.shell").run("notepad html_text.txt");
ie.Quit();


2010-4-26 23:32
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复

请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: