中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » BAT能否解决网页空白乱码的问题
作者:
标题: BAT能否解决网页空白乱码的问题 上一主题 | 下一主题
cad55
高级用户





积分 620
发帖 329
注册 2007-12-5
状态 离线
『楼 主』:  BAT能否解决网页空白乱码的问题

目前网页空白处或结尾处添加了,仿复制文字的乱码。

试了多种方法,可以去除但很不方便

请大家分析分析,用BAT能否解决。

例如此处网页文字就添加了乱码:http://nj.bbs.house.sina.com.cn/ ... ou?source=sina_news

2009-12-29 14:29
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
qinchun36
高级用户

据说是李先生


积分 609
发帖 400
注册 2008-4-23
状态 离线
『第 2 楼』:  

BAT估计不好搞吧,首先获取页面内容就是个问题。

我的思路是获取所有HTML源代码,然后剔除它里面把颜色显示为白色的部分。

针对新浪这个BBS的相关帖子做了几个测试,写了一行脚本,好像可以实现。
javascript:document.write((document.body.innerHTML.replace(/<span[^>\/]*>[^\/]*<\/span>/gi,"")).replace(/<font[^>\/]*#fff[^>\/]*>[^=]*<\/font>/gi,""));
先打开你要看的网页,然后把这个粘贴到地址栏,然后回车,就能看到没有杂物的文字,没有严格测试,我对正则表达式也不是太精通。

现在的文字看起来干净了,但可能还有残缺的HTML标记,复制到记事本中再从记事本复制出来的就是纯净的文本了。

[ Last edited by qinchun36 on 2009-12-29 at 20:44 ]



┏━━━━━━┓
┃据说是李先生┃
┠──────┨
┃*ntRSS┃
┗━━━━━━┛
2009-12-29 20:37
查看资料  发送邮件  发短消息 网志  OICQ (182484135)  编辑帖子  回复  引用回复

请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: