中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » 【求助】htox32c转换html2txt 汉字乱码
« [1] [2] »
作者:
标题: 【求助】htox32c转换html2txt 汉字乱码 上一主题 | 下一主题
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『楼 主』:  【求助】htox32c转换html2txt 汉字乱码

如题,搜索了无果,想问是那个参数可解决,还是压根就。。。

  Quote:
options :(参数设置括号内为缺省值)
/Cn           设每行列数最大值 [n:1-255](79)
/T{0|1}       转换页面标题 [0:不执行,1:(执行)]
/I{a|j|s|e|u|8|p} 转换编码:
            [a:(自动),j:JIS,s:shiftJIS,e:EUC,u:Unicode,8:UTF-8,p:不转换]
/S{0|1}       是否将连续空白内容合并 [0:不执行,1:(执行)]
/L{0|1}       是否删除行首行末的空白 [0:不执行,1:(执行)]
/E{0|1}       是否清除文中的EOF编码(0x1a) [0:不执行,1:(执行)]
/F{0|1}       如果转换后文本文件末尾不是回车符则添加回车符 [0:不执行,1:(执行)]
/O{0|1}       输出覆盖已有文件时是否提示 [0:不提示,1:(提示)]
/G{0|1|2|3|4"用户自定义字符串" (%s=指定替代文本)} <IMG>转换的标签
            [0:(不转换),1:"[Image]",2:"[(src=)]",3:"[(alt=)]",4:用户定义]
/D{0|1|2}     表格之间文字的间隔符 [0: (半角空格) ,1:逗号 ,2:TAB]
/Q{0|1}       以指定[每行列数最大值]强制换行 [0:(不执行),1:执行]
/A{0|1}       强制表格内文字总是左对齐 [0:(不执行),1:执行]
/U{0-7}       是否执行插入链接网址
            [0:(不执行),1:执行,+2:(在前后换行),+4:(仅插入外部链接)]

这是转换百度首页的截图:




山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2009-5-29 06:58
查看资料  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 2 楼』:  

算了还是用VBS吧,哎。。。。



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2009-5-29 07:26
查看资料  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 3 楼』:  

真的没人?



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2009-5-29 07:28
查看资料  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 4 楼』:  

已经解决
答案为 h2x32c /ip index.html



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2009-5-29 07:49
查看资料  发短消息 网志   编辑帖子  回复  引用回复
slore
铂金会员





积分 5212
发帖 2478
注册 2007-2-8
状态 离线
『第 5 楼』:  

/ip



S smile 微笑,L love 爱,O optimism 乐观,R relax 放松,E enthusiasm 热情...Slore
2009-5-29 07:50
查看资料  发短消息 网志   编辑帖子  回复  引用回复
knoppix7
银牌会员





积分 1287
发帖 634
注册 2007-5-2
来自 cmd.exe
状态 离线
『第 6 楼』:  

/ip
它那个程序默认吧给出来的字符全当S-JIS编码了..

2009-5-29 23:30
查看资料  发短消息 网志   编辑帖子  回复  引用回复
740011611
初级用户





积分 96
发帖 83
注册 2009-6-4
来自 信阳
状态 离线
『第 7 楼』:  

为什么加上 /ip  参数后也是乱码?我转换的是dos联盟本论坛的网页。
   
如下乱码:




TITLE : [杞笘]RUNDLL32鐨勫簲鐢紒 - DOS瀛︿範鍏ラ棬 & 绮惧僵鏂囩珷 锛堟暀瀛﹀锛?- 涓浗DOS鑱旂洘璁哄潧 - 涓浗DOS鑱旂洘涔嬭仈鍚圖OS璁哄潧

涓浗DOS鑱旂洘璁哄潧 佲 DOS瀛︿範鍏ラ棬 & 绮惧僵鏂囩珷 锛堟暀瀛﹀锛?佲 [杞笘]RUNDLL32鐨勫簲鐢紒

[ Last edited by 740011611 on 2010-5-3 at 09:23 ]

附件 1: 效果.rar (2010-5-3 09:19, 24.77 K,下载次数: 13)
2010-4-30 23:19
查看资料  发送邮件  发短消息 网志  OICQ (740011611)  编辑帖子  回复  引用回复
740011611
初级用户





积分 96
发帖 83
注册 2009-6-4
来自 信阳
状态 离线
『第 8 楼』:  

不要沉了啊,为什么解决不了呢?

2010-5-3 09:24
查看资料  发送邮件  发短消息 网志  OICQ (740011611)  编辑帖子  回复  引用回复
freeants001
中级用户




积分 330
发帖 244
注册 2006-4-14
来自 湖北
状态 离线
『第 9 楼』:  



  Quote:
Originally posted by 740011611 at 2010-4-30 23:19:
为什么加上 /ip  参数后也是乱码?我转换的是dos联盟本论坛的网页。
   
如下乱码:




TITLE : [杞笘]RUNDLL32鐨勫簲鐢紒 ...

编码问题。
(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + /b curl.txt TMP.$$
copy/b TMP.$$ curl.txt
del /q TMP.$$
start curl.txt


2010-5-3 13:27
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
740011611
初级用户





积分 96
发帖 83
注册 2009-6-4
来自 信阳
状态 离线
『第 10 楼』:  

多谢,你的代码执行的很好。呵呵。但是我对编码一窍不通,在本论坛也收索了下,不是很懂,能讲讲你那段代码的详细意思吗?还有中国dos联盟本论坛采用的是什么编码方式啊??

[ Last edited by 740011611 on 2010-5-3 at 20:55 ]

2010-5-3 20:18
查看资料  发送邮件  发短消息 网志  OICQ (740011611)  编辑帖子  回复  引用回复
freeants001
中级用户




积分 330
发帖 244
注册 2006-4-14
来自 湖北
状态 离线
『第 11 楼』:  

对于编码,我对是七窍通了六窍,下面就个人理解讲一下
1首先说一下为什么HtoX32c.exe转换后会出现乱码。
这个不是HtoX32c.exe程序的Bug,而是原文件缺少UTF-8文件头(EF BB BF)。
注:可以用Debug的D命令查看一下,也可以用附件中的小工具(以前学C时写的)

2哪为什么网页和Notepad中没有出现乱码呢?
这是因为源html文件中有下面这一句限定了编码:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
而Notepad中查看没有出现乱码是因为Notepad有一定的智能识别功能(个人推测,有时这个会弄出令人啼笑皆非的事情,打开Notepad输入“联通”二字,保存再次打开试试你会看到什么)


转换后的文件也缺少文件头,而记事本此时又不能智能的识别,所以就乱码了。因此只要加上文件头就可以了。

本人不善言辞,讲的比较乱,希望对你有所帮助;)

   此帖被 +16 点积分         点击查看详情   
评分人:【 740011611 分数: +1  时间:2010-5-4 15:24
评分人:【 plp626 分数: +15  时间:2010-6-3 14:42


附件 1: hex.rar (2010-5-3 22:31, 17.94 K,下载次数: 13)
2010-5-3 22:31
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
740011611
初级用户





积分 96
发帖 83
注册 2009-6-4
来自 信阳
状态 离线
『第 12 楼』:  

谢谢了

2010-5-4 15:24
查看资料  发送邮件  发短消息 网志  OICQ (740011611)  编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 13 楼』:  

copy/b TMP.$$ + /b curl.txt TMP.$$

写成这样子好理解:
copy /b TMP.$$ + curl.txt TMP.$$



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2010-6-16 00:59
查看资料  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 14 楼』:  

[quote]Originally posted by freeants001 at 2010-5-3 01:27 PM:


编码问题。
(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + /b curl.txt TMP.$$
copy/b TMP.$$ curl.tx ... [/quote]


在这个代码中:
[code]copy/b TMP.$$ curl.txt
我很好奇为什么这句没有提示
改写 curl.txt 吗? (Yes/No/All)

[ Last edited by plp626 on 2010-6-16 at 01:18 ]



山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2010-6-16 01:16
查看资料  发短消息 网志   编辑帖子  回复  引用回复
plp626
银牌会员

钻石会员


积分 2278
发帖 1020
注册 2007-11-19
状态 离线
『第 15 楼』:  

用这个代码吧,可读性强。copy /b 有bug 害 的我实验了半个小时
(ECHO.F100,102 EF BB BF
ECHO.RCX
ECHO.3
ECHO.NTMP.$$
ECHO.W
ECHO.Q
)|DEBUG
htox32c /O0 /ip curl.html
copy/b TMP.$$ + curl.txt TMP.$$
ren tmp.$$ curl[ascii].txt
start curl.txt




山外有山,人外有人;低调做人,努力做事。

进入网盘(各种工具)~~ 空间~~cmd学习
2010-6-16 01:35
查看资料  发短消息 网志   编辑帖子  回复  引用回复
« [1] [2] »
请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: