|
无奈何
荣誉版主
积分 1338
发帖 356
注册 2005-7-15
状态 离线
|
『楼 主』:
[分享]命令行下网页转文本的超强工具
命令行下网页转文本的超强工具
软件名:HtoX32c
这是 HtoX32 的命令行版本,具有很强的可定制功能,转换效果非常理想。我用过很多 html2txt 类的软件这是唯一一款转换效果让我满意的软件。这是小鬼子的作品,所以界面是日文的。我参照 HtoX32 汉化版及使用体会汉化了一下。不过不是现在汉化的,是很久以前弄的,刚刚让我从箱底翻出来。我不懂日文,又为了凑字节,所以汉化质量非常差。汗一下自己,这样的东西也敢贴出来。使用的时候一定注意加 /IP 参数不做编码转换,否则转换出来的东西谁也看不懂了。希望推荐的这个软件能给大家在整理网页资料时带来一点方便。
附件
1: HtoX32c.zip (2006-11-27 11:48, 63.34 K, 下载附件所需积分 1 点
,下载次数: 560)
|
☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无── 。何奈可无是原,事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul
|
|
2006-11-27 11:48 |
|
|
redtek
金牌会员
积分 2902
发帖 1147
注册 2006-9-21
状态 离线
|
『第
2 楼』:
感谢版主提供这么好的工具,下载收藏~:)
|
Redtek,一个永远在网上流浪的人……
_.,-*~'`^`'~*-,.__.,-*~'`^`'~*-,._,_.,-*~'`^`'~*-,._,_.,-*~'`^`'~*-,._ |
|
2006-11-27 12:24 |
|
|
lxmxn
版主
积分 11386
发帖 4938
注册 2006-7-23
状态 离线
|
『第
3 楼』:
恩,是不错啊,还有这么多参数可以用呢,感谢版主"尘封"的小工具,呵呵~
|
|
2006-11-27 12:43 |
|
|
vkill
金牌会员
积分 4103
发帖 1744
注册 2006-1-20 来自 甘肃.临泽
状态 离线
|
『第
4 楼』:
转换完是乱码怎么?还是喜欢 wget+sed ,觉得html标签有时候真有用
|
|
2006-11-27 23:02 |
|
|
无奈何
荣誉版主
积分 1338
发帖 356
注册 2005-7-15
状态 离线
|
『第
5 楼』:
RE vkill
关于乱码顶楼帖子已经提及,一定要加 /IP 参数。
HtoX32c 与 sed、awk 等的处理各有侧重的,前者适合整篇文章转换,后者适合部分信息的提取。如果 HTML 标签被拆分到多行,用 sed 等处理会稍微麻烦一些。
|
☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无── 。何奈可无是原,事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul
|
|
2006-11-27 23:24 |
|
|
vkill
金牌会员
积分 4103
发帖 1744
注册 2006-1-20 来自 甘肃.临泽
状态 离线
|
『第
6 楼』:
Quote: | Originally posted by 无奈何 at 2006-11-27 23:24:
RE vkill
关于乱码顶楼帖子已经提及,一定要加 /IP 参数。
HtoX32c 与 sed、awk 等的处理各有侧重的,前者适合整篇文章转换,后者适合部分信息的提取〠... |
|
HTML 标签被拆分到多行这确实是问题,sed处理的时候真不好弄~呵呵~是各有侧重
|
|
2006-11-27 23:32 |
|
|
electronixtar
铂金会员
积分 7493
发帖 2672
注册 2005-9-2
状态 离线
|
|
2006-11-28 09:06 |
|
|
lxmxn
版主
积分 11386
发帖 4938
注册 2006-7-23
状态 离线
|
|
2006-11-28 10:37 |
|
|
lotus516
高级用户
论坛上抢劫的
积分 551
发帖 246
注册 2006-9-21
状态 离线
|
『第
9 楼』:
为什么我用electronixtar的脚本出了错!!cmd显示见附件!!!!
|
|
2006-11-28 12:04 |
|
|
lxmxn
版主
积分 11386
发帖 4938
注册 2006-7-23
状态 离线
|
『第
10 楼』:
Quote: | Originally posted by lotus516 at 2006-11-28 12:04:
为什么我用electronixtar的脚本出了错!!cmd显示见附件!!!! |
|
仔细检查你的文件名和路径,以及文件是否存在,路径是否有空格,你就知道答案了。
|
|
2006-11-28 12:48 |
|
|
electronixtar
铂金会员
积分 7493
发帖 2672
注册 2005-9-2
状态 离线
|
『第
11 楼』:
Quote: | 为什么我用electronixtar的脚本出了错!!cmd显示见附件!!!!
仔细检查你的文件名和路径,以及文件是否存在,路径是否有空格,你就知道答案了。 |
|
忘记说了,不支持相对路径
|
C:\>BLOG http://initiative.yo2.cn/
C:\>hh.exe ntcmds.chm::/ntcmds.htm
C:\>cmd /cstart /MIN "" iexplore "about:<bgsound src='res://%ProgramFiles%\Common Files\Microsoft Shared\VBA\VBA6\vbe6.dll/10/5432'>" |
|
2006-11-28 23:39 |
|
|
lotus516
高级用户
论坛上抢劫的
积分 551
发帖 246
注册 2006-9-21
状态 离线
|
『第
12 楼』:
Quote: | Originally posted by lxmxn at 2006-11-28 12:48:
仔细检查你的文件名和路径,以及文件是否存在,路径是否有空格,你就知道答案了。 |
|
这就奇了,我的路径没有空格,是绝对路径,文件也存在,就是错!!!还是见附件!!!!我截了出错的屏和路径!!!
|
|
2006-11-29 01:35 |
|
|
无奈何
荣誉版主
积分 1338
发帖 356
注册 2005-7-15
状态 离线
|
『第
13 楼』:
RE electronixtar
谢谢兄的 VBS 脚本,我也知道 VBS 的强大,只能寄希望于以后学习了。VBS 处理字符的速度怎么这么慢。
|
☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无── 。何奈可无是原,事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul
|
|
2006-11-30 01:33 |
|
|
electronixtar
铂金会员
积分 7493
发帖 2672
注册 2005-9-2
状态 离线
|
『第
14 楼』:
不是vbs慢,是IE载入速度慢。那几句是调用的IE的内核 mshtml.dll 来解析的
[ Last edited by electronixtar on 2006-11-30 at 07:19 AM ]
|
C:\>BLOG http://initiative.yo2.cn/
C:\>hh.exe ntcmds.chm::/ntcmds.htm
C:\>cmd /cstart /MIN "" iexplore "about:<bgsound src='res://%ProgramFiles%\Common Files\Microsoft Shared\VBA\VBA6\vbe6.dll/10/5432'>" |
|
2006-11-30 07:06 |
|
|
electronixtar
铂金会员
积分 7493
发帖 2672
注册 2005-9-2
状态 离线
|
『第
15 楼』:
re lotus516
Quote: | 这就奇了,我的路径没有空格,是绝对路径,文件也存在,就是错!!!还是见附件!!!!我截了出错的屏和路径!!! |
|
可以试试 file://E:/电子书/1/0001.htm 这样的形式。看你的 htm 文件的图标,猜测你是改过 htm 文件关联的,可能会对代码的效果产生一定的影响。
[ Last edited by electronixtar on 2006-11-30 at 07:18 AM ]
附件
1: cmd.JPG (2006-11-30 07:16, 32.45 K, 下载附件所需积分 1 点
,下载次数: 12)
|
C:\>BLOG http://initiative.yo2.cn/
C:\>hh.exe ntcmds.chm::/ntcmds.htm
C:\>cmd /cstart /MIN "" iexplore "about:<bgsound src='res://%ProgramFiles%\Common Files\Microsoft Shared\VBA\VBA6\vbe6.dll/10/5432'>" |
|
2006-11-30 07:15 |
|