中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » [已结][NT]如何在超长行中检索关键字?
作者:
标题: [已结][NT]如何在超长行中检索关键字? 上一主题 | 下一主题
amark
新手上路





积分 3
发帖 3
注册 2009-2-3
状态 离线
『楼 主』:  [已结][NT]如何在超长行中检索关键字?

我要做的事情是这样子的:
有一个XML报文,大小大约是1M左右,最长的一行大约有4000多字节,这样子的话,用find命令无法在这种超长行中检索关键字.
现在的想法.
1,用findstr命令,测试过,可以检索4KB的行
2,把长行割成短行,这基本就是报文解析的事了.
希望有过类似经验的朋友一起探讨.

[ Last edited by amark on 2009-2-9 at 11:20 ]

2009-2-3 15:47
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 2 楼』:  

. 粘一个样文看看




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2009-2-3 15:54
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 3 楼』:  

xmlstarlet
F http://baiy.cn/utils/f/index.htm

SED
AWK

等等这些工具应该可以胜任




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2009-2-3 16:03
查看资料  发短消息 网志   编辑帖子  回复  引用回复
HAT
版主





积分 9023
发帖 5017
注册 2007-5-31
状态 离线
『第 4 楼』:  

既然findstr命令可以检索4KB的行,为啥不用呢?



2009-2-3 20:37
查看资料  发短消息 网志   编辑帖子  回复  引用回复
amark
新手上路





积分 3
发帖 3
注册 2009-2-3
状态 离线
『第 5 楼』:  

呃,是这样的.
当findstr检索并返回这个4KB的行后,仍然需要在这4KB中找到特定关键字段.
如:
<errorfields><field name="date" type="0" value="" value1=今天" value2="昨天" time1="20090204" time2="20090203"/></errorfields>
并把这段中的几个值如"今天""昨天""20090204""20090203"提取出来.
昨天试着用for /f "tokens=31* delims=<> usebackq" %%i in (error.txt)来做这步工作.
结果%%i只能取到第31个节点的内容,如attribute name="television" type="0" value="1"
而想要对%%j也就是含有所需关键字段的字符串做进一步处理时,由于xml是utf-8编码的,echo %%j将会得到一堆乱码.
现在正在整理思路.
PS:条件所限,无法使用第三方工具.对2楼的建议先行谢过

[ Last edited by amark on 2009-2-4 at 09:11 ]

2009-2-4 09:08
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
netbenton
银牌会员

批处理编程迷


积分 1916
发帖 752
注册 2008-12-28
来自 广西
状态 离线
『第 6 楼』:  

那就把它转换成ASCII码再用三方处理吧,
偶觉得for /f可能搞不定4k以上的长字段,节点多更是处理不了。
除非再用其它办法分行。



精简
[你的+我的+他的]=>[大家的]    个人网志   
2009-2-4 09:31
查看资料  发送邮件  发短消息 网志  OICQ (37659560)  编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 7 楼』:  

最多代码繁杂点,批处理应该是可以从XML中截出需要的字符串的
传个文件上来看看就知道了




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2009-2-4 15:40
查看资料  发短消息 网志   编辑帖子  回复  引用回复
amark
新手上路





积分 3
发帖 3
注册 2009-2-3
状态 离线
『第 8 楼』:  

上周做好了.调了一个vbs来把>替换成>/n,解决长行的问题.调了另一个vbs把utf8转成unicode,然后再type成ansi.解决乱码的问题,再此谢谢楼上诸位的意见和建议.

2009-2-9 11:25
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 9 楼』:  

把代码贴一贴嘛,给大家分享一下




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2009-2-9 12:19
查看资料  发短消息 网志   编辑帖子  回复  引用回复

请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: