中国DOS联盟论坛 - Powered by Discuz! Board

标题: [已结][NT]如何在超长行中检索关键字? [打印本页]

作者: amark 时间: 2009-2-3 15:47 标题: [已结][NT]如何在超长行中检索关键字?

我要做的事情是这样子的:
有一个XML报文,大小大约是1M左右,最长的一行大约有4000多字节,这样子的话,用find命令无法在这种超长行中检索关键字.
现在的想法.
1,用findstr命令,测试过,可以检索4KB的行
2,把长行割成短行,这基本就是报文解析的事了.
希望有过类似经验的朋友一起探讨.

[ Last edited by amark on 2009-2-9 at 11:20 ]

作者: yishanju 时间: 2009-2-3 15:54
. 粘一个样文看看

作者: yishanju 时间: 2009-2-3 16:03
xmlstarlet
F http://baiy.cn/utils/f/index.htm

SED
AWK

等等这些工具应该可以胜任

作者: HAT 时间: 2009-2-3 20:37
既然findstr命令可以检索4KB的行，为啥不用呢？

作者: amark 时间: 2009-2-4 09:08
呃,是这样的.
当findstr检索并返回这个4KB的行后,仍然需要在这4KB中找到特定关键字段.
如:
<errorfields><field name="date" type="0" value="" value1=今天" value2="昨天" time1="20090204" time2="20090203"/></errorfields>
并把这段中的几个值如"今天""昨天""20090204""20090203"提取出来.
昨天试着用for /f "tokens=31* delims=<> usebackq" %%i in (error.txt)来做这步工作.
结果%%i只能取到第31个节点的内容,如attribute name="television" type="0" value="1"
而想要对%%j也就是含有所需关键字段的字符串做进一步处理时,由于xml是utf-8编码的,echo %%j将会得到一堆乱码.
现在正在整理思路.
PS:条件所限,无法使用第三方工具.对2楼的建议先行谢过

[ Last edited by amark on 2009-2-4 at 09:11 ]

作者: netbenton 时间: 2009-2-4 09:31
那就把它转换成ASCII码再用三方处理吧，
偶觉得for /f可能搞不定4k以上的长字段，节点多更是处理不了。
除非再用其它办法分行。

作者: yishanju 时间: 2009-2-4 15:40
最多代码繁杂点，批处理应该是可以从XML中截出需要的字符串的
传个文件上来看看就知道了

作者: amark 时间: 2009-2-9 11:25
上周做好了.调了一个vbs来把>替换成>/n,解决长行的问题.调了另一个vbs把utf8转成unicode,然后再type成ansi.解决乱码的问题,再此谢谢楼上诸位的意见和建议.

作者: yishanju 时间: 2009-2-9 12:19
把代码贴一贴嘛，给大家分享一下