Board logo

标题: [求助]文本比較替換,難度高問的很心虛(附圖內文简体) [打印本页]

作者: leo1984     时间: 2007-11-1 15:43    标题: [求助]文本比較替換,難度高問的很心虛(附圖內文简体)

大哥们请体谅小弟架设网站要处理太多文本数据的问题,又是初学者,才刚学会一些基本的批次输出输入,但要处理需要比较文本的问题,完全难倒新手啊
小弟学习的东西太多太杂,批次处理弄的一个头两个大><
请老大哥们发慈悲心帮小老弟看再看一下


如下图,请按箭头的数字顺序


看完图不明白让小弟解说一下

话说从前从前有一个文本叫index1.log的母亲
它在外头生了很多个dat的文本孩子
这些dat孩子在外地赚了很多钱
于是要比对母亲第一个‖分隔符之前的帐户,和dat孩子的档名
如果相同,dat孩子就可以把自己文本内容的:之前的金钱数额,汇到母亲第一个‖分隔符的帐户之后
这样母亲就很开心啦

所以简单的说:

处理前:
index1.log文本里,每行以第一个‖之前的数字和同目录里的dat档的档名作比较

  Quote:
14724‖[布景美化]‖Windows XP 布景主题精选51 In 1 ‖3‖天武帝‖20071012 181007‖TATATA‖1‖1192178479‖

比较和14724相同的14724.dat档后,打开14724.dat文本内的:之前的数字

  Quote:
87:61.224.135.39

而这个数字便直接再汇入index1.log第一个‖之后

处理后:

  Quote:
14724‖87‖[布景美化]‖Windows XP 布景主题精选51 In 1 ‖3‖天武帝‖20071012 181007‖TATATA‖1‖1192178479‖

这难度实在太高了,小弟问的真的心很虚啊,但不问又不知道如何处理上万篇的文本><

十分麻烦老大哥帮忙谢谢

[ Last edited by leo1984 on 2007-11-1 at 03:57 PM ]
作者: abcd     时间: 2007-11-1 16:19

@echo off
for /f "tokens=1* delims=‖" %%i in (index1.log) do (
  if exist "%%i.dat" (
     for /f "delims=:" %%a in (%%i.dat) do echo %%i‖%%a‖%%j>>index2.log
   ) else (
     echo %%i‖%%j>>index2.log
     )
)
pause
这个意思??

[ Last edited by abcd on 2007-11-1 at 04:22 PM ]
作者: lxmxn     时间: 2007-11-1 18:06
故事讲得很搞笑哦~~ ^_^
作者: leo1984     时间: 2007-11-1 21:11


  Quote:
Originally posted by abcd at 2007-11-1 04:19 PM:
[code]@echo off
for /f "tokens=1* delims=‖" %%i in (index1.log) do (
  if exist "%%i.dat" (
     for /f "delims=:" %%a in (%%i.dat) do echo %%i‖%%a‖%%j>> ...

大哥您不要整我啊
你一定是在變魔術
為何您寫的就這麼簡單
我可想了好半天哪@@"

感謝再感謝~願主保佑你~聖誕節快樂加新年快樂~    <<<<這小伙子瘋了
作者: leo1984     时间: 2007-11-1 21:15


  Quote:
Originally posted by lxmxn at 2007-11-1 06:06 PM:
故事讲得很搞笑哦~~ ^_^

我这么认真在说一个母亲的辛劳与孩子的孝顺
怎么变庵搞笑来的勒?! @@?
作者: terse     时间: 2007-11-1 22:06
改上面的试一下也一样
不过没有%%i.dat文件就不行了哦  呵呵  学习了
@echo off
for /f "tokens=1* delims=‖" %%i in (index1.log) do (
     for /f "delims=:" %%a in (%%i.dat) do echo %%i‖%%a‖%%j>>index.log
)
pause

[ Last edited by terse on 2007-11-1 at 10:22 PM ]
作者: leo1984     时间: 2007-11-2 04:01
@echo off
for /f "tokens=1* delims=∥" %%i in (index2.log) do (
for /f "tokens=5 delims=∥" %%a in (%%i.txt) do echo %%i∥%%a∥%%j>>index.log
)

我要抓取第五個∥字符
但是
for /f "tokens=5 delims=∥" %%a in (%%i.txt) do echo %%i∥%%a∥%%
這段tokens=5會把第五個字串抓出來,但是迴圈會繼續下去,因此連文本後面的的一起輸出來到index.log

請問為何同樣的寫法,tokens=5設為1時,就只會偵對第一行抓取
但設為5時,迴圈為何會繼續抓下去呢?

可以下載的的附件測試看,小老弟看的很困惑這是什麼魔法?

[ Last edited by leo1984 on 2007-11-2 at 04:02 AM ]
附件 1: 14536.txt (2007-11-2 04:01, 2.69 K,下载次数: 6)

作者: leo1984     时间: 2007-11-2 06:41
完了
研究整個晚上指令
只有skip只能指定跳過開頭幾行
沒有辦法直接指定第一行0.0"   (心頭一陣寒風吹過~~~~)
作者: abcd     时间: 2007-11-2 10:45
在楼主给的附件中根本就没有∥这个分隔符的。

不知道什么意思,还是用图说话吧
作者: terse     时间: 2007-11-2 10:48
是不是这个意思呢?
附件下来我这里是乱码,没测试!
@echo off
for /f "tokens=1* delims=‖" %%i in (index2.log) do (
set i=%%i
call :doc
)
pause
goto :eof
:doc
for /f "tokens=5 delims=‖" %%a in (%i%.txt) do (
  if not defined line set "line=%%a"
)
echo,%line%>>indexa.log
set line=

作者: leo1984     时间: 2007-11-2 12:02
给abcd大哥
这个很难用图片来说明@@"

我来简单说明一下好了,我原本提供的图里,知道了dat里头只要取出87放到index1.log即可
http://img155.imageshack.us/img155/5489/snap085dz5.jpg

所以您给的
for /f "delims=:" %%a in (%%i.dat) do echo %%i‖%%a‖%%j>>index2.log

找到:这个分隔符后,因为bat文本里头只有一行
所以这段回圈也只能执行一次

但是小老弟我这次要从txt文本里取出第五个以为分隔符的字串,然后一样放到index2.log里

所以我修改成
  for /f "tokens=5 delims=" %%a in (%%i.dat) do echo %%i‖%%a‖%%j>>index2.log

但是我们都知道回圈会不停不停的执行
而这次txt的文本里不只有一行
他是这样子

JAN‖1‖SlySoft All In One 2007-09-10-小绵羊套餐‖绵羊狐狸又来了@1@,这是一定要收下的啦,谢啦<br>‖220.132.11.106‖2007/09/18/ 11:10:02‖jan@yahoo.com

...........

..........以此类推可能有好几行

因此txt文本里头有几行,它就取出多少行的字串到index2.log里

原本小弟需要的index2.log一行比较dat只有一行后取出一个字串放到index2.log里,是可行的

而这次index2.log一行比较txt有许多行后取出许多字串放到index2.log里,就不符合一比一的取字串的需求了

因此我说如何能让回圈指定只取txt第一行,就停止再取超过第一行的字串,但因为找不到指令而小弟很心寒

而感谢terse提供的指令,小老弟平常接触的都是变数和回圈等等网站程式,没想到原来DOS可以口语话的进行比较
if not defined line  set "line=%%a"

只要和line一样的才能进行回圈
同时也宣告line=%%a

但重点来啦~没有排出阵列,只取出%%a进行比较后输出
因此

处理前,txt文本里的确实取出220.132.11.106这字串了

JAN‖1‖SlySoft All In One 2007-09-10-小绵羊套餐‖绵羊狐狸又来了@1@,这是一定要收下的啦,谢啦<br>‖220.132.11.106‖2007/09/18/ 11:10:02‖jan@yahoo.com

但放到index2.log原本需要的是这样

处理后:
3041‖220.132.11.106‖1489‖[尚未分类]‖【2-25】Nelson 软 体 作 品(全是繁体中文的喔)‖2‖琉璃★幻童‖20070914 061000‖琉璃★幻童 ‖1‖1185452828‖

但是因为输出只有宣告
echo,%line%>>indexa.log

所以变成只留下
220.132.11.106

其他原本应有的字串变成被220.132.11.106取代掉了

所以小弟的苦恼是terse大哥确实宣告一定要比较过%%a才能取出字串,但是不能排出阵列啊@@

请老大哥再帮忙小老弟
(超高难度的,不是小老弟不认真学,只是搜索整个论坛,也找不到for能够指定第一行执行一次就停止的指令,这老弟还在研究中啊@@)

[ Last edited by leo1984 on 2007-11-2 at 12:18 PM ]
作者: leo1984     时间: 2007-11-2 12:10
看得懂小弟的意思吗?
小弟想不出要拍什么图来解释@@
作者: abcd     时间: 2007-11-2 12:18
如果用sed的话,方便很多,速度也快很多

發現臺灣把變量叫做變數,循環叫做逥圈
作者: abcd     时间: 2007-11-2 12:19
樓主的意思是只去對應文本的第一行里的第五個‖后的字符

是吧??
作者: junchen2     时间: 2007-11-2 12:22
for /f "tokens=5 delims=‖" %%a in ('sed -n 1p %%i.dat') do echo %%i‖%%a‖%%j>>index2.log
作者: leo1984     时间: 2007-11-2 12:23
哈哈,小弟我尽量用中国人的用语,但多少还是两岸风俗不同@@"
其实我很多用语都用中国人的了,但还是有一两个以为是大家都一样的,结果还是不同

DOS有很多和CGI、PHP相似的,像是循环之类的小弟还稍微能理解
但都还没学完啊@@

SED小弟虽能看的懂,但完全不知道要怎么写了><

[ Last edited by leo1984 on 2007-11-2 at 12:31 PM ]
作者: leo1984     时间: 2007-11-2 12:26
啊?!
原本小第也有寫到sed -n 1p %%i.dat
但沒想到是要用( )包起來啊
我先上廁所,等下試試^^
感謝

for /f "tokens=5 delims=‖" %%a in ('sed -n 1p %%i.dat') do echo %%i‖%%a‖%%j>>index2.log
作者: leo1984     时间: 2007-11-2 12:27
abcd就是這意思@@
我是怕您不懂,所以從頭到尾解釋過程一遍,哈哈^^"
作者: abcd     时间: 2007-11-2 12:31
sed -n 1p %%i.dat

沒有

sed "1q" %%i.dat

速度快
作者: leo1984     时间: 2007-11-2 13:36
發現只能夠指定處理後,不能輸出耶@@
請問是什麼原因呢?謝謝

@echo off
for /f "tokens=1* delims=∥" %%i in (index2.log) do (
for /f "tokens=5 delims=∥" %%a in ('sed "1q" %%i.txt') do echo %%i∥%%a∥%%j>>index.log
)
pause
作者: leo1984     时间: 2007-11-2 15:21
搞定了^^
剛出去辦事回來再看,原來terse大哥原本指令就可行的,小弟可能太累了,忘了加入陣列不就可行了嗎?

真的是抱歉,小老弟太糊塗了^^"
十分感謝,這段指令對處理文本很經典實用
輸出輸入、比較、指定行、...等等
學習了~感謝各位大哥的教導,讓不才老弟學習了!
@echo off
for /f "tokens=1* delims=∥" %%i in (index2.log) do (
set i=%%i
call :doc
)
pause
goto :eof
:doc
for /f "tokens=5 delims=∥" %%a in (%i%.txt) do (
  if not defined line set "line=%%i∥%%a∥%%j"
)
echo,%line%>>indexa.log
set line=
[ Last edited by leo1984 on 2007-11-2 at 03:25 PM ]
作者: junchen2     时间: 2007-11-2 23:15
index2.txt-------------------------
china∥台湾∥是一个美丽的地方∥小学就有台湾日月潭的课文,好向往啊!

china.txt------------------------
22∥22∥222∥22∥Taiwan∥22∥22
rtywrty
dythetyhetyhteyu


index.txt----------------------------
china∥Taiwan∥台湾∥是一个美丽的地方∥小学就有台湾日月潭的课文,好向往啊!

我测试通过不知LZ为什么不行。