Board logo

标题: 小说文本分割批处理 [打印本页]

作者: aiqian2008     时间: 2008-11-10 00:50    标题: 小说文本分割批处理

————————————————————————
@echo off&color a&setlocal enabledelayedexpansion
::因使用了延迟变量而舍弃了感叹号!!在使用之前先把感叹号转换为其他字符。
::原文件空白行也可以输出   注意:只能分割大文件。
for /f %%i in ('type test.txt^|find /v /c ""') do set num=%%i
:start
cls&echo.
set /p "x= 请输要分成的份数:"
set "errorlevel="
set /a y=%num%/%x%
if errorlevel 2 goto start
echo.正在进行文件分割,请稍候...
set fs=1
for /f "tokens=1* delims=:" %%i in ('findstr /n "." test.txt') do (
    set /a n+=1
    set /a w=!fs!*%y%+1
    if %%i gtr !n! call :loop %%i
    echo.%%j>>"test!fs!.txt"
    if !n! gtr !w! set /a fs+=1
)
echo.文件分割完毕,按任意键退出。&pause>nul
exit

:loop
echo.>>"test%fs%.txt"
set /a n+=1
if %1 gtr %n% goto loop
goto :eof
————————————————————————————
作者: HAT     时间: 2008-11-10 09:36
建议少用type

[ Last edited by HAT on 2008-11-10 at 09:40 ]
作者: tireless     时间: 2008-11-10 10:38
好像用 type 速度反倒比较快哦!
作者: HAT     时间: 2008-11-10 10:41    标题: Re 3楼

楼主是要分割大文本,用type来统计文本行数应该不是最快的方法吧?
作者: tireless     时间: 2008-11-10 10:43
以下是我用 timeit.exe 测试的数据,分别测试这三条命令:

find /v /c "" 1.txt
2.bat
type 1.txt|find /v /c ""


2.bat 的内容是:

  Quote:
@echo off
for /f %%a in (1.txt) do set /a n+=1
echo %n%

测试结果:

  Quote:
Average for find key over 288 runs

Version Number:   Windows NT 5.1 (Build 2600)
Exit Time:        8:00 am, Monday, January 1 1601
Elapsed Time:     0:00:00.128
Process Time:     0:00:00.059


Average for for key over 288 runs

Version Number:   Windows NT 5.1 (Build 2600)
Exit Time:        8:00 am, Monday, January 1 1601
Elapsed Time:     0:00:00.024
Process Time:     0:00:00.037


Average for type key over 288 runs

Version Number:   Windows NT 5.1 (Build 2600)
Exit Time:        8:00 am, Monday, January 1 1601
Elapsed Time:     0:00:00.106
Process Time:     0:00:00.046

按想象我也认为直接 find 速度更快,而经由 type 再管道给 find 更慢。但测试下来,我测试了一个 4MB 的文本,感觉是 type 的快一些,不太相信,于是用 timeit 计算了下,确实是这样。

[ Last edited by tireless on 2008-11-10 at 10:48 ]
作者: aiqian2008     时间: 2008-11-10 21:51
谢谢大家的提醒,这的确是个问题,我重新考虑考虑
5楼的2.bat 会漏掉空白行,达不到效果