中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名：www.cn-dos.net　论坛域名：www.cn-dos.net/forum
DOS，代表着自由开放与发展，我们努力起来，学习FreeDOS和Linux的自由开放与GNU精神，共同创造和发展美好的自由与GNU GPL世界吧！

游客注册登录会员网志搜索命令提示符 Bash 上传统计

中国DOS联盟论坛
现在时间是 2026-07-30 20:40

欢迎新会员 exe19490　 RSS
共 48,035 主题排行 / 350,119 发帖 / 今日 1 篇 / 48,245 会员排行不转换/ 简体中文/ 繁體中文（台灣）/ 繁體中文（香港）

中国DOS联盟论坛 » DOS批处理 & 脚本技术（批处理室） » [原创]GBK ＆ UTF8 编码互转脚本 (CMD+GAWK)

精华I 查看 18,612　回复 31

楼主 [原创]GBK ＆ UTF8 编码互转脚本 (CMD+GAWK) 发表于 2006-11-30 00:31　·　中国浙江宁波鹏博士宽带

无奈何

荣誉版主

★★★

积分 1,338
发帖 356
注册 2005-07-15 12:09
21年会员
UID 40733
性别男

状态离线

GBK ＆ UTF8 编码互转脚本 (CMD+GAWK)

因为我的实际应用中需要 UTF8 到 GBK 的编码转换，所以就用 GAWK 写了一个，事实上在我早先的帖子中已经在使用。这次整理了一下，已支持编码的双向转换，自己制作了完整的 GBK 到 UTF8 的转码对照表，制作中发现系统的转码结果和 iconv 的转码结果有不少差异，对照表采用的是前者。
本脚本支持管道和文件的编码转换，结果输出到屏幕。现在参数支持不多，但是有参数完整性的检测功能，可以完成多参数的无序调用。采用了新的脚本释放方法，源文件有改动时会自动更新脚本。还有错误消息和依赖文件完整性检查机制。希望这些小技巧对大家编写批处理有所帮助。
GAWK 下载链接：http://www.klabaster.com/progs/gawk32.zip
脚本及转码表见附件。

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

:: gbk2utf8.cmd -V0.1 -- GBK & UTF8 编码互转

:: 无奈何@cn-dos.net - 2006-11-28 - CMD & GAWK

:: 用法：gbk2utf8 /I file...

:: 支持文件: - gawk.exe gbk2utf8.dat

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

@echo off

setlocal

set self="%~f0"

set AwkScript="%temp%\%~n0%~z0.awk"

set path=%path%;%~dp0;%cd%

set nofile=

set error=

set input=

::依赖文件完整性检查

for %%i in (gawk.exe gbk2utf8.dat) do (

@if "%%~$PATH:i" == "" (

echo.程序所依赖文件 "%%i" 缺失。

set nofile=1

) else ( set %%~ni="%%~$PATH:i" )

)

if defined nofile goto :EOF

::文件改动后更新脚本

if not exist %AwkScript% (

del /q "%temp%\%~n0*.awk" 2>nul

gawk "/^#<-1/,/^#>-1/{if(!/^#/)print}" %self% >%AwkScript%

)

:ParseLoop

if "%~1" == "" goto Start

if "%~1" == "?" goto SwitchH

if "%~1" == "/?" goto SwitchH

rem 参数处理并转到相应标签。

for %%s in (U u I i h H) do if "%~1"=="/%%s" goto Switch%%s

if "%F_input%" == "1" (

if not exist "%~1" set error=警告：文件 "%~1" 不存在。 & goto error

set input=%input% "%~1"

shift

goto ParseLoop

)

if "%F_input%" == "-1" shift & goto ParseLoop

set error=错误: 参数格式不正确 - "%1" !

goto error

:SwitchI

set F_input=1

if "%~2" == "-" set F_input=-1

shift

goto ParseLoop

:SwitchU

set F=-1

shift

goto ParseLoop

:error

echo.%error%

echo.

:SwitchH

echo.gbk2utf8 V0.1 -- GBK ^& UTF8 编码互转

echo.

echo.用法：1、%~n0

echo. 2、%~n0 /I file...

echo. 3、%~n0 /I -

echo.

echo.选项： /? 显示本简短帮助,等价命令 /H 。

echo. /U UTF8 转码为 GBK ，默认设置为 GBK 转码为 UTF8 。

echo. /I 指定转换文件，“-”号从标准输出获得。

echo. 本参数可以空缺，缺省将从标准输出获得。

echo. 指定转换文件时，/I 参数不可省略。

goto :EOF

:Start

if "%input%" == "" set F_input=-1

if "%F_input%" == "-1" (

gawk -v F=%F% -f %AwkScript%

) else (

gawk -v F=%F% -f %AwkScript% %input%

)

goto :EOF

:AwkScript

#<-1

function gbk2utf8(string,flag, reg, gbkreg, utf8reg, char, result){

gbkreg="|"

utf8reg="||\xe0||\xf0|"

reg=gbkreg

if (flag==-1)

reg=utf8reg

RLENGTH = 1

while(RLENGTH != -1){

match(string,reg)

char=substr(string,RSTART,RLENGTH)

if (RLENGTH>1)

char=charset

result=result char

string=substr(string,RSTART+RLENGTH)

}

return result

}

BEGIN {

FS=","

if (!F) F=1

if (F==1) {

while((getline<"gbk2utf8.dat") > 0)

charset=$2

}

else{

while((getline<"gbk2utf8.dat") > 0)

charset=$1

}

close("gbk2utf8.dat")

}

{

x=gbk2utf8($0,F)

print x

}

#>-1

goto :EOF

无奈何发表于 2006-11-30 01:02

[ Last edited by 无奈何 on 2006-11-30 at 02:04 PM ]

附件

gbk2utf8.zip (102.8 KiB, 下载附件所需积分 1 点, 下载次数: 259)

　　☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无──　。何奈可无是原，事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul

第 2 楼发表于 2006-11-30 00:38　·　中国河北廊坊三河市移动

ccwan

金牌会员

★★★★

积分 2,725
发帖 1,160
注册 2006-09-23 12:00
19年会员
UID 63486
来自河北廊坊

状态离线

强贴留名。（electronixtar兄莫怪侵权^_^）
无奈何兄是我永不能翻越的高山啊！

三人行，必有吾师焉。学然后知不足，教然后知困，然后能自强也。

第 3 楼发表于 2006-11-30 00:42　·　中国广西玉林博白县电信

zh159

金牌会员

★★★★

积分 3,687
发帖 1,467
注册 2005-08-08 12:00
20年会员
UID 44210

状态离线

以前我在网上找到一个 GBK-Unicode 的编码对照表（7k多对照字符），自己用批处理计算生成了 GBK-UTF-8 编码对照表，只要用查字典的 for 方式，就可以瞬间提取 UTF-8 编码，先找找看...

第 4 楼发表于 2006-11-30 00:46　·　中国甘肃甘南藏族自治州合作市电信

vkill

金牌会员

★★★★

积分 4,103
发帖 1,744
注册 2006-01-20 13:00
20年会员
UID 49241
性别男
来自甘肃.临泽

状态离线

哎，gawk那段还是看不懂，学习中

第 5 楼发表于 2006-11-30 00:48　·　中国北京联通

redtek

金牌会员

★★★★

积分 2,902
发帖 1,147
注册 2006-09-21 12:00
19年会员
UID 63324
性别男

状态离线

太精彩了～～～

　　　　Redtek，一个永远在网上流浪的人……

_.,-*~'`^`'~*-,.__.,-*~'`^`'~*-,._,_.,-*~'`^`'~*-,._,_.,-*~'`^`'~*-,._

第 6 楼发表于 2006-11-30 00:51　·　中国浙江宁波鹏博士宽带

无奈何

荣誉版主

★★★

积分 1,338
发帖 356
注册 2005-07-15 12:09
21年会员
UID 40733
性别男

状态离线

ccwan 兄过谦了，我也不是高手。
zxcv 兄，7k 多的是 GB2312 的，完整 GBK 有 2w 多，共 22046 个码位。

　　☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无──　。何奈可无是原，事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul

第 7 楼发表于 2006-11-30 00:58　·　中国浙江宁波鹏博士宽带

无奈何

荣誉版主

★★★

积分 1,338
发帖 356
注册 2005-07-15 12:09
21年会员
UID 40733
性别男

状态离线

RE vkill
GAWK 支持多字节编码，这种处理方法的好处是只要编写匹配编码的正则表达式就可通用于其他其他编码的转换。应该说也是比较好理解的，唯一做的就是获取字符长度并截取。

　　☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无──　。何奈可无是原，事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul

第 8 楼发表于 2006-11-30 01:52　·　中国广西玉林博白县电信

zh159

金牌会员

★★★★

积分 3,687
发帖 1,467
注册 2005-08-08 12:00
20年会员
UID 44210

状态离线

Originally posted by 无奈何 at 2006-11-29 12:51:
ccwan 兄过谦了，我也不是高手。
zxcv 兄，7k 多的是 GB2312 的，完整 GBK 有 2w 多，共 22046 个码位。

确实如此，看来得找一个完整 GBK 的算一个 GBK-UTF-8 对照表了

第 9 楼发表于 2006-11-30 02:21　·　中国广西玉林博白县电信

zh159

金牌会员

★★★★

积分 3,687
发帖 1,467
注册 2005-08-08 12:00
20年会员
UID 44210

状态离线

已经获得了完整的 gbk2utf8 编码库

发现这个gbk2utf8编码库和我转换的 GB 版有很多数据不同：
例：
gbk2utf8

A1A42C C2B7
A1A52C CB89
A1A62C CB87
A1A72C C2A8

红色部分是gbk的识别

gb2utf8

a1a4 E383BB
a1a5 E08B89
a1a6 E08B87
a1a7 E082A8

好像这个gbk2utf8编码库GB部分的部分编码对照有误，超出库GB部分的编码暂时未发现错误

第 10 楼发表于 2006-11-30 03:45　·　中国浙江宁波鹏博士宽带

无奈何

荣誉版主

★★★

积分 1,338
发帖 356
注册 2005-07-15 12:09
21年会员
UID 40733
性别男

状态离线

RE zxcv
我的那个中间加了分隔符 “,” 也就是 0X2C 。
给你一段我写的生成 GBK 所有字符的 AWK 脚本。自己另存为 UTF8 就可以获得两个编码的对照表了。



BEGIN{

	#GBK/1: A1A1-A9FE	图形符号区GB 2312 非汉字符号区	

	for (i=0xa1;i<=0xa9;i++)

		for (j=0xa1;j<=0xfe;j++)

			if (j!=0x7f) printf("%c%c\n",i,j)

	#GBK/2: B0A1-F7FE	汉字区GB 2312 汉字区

	for (i=0xb0;i<=0xf7;i++)

		for (j=0xa1;j<=0xfe;j++)

			if (j!=0x7f) printf("%c%c\n",i,j)

	#GBK/3: 8140-A0FE	汉字区

	for (i=0x81;i<=0xa0;i++)

		for (j=0x40;j<=0xfe;j++)

			if (j!=0x7f) printf("%c%c\n",i,j)

	#GBK/4: AA40-FEA0	汉字区	

	for (i=0xaa;i<=0xfe;i++)

		for (j=0x40;j<=0xa0;j++)

			if (j!=0x7f) printf("%c%c\n",i,j)

	#GBK/5: A840-A9A0	图形符号区

	for (i=0xa8;i<=0xa9;i++)

		for (j=0x40;j<=0xa0;j++)

			if (j!=0x7f) printf("%c%c\n",i,j)

}

[ Last edited by 无奈何 on 2006-11-30 at 03:50 AM ]

　　☆开始\运行 (WIN+R)☆
%ComSpec% /cset,=何奈无──　。何奈可无是原，事奈无做人奈无&for,/l,%i,in,(22,-1,0)do,@call,set/p= %,:~%i,1%<nul&ping/n 1 127.1>nul

第 11 楼发表于 2006-11-30 04:23　·　中国广西玉林博白县电信

zh159

金牌会员

★★★★

积分 3,687
发帖 1,467
注册 2005-08-08 12:00
20年会员
UID 44210

状态离线

GB部分的编码只剩下面的找不到对应的

A8BB C991
A8BD C584
A8BE C588
A8C0 C9A1

先试试了^_^

第 12 楼发表于 2006-11-30 07:01　·　中国四川成都教育网

electronixtar

铂金会员

★★★★

积分 7,493
发帖 2,672
注册 2005-09-02 00:00
20年会员
UID 42173
性别男

状态离线

没看懂，顶一个先

C:\>BLOG http://initiative.yo2.cn/
C:\>hh.exe ntcmds.chm::/ntcmds.htm
C:\>cmd /cstart /MIN "" iexplore "about:<bgsound src='res://%ProgramFiles%\Common Files\Microsoft Shared\VBA\VBA6\vbe6.dll/10/5432'>"

第 13 楼发表于 2006-12-03 02:56　·　中国广东东莞电信

HUNRYBECKY

银牌会员

★★★

积分 1,179
发帖 442
注册 2006-09-09 22:47
19年会员
UID 62249

状态离线

太高深了。学习中。

第 14 楼发表于 2006-12-03 02:59　·　中国北京朝阳区联通

tao0610

高级用户

★★

朦胧的世界