中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » 网络日志(Blog) » 国家标准GB18030-2005《信息技术 中文编码字符集》
« [1] [2] [3] [4] [5] [6] »
作者:
标题: 国家标准GB18030-2005《信息技术 中文编码字符集》 上一主题 | 下一主题
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『楼 主』:  国家标准GB18030-2005《信息技术 中文编码字符集》

语言文字工具类
18030编码字典(需要编辑一个网络可以流传的,可搜索可进行进制转换的)
新华字典
汉语词典
中国大百科
汉字考据类
主要集中在帮助文章和词条的简接准确表达,字和词意转换的直接或相对少的歧义空间,或者直接定义以及新生意
用18030制作文本工具?

胡正的星际译王和词库,加入一个18038翻译词库?

中文标准名称:信息技术 中文编码字符集
http://www.gb688.cn/bzgk/gb/newGbInfo?hcno=C344D8D120B341A8DD328954A9B27A99

码位总数目   128+23940+1587600=1611668
                 1字节 2字节     4字节  
GB    对汉字和编码交互查询
http://www.qqxiuzi.cn/bianma/zifuji.php


在线进制转换
http://tool.oschina.net/hexconvert/

http://upload.cn-dos.net/img/2189.rar

在线汉语字典
http://xh.5156edu.com/html3/8416.html

刨根究底学编程                          :Jacky Lin
https://zhuanlan.zhihu.com/paogenjiudi

[ Last edited by zzz19760225 on 2018-7-19 at 23:31 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-25 20:14
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 2 楼』:  

1    前      GB18030编码:C7B0             GB2312编码:C7B0         BIG5编码:AB65          GBK编码:C7B0              Unicode编码:524D
2    后      GB18030编码:BAF3             GB2312编码:BAF3         BIG5编码:A65A          GBK编码:BAF3              Unicode编码:540E
3    左      GB18030编码:D7F3             GB2312编码:D7F3         BIG5编码:A5AA          GBK编码:D7F3              Unicode编码:5DE6
4    右      GB18030编码:D3D2             GB2312编码:D3D2        BIG5编码:A56B          GBK编码:D3D2              Unicode编码:53F3
5    上      GB18030编码:C9CF             GB2312编码:C9CF          BIG5编码:A457           GBK编码:C9CF              Unicode编码:4E0A
6    下      GB18030编码:CFC2             GB2312编码:CFC2         BIG5编码:A455           GBK编码:CFC2              Unicode编码:4E0B
7    内      GB18030编码:C4DA             GB2312编码:C4DA        BIG5编码:没有            GBK编码:C4DA             Unicode编码:5185
8    外      GB18030编码:CDE2             GB2312编码:CDE2        BIG5编码:A57E           GBK编码:CDE2              Unicode编码:5916
9    中      GB18030编码:D6D0             GB2312编码:D6D0       BIG5编码:A4A4          GBK编码:D6D0              Unicode编码:4E2D

10  添      GB18030编码:CCED             GB2312编码:CCED        BIG5编码:B24B           GBK编码:CCED              Unicode编码:6DFB
11  存       GB18030编码:B4E6            GB2312编码:B4E6        BIG5编码:A673           GBK编码:B4E6              Unicode编码:5B58
12  清      GB18030编码:C7E5             GB2312编码:C7E5         BIG5编码:B24D           GBK编码:C7E5              Unicode编码:6E05
13  序      GB18030编码:D0F2             GB2312编码:D0F2         BIG5编码:A7C7           GBK编码:D0F2              Unicode编码:5E8F
14  行      GB18030编码:D0D0            GB2312编码:D0D0         BIG5编码:A6E6           GBK编码:D0D0              Unicode编码:884C
15  列      GB18030编码:C1D0             GB2312编码:C1D0        BIG5编码:A643           GBK编码:C1D0              Unicode编码:5217
16  位      GB18030编码:CEBB             GB2312编码:CEBB         BIG5编码:A6EC           GBK编码:CEBB               Unicode编码:4F4D
17  显      GB18030编码:CFD4             GB2312编码:CFD4         BIG5编码:没有             GBK编码:CFD4              Unicode编码:663E
18  搜      GB18030编码:CBD1             GB2312编码:CBD1        BIG5编码:B76A           GBK编码:CBD1              Unicode编码:641C

19  是      GB18030编码:CAC7             GB2312编码:CAC7        BIG5编码:AC4F           GBK编码:CAC7              Unicode编码:662F
20  否      GB18030编码:B7F1             GB2312编码:B7F1         BIG5编码:A75F           GBK编码:B7F1              Unicode编码:5426
21  或      GB18030编码:BBF2             GB2312编码:BBF2         BIG5编码:A9CE           GBK编码:BBF2              Unicode编码:6216
22  时      GB18030编码:CAB1            GB2312编码:CAB1         BIG5编码:没有             GBK编码:CAB1              Unicode编码:65F6
23  道      GB18030编码:B5C0            GB2312编码:B5C0         BIG5编码:B944           GBK编码:B5C0               Unicode编码:9053
24  名      GB18030编码:C3FB            GB2312编码:C3FB          BIG5编码:A657            GBK编码:C3FB              Unicode编码:540D
25  实      GB18030编码:CAB5            GB2312编码:CAB5         BIG5编码:没有             GBK编码:CAB5              Unicode编码:5B9E
26  一      GB18030编码:D2BB            GB2312编码:D2BB         BIG5编码:A440            GBK编码:D2BB              Unicode编码:4E00
27

前与后的相对关系合并。
前=-后
左=-右
上=-下
内不等于-外?
一个人的相对概念,与另一个人的相对概念统一问题,如自私,善恶,利害,天自(天然自然)。自然属于一种表面表象的流动,代表背后的能量整体结构秩序,自然与天然合并。自然而然与浑然天成。混沌与浑沌?在每个小的循环中,也具有整体宇宙的一些名实。相对概念的列举,合并为正负形式,实在时空的存在。
26个可以直接针对英文键位,不作调整需求。

[ Last edited by zzz19760225 on 2017-11-28 at 11:54 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-25 21:20
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 3 楼』:  

gb18030
    编辑

国家标准GB18030-2005《信息技术 中文编码字符集》是我国继GB2312-1980和GB13000.1-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。 GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。[1]

中文名
    《信息技术 中文编码字符集》
国标号
    GB18030

发布日期
    2000-3-17;2005-11-8
发布机构
    国家质量技术监督局

目录

    1 概念简介
    2 版本区别
    3 适用范围
    4 达到要求
    5 总体结构

    6 字汇
    ▪ GB18030-2000字汇
    ▪ GB18030-2005字汇
    7 汉字
    ▪ GB18030-2000汉字
    ▪ GB18030-2005汉字

    8 版本变化
    9 制定标准
    10 标准历程

概念简介
编辑
国家标准GB18030-2000《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。
GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年 3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。
GB18030-2005《信息技术中文编码字符集》是我国自主研制的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个。[2]
版本区别
编辑
GB18030最新版本是GB18030-2005。GB18030-2005与GB18030-2000的编码体系结构是完全相同的。那么,GB18030的2000版和2005版有什么区别和联系呢?
2000年发布的GB18030-2000,全名是《信息技术 汉字编码字符集 基本集的扩充》。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。
GB18030-2000是全文强制性标准,市场上销售的产品必须符合。2005年发布的GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。原GB18030-2000中的内容是强制性的,市场上销售的产品必须符合。故GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。[3]  GB18030-2005的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39—0x82358738)部分为强制性。
适用范围
编辑
GB 18030标准第1条规定:“本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。”简单地说,GB18030可用于一切处理中文(包括汉字和少数民族文)信息,特别是汉字信息的信息处理产品。GB18030-2005标准可应用于中文处理的软件类产品,如操作系统、数据库、中间件、办公软件、财务软件、CAD软件、表处理软件、教育软件、字型字库等。GB18030-2005标准还可应用于具有处理汉字功能的硬件产品,如打印机、移动电话、PDA产品等。[4]
达到要求
编辑
问:产品达到哪些要求才算符合GB 18030?
答:同时达到以下两个要求的产品,为符合GB 18030-2005强制部分的产品:
(1)产品可以正确输入、输出、处理GB 18030-2005强制部分规定的全部汉字字符;
(2)产品可以正确识别GB 18030-2005强制性部分规定的全部汉字字符对应的编码。
总体结构
编辑
码位总体结构 码位总体结构
标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。双字节部分,首字节码位从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。码位总体结构见右图。[4]
字汇
编辑
GB18030-2000字汇
GB18030-2000的字汇部分是这样写的:
本标准收录的字符分别以单字节、双字节和四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB 11383的0x00到0x7F全部128个字符及单字节编码的欧元符号。
2、双字节部分
本标准中,双字节的部分收录内容如下:
GB 13000.1的全部CJK统一汉字字符。
GB 13000.1的CJK兼容区挑选出来的21个汉字。
GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
GB 13000.1收录的其它字符31个。
GB 2312中的非汉字符号。
GB 12345 的竖排标点符号19个。
GB 2312未收录的10个小写罗马数字。
GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
汉字数字“〇”。
表意文字描述符13个。
增补汉字和部首/构件80个。
双字节编码的欧元符号。
3 、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1 中的全部字符。[5]
GB18030-2005字汇
GB18030-2005的字汇部分是这样写的:
本标准收录的字符分别以单字节、双字节或四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字符。
2、双字节部分
本标准中,双字节的部分收录内容如下:
GB 13000.1-1993的全部CJK统一汉字字符。
GB 13000.1-1993的CJK兼容区挑选出来的21个汉字。
GB 13000.1-1993中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
GB 13000.1-1993收录的其它字符31个。
GB 2312中的非汉字符号。
GB 12345 的竖排标点符号19个。
GB 2312未收录的10个小写罗马数字。
GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
汉字数字“〇”。
表意文字描述符13个。
对GB 13000.1-1993增补的汉字和部首/构件80个。
双字节编码的欧元符号。
3、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字符。
GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编码的欧元符号0x80)。
GB18030有1611668个码位,在GB18030-2005中定义了76556个字符。随着我国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC 10646的不断发展,GB18030所收录的字符将在新版本中增加。[6]
汉字
编辑
GB18030-2000汉字
如下表所示,GB18030-2000收录了27533个汉字:
类别
       
码位范围
       
码位数
       
字符数
       
字符类型
双字节部分
       
第一字节0xB0-0xF7
       
6768
       
6763
       
汉字
第二字节0xA1-0xFE
第一字节0x81-0xA0
       
6080
       
6080
       
汉字
第二字节0x40-0xFE
第一字节0xAA-0xFE
       
8160
       
8160
       
汉字
第二字节0x40-0xA0
四字节部分
       
第一字节0x81-0x82
       
25200
       
6530
       
CJK统一汉字扩充A
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
27533就是6763+6080+8160+6530。双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字。
在Unicode中,CJK统一汉字扩充A有6582个汉字,为什么这里只有6530个汉字?
这是因为在GBK时代,双字节部分已经收录过CJK统一汉字扩充A的52个汉字,所以还余6530个汉字。[7]
GB18030-2005汉字
如下表所示,GB18030-2005收录了70244个汉字:
类别
       
码位范围
       
码位数
       
字符数
       
字符类型
双字节部分
       
第一字节0xB0-0xF7
       
6768
       
6763
       
汉字
第二字节0xA1-0xFE
第一字节0x81-0xA0
       
6080
       
6080
       
汉字
第二字节0x40-0xFE
第一字节0xAA-0xFE
       
8160
       
8160
       
汉字
第二字节0x40-0xA0
四字节部分
       
第一字节0x81-0x82
       
25200
       
6530
       
CJK统一汉字扩充A
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
第一字节0x95-0x98       
50400
       
42711
       
CJK统一汉字扩充B
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
70244就是6763+6080+8160+6530+42711。[7]
版本变化
编辑
GB18030-2005相对于GB18030-2000主要有以下变化:
1、在四字节字符表中增加CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字字符的字形。其实GB18030-2000已经映射了这些码位,但GB18030-2000没有给出这些字符的字形。
2、调整字符?的编码。
3、去掉了单字节编码的欧元符号(0x80)。
(纠正:其实GBK和GB18030-2000都没有单字节编码的欧元符号,微软的CP936才有这个符号并定义在0x80)[4]
制定标准
编辑
按国际惯例,GB 18030制定采用的标准如下:
GB 18030-2000收录了27533个汉字,GB 18030-2005收录了70244个汉字。GB18030的总编码空间超过150万个码位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。
我国大部分计算机系统仍然采用GB 2312编码。GB 18030与GB 2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。从我国信息技术和信息产业发展的角度出发,考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持,采用GB 18030是我国较好的选择,而GB 13000.1更适用于未来国际间的信息交换。考虑到GB 18030和GB 13000的兼容问题,标准起草组编制了GB 18030与GB 13000.1的代码映射表,使得两个编码体系可以自由转换。同时,还开发了GB 18030基本点阵字型库。
世界许多国家和地区从方便本国和民族应用的角度出发,制定了相应的编码标准和内码体系,如日本的JIS X 0208和JIS X 0212,韩国的KS C 5601和KS C 5657等,这是国际上采用的通行惯例。制定GB 18030同样符合国际惯例,它全面兼容GB 2312,在字汇上兼容GB 13000.1,可以充分利用已有资源,保证不同系统间的兼容性,最大限度地共享资源,为我国软件产业留有巨大的发展空间。可以相信,GB 18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。[4]
标准历程
编辑
1980年我国颁布了第一个汉字编码字符集标准,即GB 2312-80《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号,奠定了中文信息处理的基础。
随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB 13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,还不能完全解决我国当前应用的迫切需要。
考虑到GB 13000的完全实现有待时日,以及GB 2312编码体系的延续性和现有资源和系统的有效利用与过渡,我们选择了在GB 2312(GB 2311)的基础上进行扩充,并且在字汇上与GB 13000.1兼容的方案,研制一个新的标准——汉字编码基本集的扩充,进而完善GB 2312,以满足我国邮政、户政、金融、地理信息系统等应用的迫切需要。
此项目业已列入1998年国家标准制定计划。1998年10月,由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软件所、长城软件公司、中软总公司、金山软件公司和联想公司的技术人员组成标准起草组。在标准研制过程中,全国信息技术标准化技术委员会多次召集标准起草组和知名公司对标准草案进行充分地研究论证,并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加,广泛征求意见。标准起草组经过反复斟酌和验证,提出了标准制定原则——与GB 2312信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。
信息产业部和原国家质量技术监督局于2000年3月17日联合发布了该标准,即GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》。该标准作为国家强制性标准自发布之日起实施,过渡期到2001年8月31日止。
期间,全国信标委曾制定和发布《汉字扩展规范GBK 1.0》,并在MS Windows 9x/Me/NT/2000、IBM OS/2的系统中广泛应用。GB18030是国家标准,在技术上是GBK的超集,并与其兼容,因此,GBK将结束其历史使命。[4]

参考资料

        1.    关于GB18030汉字编码标准集  .新浪网.2001-07-26[引用日期2014-08-07]
        2.    字符集及Java中的字符常识整理  .我的异常网.2014-04-12[引用日期2014-08-7]
        3.    GB18030编码研究以及GBK、GB18030与Unicode的映射  .伐木丁丁鸟鸣嘤嘤[引用日期2014-08-7]
        4.    信息交换用汉字编码字符集基本集的扩充  .道客巴巴[引用日期2014-08-7]
        5.    GB18030-2000编码标准简介  .ITPUB论坛[引用日期2014-08-7]
        6.    Unicode、GB2312、GBK和GB18030中的汉字  .伐木丁丁鸟鸣嘤嘤[引用日期2014-08-7]
        7.    Unicode、GB2312、GBK和GB18030中的汉字  .语言文字网.2008-04-23[引用日期2014-08-7]

[ Last edited by zzz19760225 on 2016-6-27 at 05:50 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:27
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 4 楼』:  

GAOYANWEI520
个性签名:寻求快乐
http://jingyan.baidu.com/article/11c17a2c77dd62f447e39d57.html

C语言实现的简易文本编辑器

    浏览:914
    |
    更新:2014-06-10 20:51

下面是我大学期间所做的数据结构课程设计,用c语言实现的简易文本编辑器,回头看起来做的比较简单,供学弟学妹参考。



1.设计目的

简易文本编辑器是一个面向用户的系统服务程序,广泛用于源程序的输入、删除、替换、查找、修改等一系列操作,甚至用于报刊和书籍的编辑排版以及办公室的公文书信的起草和润色,是一个比较实用的应用软件。该程序是专门为用户做文本编辑而精心设计的,可以满足文本操作的大部分要求。

2.设计内容和要求

(1)读取(文本)文件建立新字符串(2)查看源(文本)文件内容和组成信息(3)查看当前字符串(4)查看当前字符串的组成信息(5)查找指定位置开始的指定长度字符串(6)查找指定的字符串的位置(7)在当前字符串指定的位置插入字符串(8)从当前字符串中删除指定的子字符串(9)替换当前字符串指定的子字符串(10)保存对(文本)文件的修改 (11) 另存为(文本)文件 (12) 退出程序

3.本设计所采用的数据结构

在该程序中用到的数据结构只有链表

程序中所使用的基本操作和存储结构均采用串的链式存储结构,并定义相应的操作函数。

typedef struct _String//定义链串结构

{char character ;//组成串的字符( 数据域 )

struct _String* next ;//指向下一串结构的指针( 链域 )

} String ;//串类型

4.功能模块详细设计

4.1详细设计思想

该程序所使用的基本操作和存储结构为采用串的链式存储结构,并定义相应的操作函数。文本编辑的操作调用以下函数并结合库函数来实现文本编辑的图形界面。

定义链式存储结构:

typedef struct _String//定义链串结构

{

char character ;//组成串的字符( 数据域 )

struct _String* next ;//指向下一串结构的指针( 链域 )

} String ;//串类型

定义串的信息结构:

typedef struct _StringInformation//定义串信息结构

{

String* str ;//链串首结点

int letters_count ;//字母个数

int figures_count ;//数字个数

int space_count ;//空格个数

int endline_count ;//换行符个数

int others_count ;//其他字符个数

int characters_count ;//总字符个数

} StringInformation ;//串信息类型

定义串的引索结构:

typedef struct _Index//定义串索引结构

{

int sub_index ;//子串在其父串的位置( 或索引 )

struct _Index* next_index ;//指向子串的下一个串索引结构的指针

} Index ;//串索引类型



所要调用的子函数有:

int StringToUnsignedInt( char* s , int max );//字符串转换成无符号整数

void InitalizeStringInformation( StringInformation* SI , int initalizeAll ) ;//串信息初始化

void CreatStringFromArray( String** S , char* cString ) ;//从字符数组建立字符串

int CreatStringFromFile( String** S ,char* filePath ) ; //从文件建立字符串

int StringLength( String* S ) ;//求串长

int StringCompare( String* S1 , String* S2 ) ;//串比较

void StringCopy( String** targetString , String* sourceString ) ;//串拷贝

void SubString(String* S ,int index ,int subLength ,String** subS ) ;//子串提取

int SubStringIndex( String* S , String* subS ) ; //求子串在父串首次出现的位置

int StringInsert( String** S , int index , String* insertedString ) ; //串插入

int SubStringDelete( String** S , int index , int subLength ) ; //子串删除

void PrintString( String* S ) ;//串输出

void PrintIndex( Index* subIndex ) ;//子串的所有索引输出

void PrintStringInformation( StringInformation* SI ) ;//串组成信息输出

void SaveToFile( String* S , char* filePath ) ;//保存字符串到文件

void DestroyString( String** S ) ;//串销毁

void DestroyIndex( Index** subIndex ) ;//子串索引销毁

(1)读取(文本)文件建立新字符串

该函数的设计思想为从字符数组建立字符串或者从文件建立字符串。就文件建立字符串而言,首先要定义一个串StringInformation S,tempString = S.str,然后打开计算机中的txt文件gets( filePath ), 调用函数CreatStringFromFile( &S.str , filePath )将filePath写入字符串S中来实现 。

(2)查看源(文本)文件内容和组成信息

先要调用函数PrintString( Source.str )来进行串输出,然后调用子函数PrintStringInformation( &Source )将串组成信息输出,最后将串销毁DestroyString( &Source.str )。

(3)查看当前字符串

先要清屏system( "cls" );然后调用子函数PrintString( S.str )将串S输出。

(4)查看当前字符串的组成信息

调用子函数PrintStringInformation( &S )将串S的组成信息输出

(5)查找指定位置开始的指定长度字符串

先输入字串的起始位置gets( input ),position = StringToUnsignedInt( input , -1 ) 调用该函数将input转换成无符号整数并将值赋予position;然后再输入子字符串的长度gets( input ),subLength = StringToUnsignedInt( input , -1 )调用此函数将input转换成无符号整数并将值赋予subLength,然后调用该函数 SubString( S.str , position , subLength , &subString )进行子串提取;

(6)查找指定的字符串的位置

首先要输入将要查找的字符串gets( cString ),CreatStringFromArray( &subString , cString )然后调用该函数将cString置为串subString,调用SubStringIndexAll( S.str , subString , &subIndex )输出子串subString在父串S中出现的所有位置,然后销毁subString 。

(7)在当前字符串指定的位置插入字符串

首先请输入将插入字符串的位置 gets( input ),然后调用函数position = StringToUnsignedInt( input , -1 )将input转换成无符号整数并将值赋予position;

再输入将插入的字符串 gets( cString ),CreatStringFromArray( &newString , cString )用字符数组建立字符串法建立newString,然后再调用函数StringInsert( &S.str , position , newString )将newString插入文件S.str中,然后再销毁newString。

(8)从当前字符串中删除指定的子字符串

首先输入将删除的子字符串gets( cString ),然后调用函数CreatStringFromArray( &subString , cString )建立新的字符串subString,调用函数count = SubStringIndexAll( S.str , subString , &subIndex )输出子串subString在父串S中出现的所有位置。

然后输入将要删除的子字符串的位置gets( input ),position = StringToUnsignedInt( input , -1)调用该函数将input转换成无符号整数并将值赋予position ; 再调用函数将子字符串删除SubStringReplaceSingle( &S.str , position , subString , NULL )。

(9)替换当前字符串指定的子字符串

先输入将被替换的子字符串 gets( cString ) ,CreatStringFromArray( &subString , cString )调用函数将cString生成字符串subString ,调用函数SubStringIndexAll( S.str , subString , &subIndex )输出子串subString在父串S中出现的所有位置。

再输入将替换的子字符串的位置gets( input ),将输入的input转换为无符号整形position = StringToUnsignedInt( input , -1 ); 然后输入一个字符串以替换上面的字符串 gets( cString ),调用CreatStringFromArray( &replaceString , cString )将输入的cString CreatStringFromArray( &replaceString , cString )置成新串replaceString,然后调用函数SubStringReplaceSingle( &S.str , position , subString , replaceString )替换子字符串 ,然后销毁subString。

(10)保存对(文本)文件的修改

调用函数SaveToFile( S.str , filePath )将已修改的文本保存

(11)另存为(文本)文件

先输入将另存为的文件的绝对路径 gets( anotherPath )。然后再调用函数SaveToFile( S.str , anotherPath )另存文件

(12)退出程序

调用函数DestroyString( &S.str )将字符串S销毁,退出程序

[ Last edited by zzz19760225 on 2016-6-27 at 06:19 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:27
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 5 楼』:  

1文字的时代使用范围区分的常与非常类。
与人每天这个一天有关的直接内容为常的中心范围,面对这个范围如何归纳提炼出需要的字数,是否需要一个标准,或者否定标准的标准与惯性使用习惯的类似标准的松散结构。
这个范围在人的心意识的无意识到有意识到有意识忽略意识本身等几个次范围里,走一些无知有知可知未知不知的认识过程,在认识过程中概括一个人的生死得失等等情绪,在这些情绪中从个人角度看心身物世界宇宙,从个人角度概括一切概念,概念中包括群体认识,重叠个人认识的累积为综合群体认识,在综合群体认识的积累上,进行名实的变化计算结构,各种优化可能。
以这个大概顺序进行文字的筛选。
笔画优先的字典和语言拼音排列的两本字典,
在笔画字典与人为中心的排列顺序间,寻找其中隐含的规律,(人事物皆为宇宙看不见的力量组成部分,其规律属于力量的存在模式之一,力量具有几何属性,还有其他内容,人事物也具有类似的内容,这些基础的内容上再次组合为特性,就成为人事物)规律的函数集囊括笔画和中心排序,构成名,用,理,三个部分。
         计算指令,数组结构排序,影子信息,镜像信息,四维时空并行的信息群,这里有个自由信息无限可能与有限有效的时代更新趋向选择。在工程建设模式和用户自主模式下,需要影子信息对计算机计算和程序内容的全部或部分内容信息进行研究,以对比发现问题,针对发现的问题解决问题。这个影子信息可以是多角度的,例如一个井字形的八面加上字背后和面前的两面共十面。假设影子是计算过程和程序流程这个对象对周围形成不同方向的十个影子,其中主要首先的是前面的影子或表面现象。不需要非看到本质,先看表面的影子。这里有个影子与对象本身之间的边缘,相对两者的用户观察者第三模式。影子信息可以取消,可以隐藏,可以屏幕实时显示,可以选择显示,可以信息另存为文本。对象与影子的互动误差与扭曲失真问题,计算显示一个汉字一的过程,电压问题或磁道存储坏道,或者其他力量,二进制的数字出现少缺意外,在影子信息上显示的是输入信息,显示计算过程,显示结果,那个意外是无法显示的,只有比较出误差存在。意外对小而众多的类同重复计算没有什么大的影响,对大的数字群连续计算有影响。这点和网络信息传输的核对类似,保证数字信息存储在一个误差值的范围内,硬盘数据格式,硬件设计和性能质量?
        二进制与十六进制的转换需要熟悉,这个转化有一些误差,最好最后通过转化后进行定义,减少这个转化过程,形成汉字二进制字典。查看和输入好像是个问题?有差异就可以排比出来,需要的是一个排比的形式之路。这个排比之路是有规律的,这个规律可以成为字内部进行优化的数学工具。这个规律可以提高效率,与十面影子信息结构,组成一个可以用于自身信息识别的临时定义。纠错的自纠错,纠他错行为。
        18030中英文和拼音字母组成拼音动词,与简单的英文名词,数学字母,组成硬件接口以下的运行部分,这部分内容标准化,以待可能的汉字信息环境。解释信息中用相同的编译,争取显示汉字对应的解释,类似知乎中对方法道理的解释显示。在已有英文驱动接口环境中是无法显示汉字的,换成18030标准的编译接口,在18030二进制硬件标准显示拼音动名词和英文已有内容,数学公式的基础上,输送汉字解释,帮助学习和初始者,这是汉字信息环境所需要的。没有操作系统,没有汉字字体输出驱动条件下的标准尝试,龙芯的芯片数组对二进制直接转换输出为18030的信息指令集。是否可以编制这个指令集呢?如果作为个人用户角度对硬件进行指令集编制,需要了解哪些内容,只需要描述上下左右中道一零人物这些简单的字,针对这些字进行类同延伸到18030批量翻译的工具工作,基本可以输出需要的信息了。18030二进制信息列表是个和18030本身信息表一样重要的工具表。通过已有电脑系统的文本编辑功能,可以更好的处理类同的信息转换工作。汉字字典和汉英字典,是否加入这个过程,用类似星际译王,info,man和help模式,emacs另外的信息显示和解释的模式。一般小白和新手需要,重手老手大婶是不需要这些类似累赘的内容存在。
        一批过渡工具和内容,1目前的18030,2二进制排列表,3汉字字词典,4汉英字词典,5龙芯指令集的中文简单资料,6已有电脑硬件软件资料,7已有电脑系统可用的文本编辑器和功能中文教程。指令集是否涉及到电路,另一个很庞大的知识群世界。上面简单的划为七个门路分类,其中已有可以做收集整理备用的是1,3,4,6,7,五个,2二进制可以通过对已有自由软件工具改进实现,如果能实现,用完归于自由软件,5龙芯指令集对18030二进制读取的过程,需要一个可能预期很庞大的知识群,其中残废的可能性基本为百分之九十九,不过也可以作为玩具品进行另类儿童游戏玩。前五个网络搜索可以下载的txt文本好编辑,或者手工收集(这又不是专利,为什么没有txt的,或者寻找pdf转为txt,这样可能有信息转换的误差问题,最好是精度比较高的素材。)。3和4的看如何做成指令型帮助信息文本或自动信息显示的文本模式,这点是否需要了解下linux的信息显示多种模式。7的内容相对比较好选择,在字符模式下的vi,桌面下的gvim和emacs,相对的信息也透明。6的问题是信息难找,需要找到一些不知道的存在信息补充。也许可以找intel网站,虚拟机是否可以对硬件模拟,防止搞坏了的可能风险。(假如有系统照片存储,并列系统,可以并行操作,恢复问题。)
        硬件镜子的工具,显示镜像和影子,这个显示是通过类似制造阳光去照事物,产生影子来看影子。如果用c语言,用gcc编写一个显示一这个汉字,在已有操作系统上的应用程序中,通过接触硬件的软件程序。
         程序,信息格子里的内容选择,程序行里格子的排列,行的层面排列,总体结构,目标内容,将这个过程简化些,重复的劳动去掉,结构要简单。减少重复类劳动对思维连续的影响,sublime的行列,要是加入一个结构积木的emacs-org,树结构,思维导图类,再加上一个启动比较简单的三维图形描述,三者在同一个功能或软件内。类似工程图纸的图形区,描述区,数值排列区的三类,而这三类是可以扩大延伸,当然最好是可以可以标准定义进行组合拼接互动的,三维动态图,好像三维动画图是这样,也许可以找一个三维动态的编程语言编辑器。
        中枢轴的内容,定义时间轴,命令前后排序累加。散热的冷却效果探索与减少计算堆积工作量,将系统总体工作量约束在一个量之内,低工作能力的低能耗和低温度的没有风扇电脑,类似计算器。
        硬件应用软件,系统,编程语言编辑器接口功能的软件,系统。直接类似dos的硬件直接运行的系统和应用软件。
         自动识别层面的编程阵列,主要是分号括号方括号等这些专用符号,这些自动排列功能可以修改后保持修改状态,也可以通过划取区域重新自动排列。
        趣味性,可以在色彩修改,自动检查错误的错误闪跳修改,不同的操作可以引入一些小白情景,类如写了二十个字符,可以有个字符动物走过,写一百字符有条字符龙游过,一段字码完出一个字符太阳,一个错误检查出来显示一段冰雹下砸。美女的美容和身材苗条信息的无序显示穿插,孩子的类动画人物的演出,家庭妇女的美食制作和教育子女,夫妻关系主动距离美和预防参与,老人的字符孩子顽皮捣乱,流浪者的蚊子叮和饿肚字符垃圾桶形象,经历过他人死亡和自身死亡风险的眼睛疲劳失去希望到重新睁开眼睛微眯稳定等等情绪形象。
        18030具有前面集成的路,将前面的内容逐步搜索寻找,再整理综合就是一个相对独立完整的18030了。要用一个数字统计表示这个信息体的存在状态,多少个二进制数字,显示的行列,占用容量,容量的计算方式需要统一,这个唯一准确可以针对性的作为一个排比指标,例如文件比较软件,不需要专用软件直接看附加显示的数值,类似dos下的效果。
        dos论坛的字体文件?

[ Last edited by zzz19760225 on 2016-9-28 at 00:26 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:28
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 6 楼』:  

两字节为基础的分区表?

[ Last edited by zzz19760225 on 2016-7-13 at 17:26 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:31
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 7 楼』:  

1
图形汉字
简单中心对称的中心汉字,
简单对称图形效果的汉字,
简单相对字形单位偏向的汉字,
        向上偏,
        向下偏,
        向左偏,
        向右偏,

象形汉字
以人为内容的表达描述语言,
以物为内容的表达描述语言,
以心情思想想象为内容的,


符号汉字
偏旁,数学符号,英文,拉丁等世界符号和网络符号的接纳运用,

编码汉字
点与不同点之间的逻辑关系,这个逻辑关系通过数学和周易中医物力(代替原物理的翻译词语)化学的文字万物时空对应内容,小处看是力,大处看是势,生活中看是太极拳,是兴趣爱好者的发现和运用,是军阵对个体力量的组合运用,是网络有组织流氓言论行为对目的言论的阻击(利用人性向恶的部分,具有黑社会经验的操作,此事站在道高一尺还是魔高一尺的位置,不能急,其因素关系人内在的很多),是每天的自由生活在有限步进的内容(自由的多面和综合中的点因素逐渐延伸,个人对整体的改造,也类似人定胜天的内容)。

定义汉字
指定此为彼。

针对功能内容的选择,
用户选择,
硬件选择,
系统效果增强的选择,在一个点上实现线联系的内容,类似c语言的库,linux和win的依赖,
依赖是建立在对硬件的原本事实基础上,而不是软件使用惯性和人为为利益设置的多余信息上。
在减少或省略依赖的基础上,增加独立小和大软件,通过独立软件的丰富,分解系统整体的各个功能,使其不具有垄断效果,而只有为人民服务的透明品牌效果,类似逼迫美国落实民主思想的内容一样,如自由移民。

[ Last edited by zzz19760225 on 2016-9-8 at 07:21 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:32
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 8 楼』:  

http://www.ltaaa.com/essence-view-id-1750.html
为什么汉语是世界上的先进语言之一
2013-07-01  投降是一种习惯  43879  131  37
文章简介
首先要承认标题只是个噱头。总看到有人在争论到底汉语是先进还是落后。虽然我不是专业人士,但是就用点通讯和存储上的概念来聊聊为什么汉语是一种非常先进的语言。需要注意的是,虽然以下的论证都是基于实际的实验数据,但是计算都很粗糙,而且实验的规模都不大。换句话说就是,虽然在这里汉语占优,但是换一批实验参与者,可能就倒过来了。现在实在没有什么特别全面的测试。所以下面的数字大家看看就行,不必太过认真。世界主要语言的效率其实都已经达到当前人脑的一个瓶颈了,总体看差异不大。我的目的也主要是打击一下逆向民族主义者。
正文内容



首先要承认标题只是个噱头。总看到有人在争论到底汉语是先进还是落后。虽然我不是专业人士,但是就用点通讯和存储上的概念来聊聊为什么汉语是一种非常先进的语言。需要注意的是,虽然以下的论证都是基于实际的实验数据,但是计算都很粗糙,而且实验的规模都不大。换句话说就是,虽然在这里汉语占优,但是换一批实验参与者,可能就倒过来了。现在实在没有什么特别全面的测试。所以下面的数字大家看看就行,不必太过认真。世界主要语言的效率其实都已经达到当前人脑的一个瓶颈了,总体看差异不大。我的目的也主要是打击一下逆向民族主义者。

一、语言水平高低的评判准则

口语,放在今天来分析,实际上是一种通讯协议。就是说,语言实际上是把人的思想通过发音器官变成一串频率不同、波形不同的声波,然后有另一个个体的听觉器官和相关的脑部组织重新转变回思想。通讯协议,就是一个规则,一个规定了应该如何把思想/信息转变为易于传输的信号的规则。计算机上,通讯协议基本上有这么两个评判标准:传输效率和抗噪能力。所谓传输效率,是说,在单位时间里,按照该通讯协议能够传输多少信息。所谓抗噪能力,是说这种通讯方式能够在多大的噪音下仍然保证绝大多数信息正确传输。

传输效率又有两个方面,一个是编码效率,一个是传输速度。编码效率是说,这个通讯协议能够把一个信息用多短的一串信号来表达。传输速度是说一段信号,能够以多快的速度传输。

评价一种语言的口语是否先进,就要分析上面这几个问题。

文字,则是一种数据存储方式。存储格式的要求与通讯协议不同。存储格式要求存空间小、读写速度快。相比于读取速度,书写速度是次要的。这是因为平均下来一次书写对应很多次阅读,而人在阅读文字上花的时间一般远远大于书写。尤其是现代社会,手写越来越少,计算机输入、打印、印刷都大大加快了记录文字的速度。而阅读速度却没有多少提升。因此在现代社会,阅读速度就在定义文字水平上占据了更重要的地位。

需要注意的是,下面的讨论中“音节”均采用西方语言学定义。粗略地讲就是一组连续元音与其前后的辅音共同构成一个音节。比如To、Bliss、Strength是单音节,汉语Ba、Chuang也是单音节。虽然单音节词的发音长度并不完全相同,但至少是可比的。

二、语言的分类

这个世界上的语言大致分为两种,一种叫做分析语(或称孤立语),一种叫做综合语(其下又划分为黏着语、屈折语等子类型)。简单地说,综合语可以通过改变词的形态来表达不同的意思。而分析语则单纯通过词与词之间的关系来表达不同的意思。

我们举个简单的例子:

中文(分析语):我昨天告诉他了。

英文(综合语):I told him yesterday.

英文你首先可以看到told和him两个变形。其中把tell变成told表示过去发生的动作,把he变成him表示客体。而中文用昨天来直接指明时间,如果不指明时间则需要用“已经”、“过”之类来表示过去,而并不改变词的形态。中文还通过各自的位置来体现谁是主体谁是客体。

实际上,英语已经是综合语中非常接近分析语的了。比方说英语的未来时态用的词形和一般时态没有区别。而很多其他语言中不同的时态都是用不同的词形来表达的。再比方说英文对于各个词的位置有明确的规定。而很多其他综合语,诸如拉丁语中,词的位置可以不固定。换句话说就是可以说出这样的句子:Him yesterday told I。然后通过词形里的主格词形和宾格词形来判断究竟是谁告诉了谁。
这是非常糟糕的,因为在读取的时候,总是有先后的差别。我们希望的读取顺序是:先读取我们的大脑需要先处理的部分。分析语天然就有这种优势。很多综合语在逐步的发展中也确立了类似的规则,比如拉丁语的后裔之一——法语。

上古古汉语也曾是一种综合语。但是由于汉字的限制,古汉语的词形变化仅存在于口头中。比方说文言文中的使动用法,如“文王以百里之壤而臣诸侯”中的臣(使臣服),在上古时期,是需要在汉字发音前加“s-”音来标识的。这就是一个典型的综合语的词形变化。

有人认为现在的汉语仍然带有一定的综合语色彩,他们认为加入诸如“了”、“的”这种助词实际上就是词的变形。这种看法就只能见仁见智了。

从整体发展趋势来看,世界各地的口语都是从综合语向分析语发展。虽然不能说分析语就一定优于综合语。但是这个趋势说明分析语的某种特性符合历史的发展。这个优势就是数据的压缩。

三、数据压缩:分析语的高超之处

当年计算机发展到了新的时代,人们开始研究如何在计算机上存储视频文件。一开始的方案极其简单,就是把一帧一帧图像全部都存储下来。但是这无疑是低效的。因为这里面的冗余信息太多。举个简单的例子。一个夜晚的场景,画面上很多地方都是黑的。何必把每一个点的色彩反复记录呢?所以接下来的一个思路就是,不再存储每一帧图像的完整信息,而存储下一帧图像与上一帧图像之间的差异之处。两幅图像中颜色一样的部分全部跳过。

分析语恰恰就具有这样的效果。举个简单的例子。一个人在用汉语谈论昨天发生的事情时,只需要一开始提及“下面这些事情都发生在昨天”,后面就再也不必提及时态了。而英文,则需要反复使用时态来表明这事情发生在过去。在交流时你需要时刻考虑时间、主格/宾格、数量、主动/被动。这对交流是有影响的。当然熟练使用这种语言之后会大大降低考虑这些的时间,但是即便熟练的综合语使用者还是会在这方面犯错。在上下文的帮助下,这些变化都可以省掉。时间变形,可以依靠在第一句中加入时间状语完成描述,其后描述相同时间段的句子就再也不用考虑描述时间了。这就是分析语的数据压缩能力。

当然,这并不是说分析语就一定优于综合语。在缺乏上下文的情况下,一句综合语可以用比较简单的形式传递比较多的信息。但是随着人类社会交流量的上升,一次交流的上下文就变得丰富起来,很多在单词、单句的条件下很有效率的信息交流方式,也就显得越来越冗余了。因此世界上的各个主要语言纷纷向分析语靠拢。

另外,有的人认为分析语劣于综合语,他们是这样说的“综合语只用几个字母组成一个词缀就能表示一个特定含义,而汉语做不到”。这就是没有看到,在当今世界上的实际交流中,上下文总是很丰富。这种变形的方式在单句下很有价值,但在实际交流中就没有什么意义了。

关于各个语言的表意效率,也就是信息密度,2011年法国里昂大学做了一个实验。http://www.time.com/time/health/article/0,8599,2091477,00.htmlhttp://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf[/url]

这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。

然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,然后得出结论。当然,这个实验并不能完全准确地表现各个语言的差异,但是还是可以用来定性的。

其中,汉语信息密度为0.94,位居第一。英语信息密度为0.91,位居第二。另外值得注意的是,距离分析语更远的法语(0.74)、德语(0.79)、意大利语(0.72)、西班牙语(0.63)的信息密度,都比到英语低。而日语信息密度为0.49,有人认为这是因为日语的表意方式与其他语言不同。

此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本——英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据。

这让我不由地想到,经过大规模注水的现代汉语信息密度还是这么高,那么文言文究竟已经高到了何种地步?很遗憾没有这方面的研究。不过,根据使用频率进行加权平均,现代汉语平均每个词中的字数差不多是1.5左右。在文言文中,其中很多都是用单音节词表达的。折中一下,我猜想文言文的信息密度达到现代汉语的1.25倍应该是不成问题的。这在古代更是个恐怖的数字。因为拉丁语可不是比现代欧洲各主要语言简单。受到古代文字记录空间的限制,汉语的显然在文字记录方面更加占优。这也许就是我国古代文字记录非常丰富的原因所在。

有人质疑说,有时候一个很长的音节意思很简单,而一个很短的单词意思却很复杂。这种情况当然是存在的。我需要说明的是,所有复杂事物的优劣都是一个统计概念,“高”并不是绝对在任何条件下都高,而是在大多数情况下高。如果一种语言平实交流平均下来就是比另一种语言多用一个音节,那么很显然其表意效率都是很低的。

还有人说,音节不能作为衡量信息密度的单位,因为不同的音节,发音长度很不一样。这个问题提的非常好。事实上我下一节就要讲到英语与汉语发音长度的问题。英语单音节平均发音长度比汉语长。因此在口语的信息密度方面,汉语的优势更大。

值得注意的是,可能由于汉字与读音是分离的,理解和朗读无法同步进行,所以用汉语朗读,就会比较慢。里昂大学的这个实验中,汉语朗读者每秒朗读5.18个音节。大大慢于其他语言(英6.19,法7.18,德5.97,意6.99,日7.84,西7.82)。因此在朗读中,汉语传递信息的效率比较低,换算出来的朗读信息传递效率为英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。

当然,以上里昂大学的研究也受到了一些批评。有人觉得做的太糙了,而且有些地方不能自圆其说。比如按文中数据明明日语表意效率明显低,但作者又说其实一分钟内各个语言表达的信息量是差不多的。
四、传输的优势:声调

口语信息的传输,是通过声音完成的。声音一般分为四个部分:音质、音高、音长、音强。对于语言的一个音节来说,音质指的是其中辅音与元音的组合。其他三个都很好理解。

一般现代语言不太规定音强,因为这实在无法在各个人之间得到统一,而且受到说话人的距离、情绪、身体状态等影响。此处需注意,英语中的“重读”,实际上是音高变化。

而剩余的三个元素,则都在语言中得到了广泛的运用。

我们拿汉语举例,音质很容易理解,就是发音除去声调。而声调本身则分为音高和音长两项。

汉语普通话的四声,是四种不同音高变化模式。一声是保持音高。二声是音高由低到高变化。三声是音高从高到低再到高。四声是音高由高到低。虽然我们当年语文课里说轻声是没有声调,但实质上轻声是缩短音长。轻声一般是缩短音长的四声或一声(有时音高很低)。不过轻声很短,比较难以听清,所以普通话中仅作为特定用途使用(语气助词、复数标志等)。

英语的重读实际上是音高的差异。所以严格地说,英语是有声调的。只不过英语的音调只有两个:高和低。但是英语中音调仅用于部分音节。除了表示疑问、强调等情况,通常英语单词不变调。除少量英语单词(如Record)外,英语单词不借助音调来区分不同的词义。英语的确使用音长要素(如Sheep和Ship)。由于英语一般只用音质和音长来区分词义,所以一般也认为是一种没有声调的语言。

首先从编码效率上,我们可以说汉语就是世界上编码效率最高的语言之一。汉语是世界上为数不多的使用音高来区分不同单词的语言。因此从编码上说,汉语发音的表意能力就比一般语言高出一个维度。也就是说,使用单个音节,汉语能够表达的不同信息的种类,理论上最高可以达到一般外语的4倍。

为什么外国人学汉语学得这么辛苦,而中国人学英语则没有那么辛苦?就是中国人是已经掌握了在发音是音高变化,现在再去学低级的两个固定音高。而在学习汉语中,很多外国人最吃力的问题之一就是声调,因为只习惯于两个固定的音高,而没有听到过、练习过在发音时连续变化音高。

有人提出,声调本身会影响发音速度。这当然是存在的。比方说二声,要求发音时音调逐渐上升,要表现出这个,发音时要表现出两个音调,自然是要比单一音调要费事。但是声调的好处在于,能够在同一组辅音和元音组合的基础上产生出多种不同的发音,所以就不必借助更多的辅音来区别两个具有类似发音的词(比如英文life和light)。英文音节中,辅音-元音组模式的音节,发音确实比汉语略快。但是其他模式,诸如辅音-辅音-元音组-辅音(Blight),或辅音-元音组-辅音,往往就比汉语发音慢了。而辅音-元音组模式的音节,由于英语缺乏音调,所以数量远小于汉语。整体平均下来,英语单个音节的发音应慢于汉语。

对于“英语单个音节的发音应慢于汉语”这个结论,可能有的人觉得不是很信服。我们来举一个非常简单的例子。普通中国人的初等数学能力往往超过欧美。这并不简简单单是教育的问题。更关键地,这是中文对数字命名结果。

汉语所有数字均为单音节,其中6和9有两个元音(或按照国际学术便准,三个元音),发音稍慢;0有后鼻音,发音可能稍慢。还有几个带卷舌音,可能会稍慢。

英语所有数字,除7以外,全部都是单音节。其中覆盖了“辅音-元音”结构(如4)、“辅音-辅音-元音”结构(如3),“辅音-元音-辅音”结构(如5),“辅音-元音-辅音-辅音”结构(如6),元音-辅音结构(如8)、双元音结构(如0,注意一般数字里0读“ou”,不读zero,后者实在太费劲了),等等。可以说英语的这些数字大致包含了英语的各种单音节词的音节结构。当然这里还没有最神奇的辅-辅-元-辅-辅结构,但是那个和单元音结构一样比较少见。

那么平均下来英语的数字比汉语慢多少呢?

首先我们需要知道,人对数字的短期记忆,实际上是对数字发音的记忆。换句话说,你能记住的数字位数,是由数字发音的总长度决定的。研究表明(见http://deepblue.lib.umich.edu/bi ... 0216.pdf?sequence=1),中国人从小开始短期数字记忆能力就高过美国人。该文献说明美国大学生的数字记忆长度平均为7.2位,中国大学生为9.2位。美国大学生的短期数字记忆位数,是中国学生的78.26%。换句话说就是,英语数字的平均发音长度比汉语数字高27.78%。去掉英文数字7(双音节)对平均音长的影响(10%),那么平均下来,单音节英语发音长度大概比汉语高17.78%左右。

更进一步,中国的数字都是彻彻底底的单音节,因此可以采用绝对逻辑的方式构建整个数字表。九十六,就是九个十加一个六。英语是“九十”(与九和十都不同的特殊词)加一个六。法语是四个二十加十六。汉语种最简洁而最富逻辑的结构,在世界上是极为罕见的。九九乘法口诀表,就是构建在这个基础上的。其他国家的儿童如果想背下来这张表,可以说比中国儿童难了几倍。这种语言上的优势就提高了中国人的初等数学能力。

顺便,还有人说,古汉语声调更多啊,难道汉语越发展越回去了么?这当然是错误的。有些音调受说话者情绪等条件的影响,在辨识的时候不确定性因素比较多。这个问题我们将在抗噪能力一节中详细讲解。
五、信息论上的优势

从信息论角度来考虑,编码是很有学问的。举个例子。我们知道计算机传输信息,实际上传输的都是0和1。那么,如果我们传输的各种信息出现的频率不一样高怎么办?答案是,出现越频繁的,编码越短。这样就能提高总体效率。

比方说,我们只有四种信息要传递。按一般的想法,自然是把这四种信息分别用00、01、10、11来表示。每个信息都需要用两位二进制数来表示,也就是说传播100条信息需要发送200个二进制数。但是如果其中有一种信息出现的概率是91%,而另外三种分别是3%。那么就可以使用另一种编码方式:1,01,001,000。平均下来这种传播方式传播100条信息需要发送91+2*3+3*3+3*3=115个二进制数。显然比前面那种效率要高。

世界各主要语言经过了几千年的进化,其词汇的长度分布,都比较符合信息论的要求。你会发现各个语言中越常用的词,一般就越短。英语里,我、你、他、她、我们,都是单音节词。

英文的单音节词非常丰富,实际上比中文的单音节发音要多,这是因为英文可以在一个辅音-元音组合的前后都添加辅音,来实现各种不同的单音节发音。这样排列组合下来,英文的单音节词就是一个比较庞大的词库了。但是这就有一个代价,就是抗噪性能低。这个问题我们放在下一节讲解。

按西方音节定义,英语的单音节词的使用比汉语要频繁。根据统计分析。汉语使用者平均词长约为1.5字上下。(见《ReadingChinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》),而成年英语使用者平均每词音节数约为1.4(见http://www.waisman.wisc.edu/phonology/pubs/PUB30.pdf,这也得到了另一个研究的支持:分析10小时的发听录音,平均没词音节长度为1.38)。

所以,就音节数而言,汉语词平均比英语词长7.14%。然而,考虑到英语一个音节比汉语单音节实际上长得多(即便把上一节得到的17.78%折半,也有8.89%)。再加上汉语每音节信息含量大致比英语高3.30%(见第三节数据)。从信息论的角度讲,汉语的信息传递效率基本上比英语高。(是的是的,我知道信息论的计算还需要更多的数据,只有平均值是不够。但是实在找不到啊,只能草草估计了。)

这一点也得到了另一个实验的验证(见http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

这篇论文找了8个汉语使用者和8个英语使用者。然后让他们两人一组。一组之中,一个人描述图片(描述者),另一个人根据描述来绘制(绘画者)。最后对比图片的准确度。同时观察描述者的语言。

最后结果是,汉语描述者明显比英语描述者先开始描述。描述者开始描述与绘画者开始绘画之间的时间差,汉语使用者低于英语使用者。绘画时间,汉语绘画者低于英语使用者。整体时间,汉语组显著低于英语使用者。所以汉语组所有都比英语组快。而且越复杂的绘画,汉语组就快得越多。

绘画结果,144次绘画。汉语组平均每次犯8.1个错误,其中描述者平均每次犯3.7个错误,绘画者犯4.4个错误。英语组平均每次犯13.25个错误,其中描述者平均每次犯8.5个错误,绘画者犯4.75个。两者的差距仍然在统计误差之内。所以并不算显著。(嗯?刚才谁说汉语没有英语精确来着?)

之后,为了考虑绘画者的技巧差异。让每个绘画者直接对照原图绘画。结果汉语组反而慢于英语组。

绘画期间,汉语组使用音节数显著少于英语使用者。两组语速(每秒音节数)接近(这个结论与前面的播音速度分析结果一致)。

这虽然是一个初步的实验,但是还是能看出汉语在交流上的优势的:用词更少,时间更短,描述精确水平差不多(如果不是更高的话)。这个实验还说明了……我国人民美术水平还有待提高……

至于欧洲主要其他语言,根据第三节提到的数据,它们发音频率比英语高,信息密度比英语低。要那些语言在这方面超过汉语,我觉得可能性不大。

六、组词逻辑

由于英语单音节词资源比较丰富,但平均发音长度较长。所以你会注意到英语里单音节词比例高于汉语,而多音节词的使用比例就小于汉语。很多逻辑上非常相关的词由于不得不全部挤入有限的单音节词库,其发音就失去了联系。这就导致英语的常用词往往缺乏组词的逻辑。

比如我们可以很轻松地说“公鸡”、“母鸡”、“小鸡”、“鸡蛋”。而英语里就成了“Cock”、 “Hen”、“Chick”、 “Egg”,毫无联系。如果常用词要建立联系,那么英语就必须提高这些单词的音节数,那么平均词长就要上升,从信息论角度讲,信息传递效率就更低了。所以英语只能在组词的逻辑性上进行妥协。

相比之下,汉语就从容的多了,即便在当前这种信息效率下,汉语仍然能保证绝大多数词语构造具有逻辑性。因此相比于英语词汇,汉语词汇就比较容易记忆。这就产生了一个结果,那就是汉语的常用词汇量远远多于英语。

英文使用者的单词量和生词辨识能力可见1995年的以下论文:http://jlr.sagepub.com/content/27/2/201.full.pdf

其中,大学生平均自称单词量为16141,经过多项选择测试发现,平均能够辨识其中71%的词汇。也就是说平均大学生词汇量估计为11460个单词。老年人平均自称单词量为21252,经过多项选择测试,发现平均能辨识其中80%。也就是说老年人的词汇量大致为17002。对于从未见过的词的正确理解概率,大学生为30%,老年人为39%。

没有找到中国的相关研究。不过这里是商务印书馆的《现代汉语常用词表(草案)》:http://wenku.baidu.com/view/51636fec551810a6f5248676.html

大家可以进去看看自己的词汇量。我感觉大学生达到五万应该不成问题。而且这肯定不是一个人的全部单词量。不过这里面有些词是英语里几个词合起来的。所以中国人词汇量未必比美国人高这么多。但我觉得定性的结论还是可以下的。

另外里面可能有你没见过的词,可以看看有多少你猜不出正确含义……我觉得除了极少数,确实没什么难度……

另外,汉语和英语都各自在组词上有一个弱点。汉语有大量的同音词,而英语有大量的多义词。汉语有“攻击”和“公鸡”,英语的Ball既可以是球也可以是舞会,当然还有相关的一些列动词含义。汉语中,曾经在文言文中大规模使用的单音节多义词现在大多变成了双音节单义词。汉语中真正的多义词(各个意思之间没有直观逻辑联系)是极少数。而英语里的同音词也是极少数。可以说这两种语言在各自的发展路径上都做了妥协。

由于英语多义词比例比较大,所以尽管英语使用者词汇量比汉语使用者低,也不能说明英语的描述能力不如汉语。另外注意到,美国大学生的词汇量远低于老年人,这说明他们并不是已经记下了所有能见到的词汇,而是在那个年龄段,还没有足够的时间记下。因此可以看出,英语一词多义很多的原因,很可能就是英语单词的记忆难度比汉语大。

所以总的来说,由于汉语精简了发音,并且每音节信息密度较高,这就使得汉语可以有较长的平均词长,因此组词逻辑相比于英语就有了一定的优势。至于其他主要语言,信息传递效率与汉语相比差距更大。主要方面都无法相比,这种次要方面就不需要再比了。(不过话说回来法语之类组词逻辑比英语确实要好)

七、强劲的抗噪能力

前面讲到,英语依靠大量的单音节词才能够接近汉语的信息传递效率。但这不是没有代价的。

构造大量的单音节词,就需要在词汇中使用大量的辅音。辅音分为两种。一种属于响音,就是能够持续发音的,诸如m、n、ng(除这类辅音外,所有的元音也都是响音),一类叫做阻碍音。阻碍音本身发音短促、强度低、音高也很低。只有当阻碍音与元音结合,才能发出强度比较大的音。

汉语普通话中,所有阻碍音都是与元音结合的。而英语以及欧洲所有拼音语言,都大量使用了不与元音结合的阻碍音。

事实上,古汉语中不与元音结合的阻碍音是极度常见的,音节结构比现代汉语的诸多方言都复杂。但是后来这种辅音用法就基本淘汰了。具体上古汉语的发音案例,大家可以自行搜索“《關雎》上古漢語朗讀”。虽然学界对上古汉语的具体发音还有很多争议,但古汉语音节的复杂度在那个朗读中体现得很好。

消灭独立的阻碍音,首先加快了发音速度,第二保证所有音都具有很高的强度。但是其代价就是大大缩小了单音节词库。不过在上面的比较中我们可以看出,这个代价是值得的。汉语的信息传递效率仍然非常高。
那么我们继续一个前面提到的话题,是不是音调越多越好呢?

有一个搞笑论调是这么说的,"我们的普通话叫“mandarin”,什么意思啊?满大人,满族人清朝入关之后,说不出我们的口语,他就把很多调去掉了,把入声去掉了,说的发音越来越简单了。然后逼着全国人都这么说。所以我们现在的口语比粤语要简单得多。"

这是一个非常愚昧的论调。首先,Mandarin这个英语单词来自于葡萄牙语mandarim,葡萄牙语这个词又来源于马来语mntri,马来语这个词来源于梵语mantrin,而梵语这个词的意思是官员。换句话说,mandarin的愿意是“官话”。而且Mandarin这个词能查找到的最早的记录出现于1589年。大家可以查查那时候“满大人”在哪里呢。

很多人以为粤语是正宗的汉语发音。这话对,也不对。粤语具备一些中古汉语的发音特征。但是它也是在中古汉语的基础上发展而成的,语音还是有相当大的差异。有人认为北方官话/中原官话的形成,是因为蛮族入侵“污染”了汉语。这个说法同样,对,也不对。北方官话之所以在中古汉语的基础上进一步的发展,就是因为战争与征服,北方汉民与语言不通的外族加深的了交流,多种族的融合,教育,逐渐把一些发音变得更加容易。

举一个例子,粤语里白菜的白是Baak6,普通话是Bai2。粤语里尾部的这个k是一个不发音的舌头动作。这个动作略微改变了原来Baa的发音。但是这个音,如果不费力就很难造成Baa明显的变化。相比之下,Bai本身就容易发,双元音ai的发音是通过舌头跟随下颚动作完成的。我们知道咀嚼肌的力量比舌头大,运动也快。依靠下颚完成的ai音显然比依靠舌头完成的aak音要容易发。当然这不是一个公平的比较,相比之下普通话Liu、Lang的发音难度与粤语Baak相近,但是这两个音的尾部都是响音,不需要费力就能发得很清楚。

与这个不发音的k类似的,还有粤语中p和t结尾。这种发音方式正式名称叫做不除阻的塞音尾。在亚洲很多国家和方言里都有。这应该是古汉语流传下来的特点。这种塞音尾既不抗噪也不省力。在交流更广泛、更频繁的北方方言里是很难见到的,应该是已经演化成其他发音了。

粤语依具体方言不同,有6-10个声调。其音高变化模式并不超出普通话的四个音调。之所以多出来这么多音调,是因为粤语还引入了不同基准音高。比方说在一些方言里,粤语的第1、3、6声都是保持音高,但是这三个声调各自保持的音调高度不同。再比如粤语第2、5声,都是音高由低到高变化,但起始音高不同。粤语总共有四种不同的基准音高,分别是do、re、mi和sol。类似的情况在很多南方方言里都存在。

这就是为什么有时候南方方言听起来有些像唱歌。大概也就是为什么吴侬软语听起来很好听。

然而粤语音调最大的问题就是,每一个人音调高低是不一样的。有的人说话音调高,有的人音调低。没有一个统一标准。甚至同一个人说话的时候,在低沉、平静、激动时,音调高低也是不同的。因此,与一个不熟悉的人说话,出现单独的一个音高或两个音高,都很难分辨出到底是哪一声。必须要三到四个基准音高都繁出现,才能判断准确对方的音高究竟属于哪一声。而这些基准音高是否会频繁出现,这就是比较看人品的了。当然,就汉语的冗余度而言,一部分音高判断不准是没有太大关系的。但这就让粤语发音多变的优势大大削弱了。

此外,粤语的7、8、9声都是短促音,其音高和音高变化模式与1、3、6声没有区别。短促音抗噪能力不如普通音长的发音,但它们的发音速度更快。不过在现今人类口语交流中,瓶颈是大脑的思维速度,发音速度太快并没有明显的好处。

有人问到底多少个声调最合适。我觉得这很不好说。现在没有客观的评估。但是无论如何有声调的汉语(及其方言)总是要比没有声调的外语强。。

那么汉语的抗噪性能有没有什么证明呢?

有的。出了国,尤其是到了欧美的人,就会发现一个问题。那就是中国人说英语,相比于当地人来说,总有点含混不清。外语老师总是要求中国人说英语的时候嘴巴要张大、舌头的运动要有力,甚至要求用牙齿咬住一根铅笔来训练唇舌运动。这是为什么呢?因为中国人已经习惯了唇舌微微运动的发音过程。

首先汉语发音具有很高的信号强度。而且由于舍弃了所有单独发音的辅音,所以一个音节里的元音就能保持更长的时间(这也就是为什么我们一般觉得汉语说话比英语慢的缘故)。我们知道长时间保持一个信号,也有利于对抗随机噪声。发音强度大、元音维持时间长,这就导致,同等发音强度时,汉语的抗噪能力更加强大。换句话说就是,同等噪音条件下,汉语所需要的音量更小。因此汉语使用者发音不必费力,唇舌运动幅度比英语之类明显小。

八、口语的速度

说到口语的速度,我们先来看这篇论文:http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

其中图1显示,根据一些谈话样本,当去掉沉默与噪音占据的时间后,英语会话者每分钟一般能够说160-280个词。汉语会话者大致是250至400词(这里不是字)。这差不多是普通人不受思绪影响的最高语速。所以可以看出,汉语的理论最高信息传递能力是远远高于英语的。

但实际上受限于思维速度,两者的速度差距并不大。以下这篇论文研究了在不同语速下听众正确听得每个字的概率。http://www.sciencedirect.com/sci ... i/S0169814104001581

一般广播节目的语速在4.3字每秒左右。也就是每分钟260字上下。高于这个数字,就可能会听众接收语音时听错。从上文可以看出,年轻人在对方语速达到约650字每分钟时(即吐字时间缩短60%)仍然能保持90%以上的正确接收率。但是老年人就会降低到约70%。可以看出这个速度实际是受限于大脑的处理速度。中国好声音的华少,是47秒说350个字,也就是速度达到了446.8字每分钟。这个速度上能说得字字清晰,这是很厉害的。

英文新闻播音一般在150-180词每分钟(当然,也取决于词的长度)。根据10个小时的法庭录音的数据结果(http://languagelog.ldc.upenn.edu/nll/?p=1255),可以看出美国大众90%的情况下说话速度低于200词每分钟,99.75%的情况下低于250词每分钟。平均水平差不多是160-170词每分钟。(因为仅靠10小时庭审记录统计,所以不会特别准确,这里就是看个大概。)

所以,按照平均每词1.4音节计算,基本上英文新闻播音一般每分钟210-252个音节左右。这与庭审记录中平均一分钟226个音节接近。

英文播音平均每分钟210-252个音节与汉语播音平均每分钟240-260字没有显著区别。

可以说,人类接受语音的速度,现在是受到了人脑处理能力的限制。上面的播音速度,都不是播音员最快的说话速度,而是为了保证观众正常收听才控制的速度。随着交流的日益深入,人类说话的速度实际上在加快。40年前美国一般语速是145词每分钟。如今是160-170词每分钟。中国60年代播音185字每分钟,如今是240-260字每分钟。这也许是信息的丰富让人脑的处理能力上升的缘故。

九、汉字:伟大的基础

汉语一开始也是一种综合语。大量使用词根、词缀。但是从文字角度,汉字为汉语成为分析语提供了非常关键的基础结构。汉字导致词形变化无法记录在纸上。最后词形变化就只能用额外的汉字来标记了。而这个增加的汉字就变成了一个通用的逻辑规则,也就与修饰的特定词失去了必然关系。这样汉语就逐渐变成分析语了。

而正是由于汉字将读音与书写割裂,使得汉语的语音能够相对自由地发展。因此在汉语语音在几千年中变化了如此之大,而我们的文化却没有多少割裂。

更进一步地,由于汉字并不受限于读音,因此可以创造出大量同音异形字,帮助汉语降低平均音节长度、提高组词的逻辑性。而且,虽然在口语上,汉语的同音异形词和英语的多义词都属于“同一发音可能包含不同含义”的情况,但写到纸面上,同音异形词就比多义词更容易辨识,减少歧义的可能。

有人可能会问,汉语口语交流,并没有多少歧义的问题。那为什么文字中会需要额外的消除歧义的能力呢?这是因为一般情况下口语交流是一种双向交流,如果发现有可能有歧义,可以向对方询问,主动消除歧义。而文字往往是一种单向交流(不包括网上文字聊天……),一旦出现歧义,就很难消除。因此文字里的歧义一般需要比口语更小。

所以我们的文字、我们的语音以及我们整个语言整体,都是有机结合在一起的。推崇汉字的拼音化或拉丁语话,都是没有看清这种密切联系。因此盲目把文字拼音化的韩国就会出那种把防水材料搞成吸水材料的笑话(韩语里“防水”和“放水”读音一致,结果建筑公司错误理解了图纸)。

另外,由于汉字不需要空格,所以相比于类似字号的英文单词,同一个词要高而窄。这在排版上有很大的优势(行距要占用额外的空间,高而窄可以减少行数)。加上汉语本身信息密度高。所以一般我们看到的中文版的书面文件都比外文版的页数少。

十、阅读速度的比较

和语音一样,阅读速度同样受到大脑处理速度的制约。所以各个主要语言区别不大。

在《ReadingChinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》专门讲阅读中英文时的眼球移动。这是中科院和悉尼大学的两位学者写的。这其中发现。熟练的中文阅读者能够每分钟阅读386个中文词汇(580个汉字),而熟练的英文阅读者可以每分钟阅读382个英文词汇。一般人可能会低100词左右。具体速度还取决于文章的复杂程度,文章简单的话阅读速度就更快。

汉语使用者眼睛每次凝视可以阅读1.71个词(2.57个汉字),每次凝视平均257毫秒。英文阅读者每次凝视可以阅读1.75个词,每次凝视平均265毫秒。

总体上说,两者阅读速度不相伯仲。

在同一个章节中,作者提到,如果通过连续在同一位置显示不同的词(RSVP法),就能免去眼睛的运动。这样,最高可以提升中文阅读速度约33%(从640字每分钟提升至853)。英文最高提升也基本上是33%上下(见http://www.handwritten.net/mv/pa ... al_presentation.pdf)。

十一、双线并行读取能力:更稳定

经过长期的研究,人们发现不同语言使用者在阅读时使用的大脑区域是不同的。一下这篇文章提供了部分综述:

http://www.pitt.edu/~perfetti/PD ... 0Tan%20et%20al..pdf

阅读自己母语时,阅读汉语的人脑部激活范围比阅读英语的人大。英语阅读者在阅读时主要激活左脑的一些部分。而汉语阅读者同时激活左右脑。这是一个很有意思的发现。因为,时序信号(语音就是个时序信号)的处理区域一般在左脑,图像、空间信息的处理区域一般在右脑。所以,很多人认为,汉语阅读者的阅读实际上有两个处理通道。就是说在阅读汉语时,我们总是一边通过图像来直接识别文字含义,一边通过图像转换为读音然后来识别文字含义。而表音语言只有一条显著的处理通道。

为了确认这个结果。研究人员进一步研究了一个夹杂表意和表音文字的语言——日语。在阅读日语时,左脑在阅读平假名/片假名有优势,而右脑在阅读汉字时有优势。

有意思的是,中国人在读英语、日语时脑部活动与英美人士读英语是不一样的。显示出中国人长期阅读中文后,养成的图形、读音双路识别的习惯。不过快速阅读英文时右脑活跃度不高,可见此时主要依赖读音识别。具体内容可见下面这篇文章http://www.pitt.edu/~perfetti/PD ... 0Tan%20et%20al..pdf

这些研究同时意味着,汉语的两大处理途径只有同时失效才会造成阅读能力低下。这个结论受到近年来的研究支持。如下面这两个报道:
http://blogs.scientificamerican. ... nglish-and-chinese/
http://www.sciencedaily.com/releases/2009/10/091012121333.htm

学者研究了具有发展性阅读障碍(失读症)的中国儿童,他们大脑的处理语音的部分和处理图像的部分活跃度都比较差。而英文失读症的患儿,则不见得有图像处理问题。事实上,有一种疗法就是把英文发音用汉字表示,然后让患儿阅读。取得了很好的效果。具体可见1971年的这篇论文。
http://www.eric.ed.gov/ERICWebPo ... &accno=EJ037129

患阅读障碍的儿童比例也说明了中国儿童不易得阅读障碍。
http://www.guardian.co.uk/educat ... ch.highereducation2

根据上面这篇报道,英语区阅读障碍者比例约为5-6%,而汉语区约为1.5%。百度的数据不知道哪里来的,居然说中国失读症患者和美国相当。我看到的英文文献没有一个说两者相当的。都是中国比英美低。可能由于标准不同,还有另一组数据:中国7%,美国17%。实在是没有见到哪里有说两者相当的。

不过值得注意的是,汉语阅读与英语阅读使用不同的大脑区域,病变区域也不同。所以具体的致病机理仍然在研究中。目前只能通过患者的行为现象来论证。

也有人怀疑,正是由于汉语造成更大的脑部活动,所以在教育水平普遍落后于发达国家的情况下,中国平均智商仍然高于欧美。关于全球各国平均智商,有两位作者写了很多本书。这些书的综述可见这里:http://en.wikipedia.org/wiki/Nations_and_intelligence


不过以上这个智商研究的准确性受到了诸多质疑。所以大家看看就是了,不必太认真。
十二、不够严谨?

有人说汉语的劣势就是不够严谨。

这其实可以说是分析语和综合语的差异。分析语对于词的具体含义需要通过上下文确定。如果上下文给予信息不足,就有可能出现歧义。而很多时候,上下文只能表明这个词更可能是什么意思,而不能完全否定其他理解。

这虽然在交流中不会有什么问题,但是在那些防止别人钻空子的文件里就可能造成问题。

我们举个例子:“中国绝不会首先使用核武器。”

这句话有三种解释:
1、在敌方没有使用核武器之前,中国不会使用核武器。
2、中国在使用常规武器之前不会使用核武器。
3、中国不会是世界上第一个使用核武器的国家。

很显然理解应该是1,但是并无法否定2和3的可能性。因此,很多人认为汉语的这种不严谨性会妨碍法律条文和合同。

但是英文难道就很严谨么?

He ran into a girl with an umbrella.

带伞的是男的还是女的?

I saw a car with a big flag, which looked really evil.

哪个看起来很邪恶,车还是旗子?

China will not be the first to use a nuclear weapon.

这应该是上面的解释1还是3?
想要做到严谨,都需要考虑到其他人阅读时的想法,然后用其他语句来消除歧义。(顺便推荐搞笑英语书籍《Anguished English: AnAnthology of Accidental Assaults Upon Our Language》,里面收录了很多爆笑的歧义句,比如If you have not got any fresh vegetables, you may get canned.)

所以,汉语要想说的严谨,也是没有问题,只不过要比一般多一些口舌而已。分析语本身的表意效率就很高。多花一些笔墨,达到严谨的效果,也是完全可以做到的。所以这方面如果有差距的话,差距也不大。
十三、劣势:难以学习

毋庸置疑,虽然汉字承载着汉语的诸多优势,但是汉字本身最大的劣势却是不可回避的。那就是不利于学习。

我在背英语单词的时候,发现最好的记忆方法是把意思和读音结合起来,然后通过读音记忆拼写。(完美的表音文字,应该是读音与拼写的直接对应。英语由于受到其他语言影响太多所以这方面相对较差,不过这种规律还是相通的。)

相对与文字,人对读音的记忆速度更快。而表音文字,一旦掌握了拼写和读音之间的规律,就很容易记住文字。

而汉语在这方面是很差的。字和字之间缺乏联系,字和读音之间很少有联系,而且由于几千年语音的变化,经常看着是个形声字,读音却与想象的相差甚远。这是我们文字的劣势。当然,如前面所说,这也有使用上的优势。

我们可以看到,几千年来文字的发展历程。它总是首先于两个因素:表意的需要,学习和书写的难度。

一开始我们的老祖宗试图用一个字代表一个特定含义。这是很自然的思路。但是后来随着需要表达的意思成几何级数增长。汉字逐渐就不够用了。或者说,这样的话,同音字实在太多,不利于传播了。于是多个字组成的词才出现。在此之后,一大批原来造出来的字都被抛弃了。

比方说骓、骊、骒这种专门为表示特定种类的马的字。还有璇、玑等等一大堆带王字旁(斜玉旁)表示特定种类的玉器的字。后者毕竟意思还不错,还在名字里用一用。

有一些人对汉字的简化持有非常大的非议。我觉得大可不必。汉字的简化是必要的。越复杂的字形,越难以学习。汉字几千年的发展,使得字形与含义的距离也越来越远。复杂的字形在表音、表意方面并无优势。进与進、从与從、后与後,都没看出来繁体字在表意方面有何优势,而简体在学习的简便性上优势倒是很明显。每次看到“憂鬱的烏龜”,我自己都快忧郁了。
[url=http://www.cchere.com/article/3847186]http://www.cchere.com/article/3847186

正如我前面所说。我写这整篇文章的目的并不是为了让大家确信汉语就是至尊无敌的最先进语言。而只是想用一种比较极端的叙事方式来反对逆向民族主义者贬低汉语的论调。这里提供一些真实数据来提供佐证。同时也能防止矫枉过正,免得有人看完前两篇后觉得汉语是其他语言望尘莫及的先进语言。

实验数据

事实上我希望大家首先明白一个道理,现在实际上的主流语言都经过了几千年的进化,虽然各自之间有很多差距,但是到最后,大家都接近了一个极限。这个极限就是人类大脑的运转速度。因此,先进也好,落后也好,在现在这个时代,差距并不大。

汉语表意效率

我们前面说到汉语表意效率高。但是到底有多高呢?

2011年法国里昂大学做了一个实验。
http://www.time.com/time/health/article/0,8599,2091477,00.html
http://ohll.ish-lyon.cnrs.fr/ful ... o_2011_Language.pdf

这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。

然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,然后得出结论。当然,这个实验并不能完全准确地表现各个语言的差异,但是还是可以用来定性的。

其中,汉语使用者信息密度为0.94,位居第一。英语信息密度为0.91,显示出英文相比于其他欧洲语言的优越。西班牙语效率明显不如前两者,信息密度0.63。而日语信息密度为0.49。(法0.74、德0.79、意0.72)

此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本:英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据。

另外需要注意的是,此处的“音节”是欧美语言学的定义,粗略地说就是一个元音/韵母(或几个连续韵母)以及周边的辅音全部算作一个音节。比方说英文单词诸如Bliss算作一个音节,而To也算作一个音节,实际上一个音节发音所需的时间是不等的。而汉语和日语是没有那种不带韵母的轻音的,在信息密度计算上就比较吃亏。所以总体上说,欧洲语言的表意效率应该比显示出来的更低一些。在主要语言中,汉语表意效率第一,应该是没有多少疑问的。(顺便,按语言学的音节定义,最长的单音节英语单词是Strengths)

值得注意的是,可能由于汉字与读音是分离的,理解和朗读无法同步进行,所以用汉语朗读,就会比较慢。里昂大学的这个实验中,汉语朗读者每秒朗读5.18个音节。大大慢于其他语言(英6.19,法7.18,德5.97,意6.99,日7.84,西7.82)。因此在朗读中,汉语传递信息的效率比较低,换算出来的朗读信息传递效率为英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。不过这个研究也受到了一些批评,觉得做的太糙了,而且有些地方不能自圆其说。比如按文中数据明明日语表意效率明显低,但作者又说其实一分钟内各个语言表达的信息量是差不多的。

汉语语音速度与表意速度

那么汉语说话速度呢?我们来看这篇论文:http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

其中图1显示,根据一些谈话样本,当去掉沉默与噪音占据的时间后,英语会话者每分钟一般能够说160-280个词。汉语会话者大致是250至400词(这里不是字)。这差不多是普通人不受思绪影响的最高语速。所以可以看出,汉语的理论最高信息传递能力是远远高于英语的。

但实际上受限于思维速度,汉语的语速并没有那么恐怖。以下这篇论文研究了在不同语速下听众正确听得每个字的概率。
http://www.sciencedirect.com/sci ... i/S0169814104001581

一般广播节目的语速在4.3字每秒左右。也就是每分钟260字上下。高于这个数字,就可能会听众接收语音时听错。从上文可以看出,年轻人在对方语速达到约650字每分钟时(即吐字时间缩短60%)仍然能保持90%以上的正确接收率。但是老年人就会降低到约70%。可以看出这个速度实际是受限于大脑的处理速度。中国好声音的华少,是47秒说350个字,也就是速度达到了446.8字每分钟。这个速度上能说得字字清晰,这是很厉害的。

英文新闻播音一般在150-180词每分钟(当然,也取决于词的长度)。根据10个小时的法庭录音的数据结果(http://languagelog.ldc.upenn.edu/nll/?p=1255),可以看出美国大众90%的情况下说话速度不会超过200词每分钟,98%的情况下不会超过225词每分钟。平均水平差不多是160-170词每分钟。同一来源统计每个词差不多1.38音节(因为仅靠10小时庭审记录统计,所以不会特别准确,这里就是看个大概。)
所以,基本上英文新闻播音一般每分钟207-248.4个音节左右。这与庭审记录中平均一分钟226个音节接近。

英文播音平均每分钟207-248.4个音节与汉语播音平均每分钟240-260字相近。根据里昂大学的研究结果,汉字每音节信息密度略高于英文。所以大致上看,汉语交流的效率略高。

但是这都是基于非常粗糙的数据与估算。不是很给力。

顺便,随着交流的日益深入,人类说话的速度实际上在加快。40年前美国一般语速是145词每分钟。如今是160-170词每分钟。中国60年代播音185字每分钟,如今是240-260字每分钟。这也许是信息的丰富让人脑的处理能力上升的缘故。

汉语阅读速度

在《Reading Chinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese and English Text》专门讲阅读中英文时的眼球移动。这是中科院和悉尼大学的两位学者写的。

这其中发现。熟练的中文阅读者能够每分钟阅读386个中文词汇(580个汉字),而熟练的英文阅读者可以每分钟阅读382个英文词汇。

汉语使用者眼睛每次凝视可以阅读1.71个词(2.57个汉字),每次凝视平均257毫秒。英文阅读者每次凝视可以阅读1.75个词,每次凝视平均265毫秒。

总体上说,中文阅读速度高于英文,但是两者完全在误差范围内。如果考虑信息密度的情况,则汉语更占优势。

汉语交流的速度

上面的数据感觉都很粗糙,也说明不了问题。那么有没有更给力的结果呢?
这一节基于宾西马尼亚大学的以下论文:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

这篇论文找了8个汉语使用者和8个英语使用者。然后让他们两人一组。一组之中,一个人描述图片(描述者),另一个人根据描述来绘制(绘画者)。最后对比图片的准确度。同时观察描述者的语言。

最后结果是,汉语描述者明显比英语描述者先开始描述。描述者开始描述与绘画者开始绘画之间的时间差,汉语使用者低于英语使用者。绘画时间,汉语绘画者低于英语使用者。整体时间,汉语组显著低于英语使用者。所以汉语组所有都比英语组快。而且越复杂的绘画,汉语组就快得越多。

绘画结果,144次绘画。汉语组平均每次犯8.1个错误,其中描述者平均每次犯3.7个错误,绘画者犯4.4个错误。英语组平均每次犯13.25个错误,其中描述者平均每次犯8.5个错误,绘画者犯4.75个。两者的差距仍然在统计误差之内。所以并不算显著。(嗯?刚才谁说汉语没有英语精确来着?)

之后,为了考虑绘画者的技巧差异。让每个绘画者直接对照原图绘画。结果汉语组反而慢于英语组。

绘画期间,汉语组使用音节数显著少于英语使用者。两组语速(每秒音节数)接近(这个结论与前面的播音速度分析结果一致)。

这虽然是一个初步的实验,但是还是能看出汉语在交流上的优势的:用词更少,时间更短,描述精确水平差不多(如果不是更高的话)。这个实验还说明了……我国人民美术水平还有待提高……

至于欧洲主要其他语言,发音频率比英语高,信息密度比英语低,要那些语言在这方面超过汉语,我觉得可能性不大。

词汇量与生词辨识度

英文使用者的单词量和生词辨识能力可见1995年的以下论文:http://jlr.sagepub.com/content/27/2/201.full.pdf

其中,大学生平均自称单词量为16141,经过多项选择测试发现,平均能够辨识其中71%的词汇。也就是说平均大学生词汇量估计为11460个单词。老年人自称单词量为21252,经过多项选择测试,发现平均能辨识其中80%。也就是说老年人的词汇量大致为17002。

对于从未见过的词的正确理解概率,大学生为30%,老年人为39%。

没有找到中国的相关研究。不过这里是商务印书馆的《现代汉语常用词表(草案)》:
http://wenku.baidu.com/view/51636fec551810a6f5248676.html

大家可以进去看看自己的词汇量。我感觉大学生达到五万应该不成问题。而且这肯定不是一个人的全部单词量……

里面可能有你没见过的词,可以看看有多少你猜不出正确含义……我觉得除了极少数,确实没什么难度……
数字记忆
本节基于密歇根大学的以下论文:http://deepblue.lib.umich.edu/bi ... 0216.pdf?sequence=1

该文总结了三份统计结果。

第一份:幼儿园、一年级、二年级。中国儿童普遍比美日儿童能多记忆约两位数字。

第二份:6-7岁儿童,正背、反背、分组背数字,主要是为了否定“亚洲孩子生来数学就比美国人好”的假说。发现反背时中国儿童对数字记忆力不如美国儿童。

第三份:中美大学生对比。发现中美两国学生能够记住同等发音长度的数字。平均下来,中国学生比美国学生高两位数字(9.2对7.2)。

外国人学汉语

最后再来点小品,这里有几个外国人学汉语的体会。
http://benross.net/wordpress/jou ... anguage/2009/10/29/
http://www.fluentin3months.com/chinese/

缺点:
第一体会:入门时听不出音调。
这完全可以理解,他们从来就没有在这个环境里生活过,对音调不敏感。中国孩子就没这问题。
第二体会:汉字实在是难记。
不过他们的总结是一旦学会了几百个以后,后面就容易起来了。这看来是公认的。

优点:
第一体会,没有时态和变形。
以至于有美国人说总体上这比学西班牙语还简单:西班牙语里“是”在一般时态下有如下变形:estar, estoy, estás, está , estamos, estáis, están, ser, soy, eres, es, somoms, sois, son
学过的词,变个形,就听不懂了。
顺便上周看到有个日志专门讲在论文的不同部分应该使用什么时态……中文从来没这种问题。

第二体会,容易推测生词含义。
这起源是,老美和一个中国人在网上聊。中国人问老美干什么呢。老美说我要考GRE,正背单词呢。中国人大惊,问你不是美国人吗,怎么还要背单词。的确,大家回头想想,上大学以后你查过几回中文生词?考研究生的时候难道还需要背中文单词?
苯 Benzene
甲苯 Toluene
二甲苯 Xylene
当然这几个也有比较统一的名称:Benzene、Methyl-benzene、Dimethyl-benzene。奈何老美嫌太长,反而用得少。
也难怪米国人上大学以后要查单词……
要是给中国人说腹膜炎,大家基本都知道是哪里出了毛病。跟美国人讲Peritonitis。一般美国人最多能估计出这是一种病,至于是哪里就不知道了。
再比方说“音节”大家一看就知道是什么意思,只是在学术圈里的具体定义可能有一些差异,这个词见到了根本不用背。英文Syllable,望文生义是不可能的。这个词来可以追溯到希腊语“音节”syllabē,而希腊语这个词来源于希腊语syllambanein,意思是集合、聚集。真是苦死英语使用者了。
不过平心,历史上英国长期是欧洲落后国家,所以英语里面实在是有太多的外来语了(法语、德语、拉丁语),单词的逻辑结构确实不怎么样。这并不见得是表音文字的通病。
这就让我想起美国的反智主义,这也许与民众往往看不懂专业术语有关。

[ Last edited by zzz19760225 on 2017-5-23 at 07:17 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:33
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 9 楼』:  

千字文
千字文~第1-4章~(萝莉版)http://music.163.com/#/m/song?id=429459238&userid=282225839
千字文~第2-4章~(萝莉版)http://music.163.com/#/m/song?id=442030065&userid=282225839
千字文~第3-4章~(萝莉版)http://music.163.com/#/m/song?id=476845279&userid=282225839
千字文~第4-4章~(萝莉版)http://music.163.com/#/m/song?id=476845424&userid=282225839

http://www.bangnishouji.com/guoxue/201305/1336.html
微盘书法千字文http://vdisk.weibo.com/s/ugCAvMHFBZkTq?category_id=27&parents_ref=ugCAvMHFCJU6g
1
天地玄黄 (tiān dì xuán huáng), 宇宙洪荒 (yǔ zhòu hóng huāng)。
日月盈昃 (rì yuè yíng zè),        辰宿列张 (chén xiù liè zhāng)。
寒来暑往 (hán lái shǔ wǎng),   秋收冬藏 (qiū shōu dōng cáng)。
闰余成岁 (rùn yú chéng suì),   律吕调阳 (lǜ lǚ tiáo yáng)。
云腾致雨 (yún téng zhì yǔ),    露结为霜 (lù jié wéi shuāng)。
金生丽水 (jīn shēng lì shuǐ),     玉出昆冈 (yù chū kūn gāng)。
剑号巨阙 (jiàn hào jù què),     珠称夜光 (zhū chēng yè guāng)。
果珍李柰 (guǒ zhēn lǐ nài),      菜重芥姜 (cài zhòng jiè jiāng)。
海咸河淡 (hǎi xián hé dàn),     鳞潜羽翔 (lín qián yǔ xiáng)。
龙师火帝 (lóng shī huǒ dì),      鸟官人皇 (niǎo guān rén huáng)。
始制文字 (shǐ zhì wén zì),        乃服衣裳 (nǎi fú yī cháng)。
推位让国 (tuī wèi ràng guó),    有虞陶唐 (yǒu yú táo táng)。
吊民伐罪 (diào mín fá zuì),       周发殷汤 (zhōu fā yīn tāng)。
坐朝问道 (zuò cháo wèn dào), 垂拱平章 (chuí gǒng píng zhāng)。
爱育黎首 (ài yù lí shǒu),           臣伏戎羌 (chén fú róng qiāng)。
遐迩一体 (xiá ěr yī tǐ),             率宾归王 (shuài bīn guī wáng)。
鸣凤在竹 (míng fèng zài zhú),  白驹食场 (bái jū shí chǎng)。
化被草木 (huà bèi cǎo mù),     赖及万方 (lài jí wàn fāng)。

2
盖此身发 (gài cǐ shēn fà),        四大五常 (sì dà wǔ cháng)。
恭惟鞠养 (gōng wéi jū yǎng),  岂敢毁伤 (qǐ gǎn huǐ shāng)。
女慕贞洁 (nǚ mù zhēn jié),     男效才良 (nán xiào cái liáng)。
知过必改 (zhī guò bì gǎi),       得能莫忘 (dé néng mò wàng)。
罔谈彼短 (wǎng tán bǐ duǎn), 靡恃己长 (mí shì jǐ cháng)。
信使可覆 (xìn shǐ kě fù),         器欲难量 (qì yù nán liáng)。
墨悲丝染 (mò bēi sī rǎn),        诗赞羔羊 (shī zàn gāo yáng)。
景行维贤 (jǐng xíng wéi xián), 克念作圣 (kè niàn zuò shèng)。
德建名立 (dé jiàn míng lì),      形端表正 (xíng duān biǎo zhèng)。
空谷传声 (kōng gǔ chuán shēng), 虚堂习听 (xū táng xí tīng)。
祸因恶积 (huò yīn è jí),          福缘善庆 (fú yuán shàn qìng)。
尺璧非宝 (chǐ bì fēi bǎo),        寸阴是竞 (cùn yīn shì jìng)。
资父事君 (zī fù shì jūn),          曰严与敬 (yuē yán yǔ jìng)。
孝当竭力 (xiào dāng jié lì),      忠则尽命 (zhōng zé jìn mìng)。
临深履薄 (lín shēn lǚ báo),      夙兴温凊 (sù xīng wēn qìng)。
似兰斯馨 (sì lán sī xīn),            如松之盛 (rú sōng zhī shèng)。
川流不息 (chuān liú bù xī),      渊澄取映 (yuān chéng qǔ yìng)。
容止若思 (róng zhǐ ruò sī),       言辞安定 (yán cí ān dìng)。
笃初诚美 (dǔ chū chéng měi), 慎终宜令 (shèn zhōng yì lìng)。
荣业所基 (róng yè suǒ jī),       籍甚无竟 (jí shèn wú jìng)。
学优登仕 (xué yōu dēng shì),  摄职从政 (shè zhǐ cóng zhèng)。
存以甘棠 (cún yǐ gān táng),    去而益咏 (qù ér yì yǒng)。
乐殊贵贱 (yuè shū guì jiàn),    礼别尊卑 (lǐ bié zūn bēi)。
上和下睦 (shàng hé xià mù),   夫唱妇随 (fū chàng fù suí)。
外受傅训 (wài shòu fù xùn),    入奉母仪 (rù fèng mǔ yí)。
诸姑伯叔 (zhū gū bó shú),      犹子比儿 (yōu zǐ bǐ ér)。
孔怀兄弟 (kǒng huái xiōng dì), 同气连枝 (tóng qì lián zhī)。
交友投分 (jiāo yǒu tóu fēn),    切磨箴规 (qiē mó zhēn guī)。
仁慈隐恻 (rén cí yǐn cè),         造次弗离 (zào cì fú lí)。
节义廉退 (jié yì lián tuì),          颠沛匪亏 (diān pèi fěi kuī)。
性静情逸 (xìng jìng qíng yì),    心动神疲 (xīn dòng shén pí)。
守真志满 (shǒu zhēn zhì mǎn),逐物意移 (zhú wù yì yí)。
坚持雅操 (jiān chí yǎ cāo),      好爵自縻 (hǎo jué zì mí)。

3
都邑华夏 (dū yì huá xià),        东西二京 (dōng xī èr jīng)。
背邙面洛 (bèi máng miàn luò),浮渭据泾 (fú wèi jù jīng)。
宫殿盘郁 (gōng diàn pán yù), 楼观飞惊 (lóu guàn fēi jīng)。
图写禽兽 (tú xiě qín shòu),     画彩仙灵 (huà cǎi xiān líng)。
丙舍旁启 (bǐng shè páng qǐ),   甲帐对楹 (jiǎ zhàng duì yíng)。
肆筵设席 (sì yán shè xí),         鼓瑟吹笙 (gǔ sè chuī shēng)。
升阶纳陛 (shēng jiē nà bì),      弁转疑星 (biàn zhuàn yí xīng)。
右通广内 (yòu tōng guǎng nèi),左达承明 (zuǒ dá chéng míng)。
既集坟典 (jì jí fén diǎn),          亦聚群英 (yì jù qún yīng)。
杜稿钟隶 (dù gǎo zhōng lì),     漆书壁经 (qī shū bì jīng)。
府罗将相 (fǔ luó jiàng xiàng),   路侠槐卿 (lù jiā huái qīng)。
户封八县 (hù fēng bā xiàn),    家给千兵 (jiā jǐ qiān bīng)。
高冠陪辇 (gāo guān péi niǎn), 驱毂振缨 (qū gǔ zhèn yīng)。
世禄侈富 (shì lù chǐ fù),          车驾肥轻 (chē jià féi qīng)。
策功茂实 (cè gōng mào shí),  勒碑刻铭 (lè bēi kè míng)。
磻溪伊尹 (pán xī yī yǐn),         佐时阿衡 (zuǒ shí ē héng)。
奄宅曲阜 (yǎn zhái qū fù),      微旦孰营 (wēi dàn shú yíng)。
桓公匡合 (huán gōng kuāng hé), 济弱扶倾 (jì ruò fú qīng)。
绮回汉惠 (qǐ huí hàn huì),      说感武丁 (yuè gǎn wǔ dīng)。
俊乂密勿 (jùn yì mì wù),        多士实宁 (duō shì shí níng)。
晋楚更霸 (jìn chǔ gēng bà),   赵魏困横 (zhào wèi kùn héng)。
假途灭虢 (jiǎ tú miè guó),      践土会盟 (jiàn tǔ huì méng)。
何遵约法 (hé zūn yuē fǎ),      韩弊烦刑 (hán bì fán xíng)。
起翦颇牧 (qǐ jiǎn pō mù),       用军最精 (yòng jūn zuì jīng)。
宣威沙漠 (xuān wēi shā mò),  驰誉丹青 (chí yù dān qīng)。
九州禹迹 (jiǔ zhōu yǔ jì),        百郡秦并 (bǎi jùn qín bìng)。
岳宗泰岱 (yuè zōng tài dài),    禅主云亭 (shàn zhǔ yún tíng)。
雁门紫塞 (yàn mén zǐ sài),       鸡田赤城 (jī tián chì chéng)。
昆池碣石 (kūn chí jié shí),       钜野洞庭 (jù yě dòng tíng)。
旷远绵邈 (kuàng yuǎn mián miǎo), 岩岫杳冥 (yán xiù yǎo míng)。

4
治本于农 (zhì běn yú nóng),    务兹稼穑 (wù zī jià sè)。
俶载南亩 (chù zǎi nán mǔ),     我艺黍稷 (wǒ yì shǔ jì)。
税熟贡新 (shuì shú gòng xīn),  劝赏黜陟 (quàn shǎng chù zhì)。
孟轲敦素 (mèng kē dūn sù),   史鱼秉直 (shǐ yú bǐng zhí)。
庶几中庸 (shù jǐ zhōng yōng), 劳谦谨敕 (láo qiān jǐn chì)。
聆音察理 (líng yīn chá lǐ),        鉴貌辨色 (jiàn mào biàn sè)。
贻厥嘉猷 (yí jué jiā yóu),        勉其祗植 (miǎn qí zhī zhí)。
省躬讥诫 (xǐng gōng jī jiè),     宠增抗极 (chǒng zēng kàng jí)。
殆辱近耻 (dài rǔ jìn chǐ),        林皋幸即 (lín gāo xìng jí)。
两疏见机 (liǎng shū jiàn jī),     解组谁逼 (jiè zǔ shuí bī)。
索居闲处 (suǒ jū xián chǔ),    沉默寂寥 (chén mò jì liào)。
求古寻论 (qiú gǔ xún lùn),     散虑逍遥 (sǎn lǜ xiāo yáo)。
欣奏累遣 (xīn zòu lèi qiǎn),     戚谢欢招 (qī xiè huān zhāo)。
渠荷的历 (qú hé dì lì),           园莽抽条 (yuán mǎng chōu tiáo)。
枇杷晚翠 (pí pá wǎn cuì),      梧桐蚤凋 (wú tóng zǎo diāo)。
陈根委翳 (chén gēn wěi yì),   落叶飘摇 (luò yè piāo yáo)。
游鹍独运 (you kūn dú yùn),   凌摩绛霄 (líng mó jiàng xiāo)。
耽读玩市 (dān dú wán shì),    寓目囊箱 (yù mù náng xiāng)。
易輶攸畏 (yì yóu yōu wèi),     属耳垣墙 (zhǔ ěr yuán qiáng)。
具膳餐饭 (jù shàn cān fàn),    适口充肠 (shì kǒu chōng cháng)。
饱饫烹宰 (bǎo yù pēng zǎi),    饥厌糟糠 (jī yàn zāo kāng)。
亲戚故旧 (qīn qì gù jiù),         老少异粮 (lǎo shào yì liáng)。
妾御绩纺 (qiè yù jì fǎng),        侍巾帷房 (shì jīn wéi fáng)。
纨扇圆洁 (wán shàn yuán jié), 银烛炜煌 (yín zhú wěi huáng)。
昼眠夕寐 (zhòu mián xī mèi),   蓝笋象床 (lán sǔn xiàng chuáng)。
弦歌酒宴 (xián gē jiǔ yàn),      接杯举觞 (jié bēi jǔ shāng)。
矫手顿足 (jiǎo shǒu dùn zú),   悦豫且康 (yuè yù qiě kāng)。
嫡后嗣续 (dí hòu sì xù),          祭祀烝尝 (jì sì zhēng cháng)。
稽颡再拜 (jī sǎng zài bài),        悚惧恐惶 (sǒng jù kǒng huáng)。
笺牒简要 (jiān dié jiǎn yào),     顾答审详 (gù dá shěn xiáng)。
骸垢想浴 (hái gòu xiǎng yù),   执热愿凉 (zhí rè yuàn liáng)。
驴骡犊特 (lǘ luó dú tè),          骇跃超骧 (hài yuè chāo xiāng)。
诛斩贼盗 (zhū zhǎn zéi dào),   捕获叛亡 (pǔ huò pàn wáng)。
布射僚丸 (bù shè liáo wán),    嵇琴阮啸 (jī qín ruǎn xiào)。
恬笔伦纸 (tián bǐ lún zhǐ),       钧巧任钓 (jūn qiǎo rén diào)。
释纷利俗 (shì fēn lì sú),          并皆佳妙 (bìng jiē jiā miào)。
毛施淑姿 (máo shī shū zī),      工颦妍笑 (gōng pín yán xiào)。
年矢每催 (niánshǐměicuī),        曦晖朗曜 (xī huī lǎng yào)。
璇玑悬斡 (xuán jī xuán wò),    晦魄环照 (huì pò huán zhào)。
指薪修祜 (zhǐ xīn xiū hù),        永绥吉劭 (yǒng suí jí shào)。
矩步引领 (jù bù yǐn lǐng),        俯仰廊庙 (fǔ yǎng láng miào)。
束带矜庄 (shù dài jīn zhuāng), 徘徊瞻眺 (pái huái zhān tiào)。
孤陋寡闻 (gū lòu guǎ wén),    愚蒙等诮 (yú méng děng qiào)。
谓语助者 (wèi yǔ zhù zhě),     焉哉乎也 (yān zāi hū yě)。[1]

四个一组,二十五为一百,十个一百。从头到尾,从000到999,数字量质升级,先左后右还是先右后左?或者从单数字向三数字渐进,而不是开始就三数字。
输入后回车或空格,这个回车和空格是否可以取消,直接按键出来?
历史版本的差异问题,包括回避朝代意识和皇帝名字的改动


125*8=1000

[ Last edited by zzz19760225 on 2017-6-23 at 03:23 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:33
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 10 楼』:  

网友自制“中文键盘” 所有按键文字全汉化
2010年04月13日 08:33 9821 次阅读 稿源: 0 条评论
cnBeta 访客互动 Google 日本曾经在今年愚人节发布了涵盖所有日文假名、汉字和颜文字的“日文键盘”,像古代活字印刷的排字盘的布局让人忍俊不禁。今天有网友做出了一套“中文键盘”,不同的是它没有并排展示几千个汉字,而是对现在英文键盘上的字母和符号全都进行了“汉化”。我们一起来看看。

“中文键盘”。图/网友“滞销书”

以下是作者的介绍:

总的原则是:
只用一个字
尽量使用表示动词的文字
出现两次的按键,如 Enter 可以分别用2种文字表示

在制作全中文键盘过程中,对一些按键的映射关系思考了很久,以下是思考的成果:

Esc=退出/逃/撤/离/走/弃/转进/战略转移
F1~F12=子丑寅卯辰巳午未申酉戌亥
PrintScreen=印屏幕/截/照/印/摄
SystemRequire=系统请求/请/求
ScrollLock=滚动锁定/滚/卷
Pause/Break=暂停/中断/停/断/破
1~0=甲乙丙丁戊己庚辛壬零/壹贰叁肆伍陆柒捌玖零
26个字母=啊拨测的扼抚割哈抑接科勒摸抐哦批囚惹撕特捂狱挖西压贼
`=丶/点
~=波/浪
!=惊
@=在/于
#=井
$=金/钱
%=吅/吕/串
^=人
&=和/与
*=米/星
(=括
)=弧
-=负/减
+=正/
_=划
==等
{=拥
}=抱
|=竖/丨
\=捺
:=冒
;=分
"=援
‘=引
>=冫/爿
<=巜/片
?=问/疑
/=丿/撇
Backspace=回退/回格/退/回/倒
Tab=制表/表/跳
CapsLock=大写锁定/大/挺/起/变巨
Shift=上档/换/升/提/转/变/移
Ctrl=控制/控/稳/制
Alt=换挡/换/改/变/更/切除/阉割
Windows=视窗/窗
Space=空格/隔/空间/空
Right Click/Context Menu=右键菜单/上下文菜单/右/单
Enter=回车/换行/入/进/好/善/好/善/好/拐/准/摁
Insert=插入/插/入/进
Home=起始/起/始/首/家/回家/家庭/家乡/大本营
PageUp=上页/向上翻页/掀
Delete=删除/删/除/抹/人道毁灭
End=结束/完/尾/终/末/剧终
PageDown=下页/向下翻页/扑/掩
↑=上
↓=下
←=左
→=右
NumLock=数码锁定/数字锁定/数

[ Last edited by zzz19760225 on 2017-9-12 at 02:06 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:35
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 11 楼』:  

0  无           混沌不可思议存在实无知
---------------------------------------------------
三圈概念                                   点线面体在
1  与                    全息量子
2  或                    辩证法
3  非                    矛盾论
---------------------------------------------------
方位                                      变化     易一动一念一境一生活世界宇宙
4  前
5  后
6  左
7  右
8  上
9  下
--------------------------------------------------
10                                       文字组成    信息流动的文字和动态组合
11  横
12  竖
13  劈
14  捺
15  点
16  线
17  小
18  大
--------------------------------------------------
19  大                                   人概念群                   人与物一体的人物概念
20  心
21  身
22  配         配物                 物与物品万物物理的分类区别选择,选择物为人概念配备的需求叫配物。与心身外的外物概念区分,外物划为万物概念中
23  生         生活                 三境的一境
24  世         世界                             二境
25  宇         宇宙                             三境
26
27
28
29
---------------------------------------------------
30  物                                        万物物理
31  度             质量    独特存在的定义      距离,理,礼?
32  量             数量
33  五             五行抽象和基本因素相对定义下的动态转化,平淡,平均,平常,非常,反常
34
35
36
37
38
39
---------------------------------------------------
40  事                                           终极概念的探索和研究学习的人生学习轴线之一,假设所有事是组合进这些概念时空的
41  变              变不变       在不在       知不知    信不信     行不行
42  
43
44
45
46
47
48
49



--------------------------------------------------------------------------------------------------------------------
无与有,有延伸动态可知信息,动态可知信息表达人事物概念。三角循环结构。
人在三角循环结构外面改善和使用这个循环结构。
这个以文字信息为载体整体变化的内容叫文化。
道,路,行三个人概念基础字。
芯片主板内存硬盘优盘启动引导时的操作字词范围,系统的操作字词范围,电脑使用界面的操作字词范围,应用软件的操作字词范围,五感信息的操作字词范围,主要是文字操作的字词范围,消费者用户的习惯范围字词范围。


成语:有名无实,

[ Last edited by zzz19760225 on 2017-9-8 at 15:34 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:37
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 12 楼』:  

技术生产类汉字语言信息标准内容或范围,消费者操作层设置类汉语范围,消费者操作层使用类汉语范围。
存在类汉语范围,需求利益类汉语。可以脱离生活生存,可以通过对生死得失取舍的概念攀爬突破去认识,需求利益类属于对生和喜好,选择等方向内容的标准内容列表积累。
如果以魔方9*3=27,为一个假设结构数量,那么26个外文字母表(应该用英文,外文并不仅仅是英文),还缺一个。
单字动字词,与多字动字词。
管子接头的动词模式。直接:束节,大小头(大转小和小转大);多通:三通,四通,五通等,以三通为主,四通补充不足;转弯:弯头,大小头;小或同等量存储到大仓库的存,过大量的分解分量逐渐等待存储;一对一等量和聚少成多,分割分解的部分取。一切时空概念,被衣食住行乐的使用动词分解和消化,这个衣食住行乐消化世界引发的行动行为概念,所提炼的专门词语为动词。
使用动词和思想动词,形而下和形而上。
天地人宇宙五种动词范围,又有心身物情理五种动词范围。

1  与                 
2  或            
3  非               
---------------------------------------------------

4  前
5  后
6  左
7  右
8  上
9  下
--------------------------------------------------
10                                    
11  横
12  竖
13  劈
14  捺
15  点
16  线
17  小
18  大
--------------------------------------------------
19  大                                
20  心
21  身
22  配      
23  生        
24  世        
25  宇     
26
27
28
29
---------------------------------------------------
30  物                             
31  度            
32  量         
33  五         
34
35
36
37
38
39
---------------------------------------------------
40  事                                 
41  变            
42  
43
44
45
46
47
48
49

移,显,写,若,就,命,令,存,取,进,退,前,后,左,右,上,下,时,空,宇,宙,世,界,国,家,境,正,反,异,与,或,非,天,地,人,事,物,心,想,身,体,成,否,败,义,意,利,益,损,害,生,死,得,失,道,路,理,德,慈,仁,爱,善,良,规,矩,纵,横,经,纬,大,小,多,少,远,近,高,低,老,少,聚,散,环,期,节,去,来,昨,今,明,
零,一,二,三,四,五,六,七,八,九,十,百,千,万,加,减,乘,除,

用文字的字意概念空间,可以组成一个人形的世界,因人创造和定意主导参与而具有人的形态,就如金钱这个群体能量也具有人的形态性质一样,信仰金钱其实是信仰人的力量,私有极端的最后应该有个很小的门窗,可以打开爬进无私的群体概念世界。


系统:

开机            启     起             qi           qi(启起)                     
关机            终     止             zhong     zhi
延时开机           延启
延时关机           延终
系统状态           机态
芯片            芯                      xin
主板            
内存            
显示           显态
声音           声态
网络           网态


文件夹和文件


进入文件和文件夹         开                            kai
退出文件和文件夹         关                            guan
新建文件和文件夹         建        立        生      jian         li      sheng           
删除文件和文件夹         删        倒        除      shan       dao  chu      
修改                           修        改                 xiu         gai                                            
保存                           存        储                 cun        chu?(除储)

统计命令 ---- 计
计算命令 ---- 算

文字

输入            写            输          xie         shu
插入            参            插          can        cha
搜索            查            搜          cha(查插)     sou
代替            替            代          ti           dai

中文专门范围指令
          |--------- 中文通用指令(简单指令)
          |--------- 中文   ?      (复杂指令)
          |--------- 中文用户指令(个性指令)

通过对电脑启动到关机的过程描述,包括用户消费者习惯功能内容,将这些内容抽象名词后,经常比较,并与历史汉字图腾,汉字演化,形象规律,历史意义积累,习俗意义,对比寻找可能的通用电脑使用单字和名词,作为拼音汇编,指令结构,命令结构,搜索对话,返回和出错信息的内容结构。

[ Last edited by zzz19760225 on 2017-9-22 at 20:06 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:38
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 13 楼』:  

输出“0”字符,用纵横坐标(深度加色彩?或隐藏字体信息),字符单位框11*11大小,十进制
             1           2           3           4           5           6           7           8           9          10         11
1           0           0           0           0           0           0           0           0           0           0           0                           00000000000                 
2           0           0           0           0           0           0           0           0           0           0           0                           00000000000                  
3           0           0           0           1           1           1           0           0           0           0           0                           00011100000                     34  35   36     
4           0           0           1           0           0           0           1           0           0           0           0                           00100010000                     43  47
5           0           0           1           0           0           0           1           0           0           0           0                           00100010000                     53  57
6           0           0           1           0           0           0           1           0           0           0           0                           00100010000                     63  67                                                                                                                                         
7           0           0           1           0           0           0           1           0           0           0           0                           00100010000                     73  77
8           0           0           1           0           0           0           1           0           0           0           0                           00100010000                     83  87
9           0           0           0           1           1           1           0           0           0           0           0                           00011100000                     94  95  96   
10         0           0           0           0           0           0           0           0           0           0           0                           00000000000
11         0           0           0           0           0           0           0           0           0           0           0                           00000000000                     34  35  36  43  47  53  57  63  67  73  77  83  87  94  95  96

如果是1~1000的纵横坐标,怎么识别呢                    
           1000  1000      1000  1000      1000  1000      1000  1000      1000  1000      1000  1000
           3  45                  3  567               3  897                3         900        3         920        3         999
           67  39                67  300            67  456              67       555        67      680        67       790

3*4,5,6
4*3,7
5*3,7
6*3,7
7*3,7
8*3,7
9*4,5,6

           3*4,5,6;4*3,7;5*3,7;6*3,7;7*3,7;8*3,7;9*4,5,6 。

组合列表,对可能的字符范围空白先看    1~1000*1~1000; 。

[ Last edited by zzz19760225 on 2017-7-23 at 07:14 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:39
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 14 楼』:  

中蟒是一套基於 Python 即譯語言 2.1.3 版的中文編程語言. 除了保留字, 變數名稱可用中文外, 很多內建數據型的操作都可用中文來進行.

http://www.chinesepython.org/


其他中文編程語言的實現

易語言 :
用於視窗的可視化編程軟件. 感覺上像 Visual Basic 的中譯本. 看樣子只能在 M$ 環境中操作. 在輸入中文指令方面有很好的解決方法. 應該只支援簡化字. 因為易語言好像偏重在圖像介面應用方面, 所以難以和中蟒比較. 中蟒目前沒有中文版的視化介面編輯器 (英文的倒有 Tkinter, wxWindows, pyGTK, pyQT, pyKDE 許多). 但以語言本身來說中蟒應該優勝些. 下面是一段易語言的程式段和中蟒相比:
易語言:        中蟒
計次循環首(3 容器1)
畫板1.滾動寫行(容器1)
計次循環尾()
容器循環首(100, 180, 50, 容器1)
畫板1.滾動寫行(容器1)
容器循環尾()
計次循環首(5, 容器1)
    如果真 (容器1 == 2)
    到循環尾()
    如果真 (容器1 == 4)
    跳出循環()
畫板1.滾動寫行(容器1)
計次循環尾()
取 算子 自 範圍(3):
   寫 算子
取 算子 自 範圍(100, 180, 50):
   寫 算子
取 算子 自 範圍(5):
   如 算子 == 2:
        繼續
   如 算子 == 4:
        中斷
   寫 算子
結果:
1
2
3
100
150
1
4
結果:
0
1
2
100
150
0
1
3
此外中蟒可以在多種操作平台上運行, 對系統的操控, 網絡, 科學運算, 自動化方面也比較好用. 當然, 源碼開放也是一大優點. (我的意思不是因為中蟒源碼開放所以別要求太高, 而是說因為源碼開放所以中蟒的質素更有保證!)
漢語編程 :
它的發展早於 1993 年, 看起來像 Forth. 不過有全面的中文支援, 好像連編譯機的底層概念也是以漢語思維來做的. 因為沒有實做的技術文獻所以不知其所以然. 可用於視窗系統, 並支援所有圖像介面. 按理由其他的操作平台也行, 但好像沒有做出來.
發燒積木:
屬於 Visual 一族的編程工具. 完全可視化編程. 有各程的組成構件, 用拖放的方式拼成程式的流程. 它網站的說法是"搭建"程式.
八卦編程潛龍版:
全名為 Beginners' All-purpose Graphical User Interface Code. 也是全可視化的編程工具. 寫程式的過程是把不同的工件搬來搬去的那種.
台灣的中文 Forth 學會:
Forth 是一套結構很完整的程式語言. 它的虛擬機有一整套的 CPU 架構, 而編寫程式時要有堆疊的概念. 感覺上有點像宏集語言, 就是定義一些字 (子程式), 再根據這些定義新的字, 如此層層套接下去. 相對中蟒, Forth 在定制中文程式語言時有極大的彈性. 不過學起來很難. 我攪了好久都不明白. 所以沒有範例可以比較. 事實上中蟒內建了許多高階數據類, 所以用原裝的 Forth 和它來比較並不公平. 另一方面 Forth 所提供的關於電腦系統基本操作的思維訓練是中蟒無法企及的.
易符智慧科技 :
1990 年丁陳漢蓀先生 在 Silicon Valley Forth Interest Group ( SVFIG ) 倡議一個精簡的FORTH, 其目標就是簡單易學的小FORTH作業系統,於是就冠上一個'e' 字成了 "eForth"。eForth 因為輕薄短小 ( 只有 10 K byte 左右),特別適合做為 Embedded 系統的OS,因此,十幾年來已經有了約20種 CPU 的 移植版本,這些版本從 8 BIT 的6502, 8051到 32 BIT的 POWERPC, MIPS, ARM 等
中文 Logo :
以全中文控制的 Logo 語言. 不過以現代的眼光看是落後了些. 其實純粹用中蟒加 Tk 就可以完全實作出中文 Logo 呢. 如果加入語音輸入功能的話倒也不失為一個很好的學前教育軟件.
Perl 語言:
利用了 Perl 的源碼過濾功能. 把中文的程式換成英文. 作者的主要目的似乎是研究用電腦程式來寫古詩. 實用程度不高但是實在好玩.
中文 Pascal :
在網上聽過, 但沒有找到實際資料. 歡迎提供消息.
中文 Cobol :
朱邦復先生與宏基合作的天龍中文電腦中曾有過中文商業語言. 無緣得見.
中文 Basic :
又是朱邦復先生設計的蘋果漢卡中曾有過中文 Basic 的即譯器. 沒有用過.
丙正正 :
中文 C++! 記得以前在某 BBS 上見過, 但已經找不回來了. 它的做法是先把源碼過濾將所有中文變數名和關鍵字什麼的換成 ASCII 碼再進行編譯. 不過除錯時可麻煩了, 因為根本不記得怎樣對應法.

[ Last edited by zzz19760225 on 2017-6-3 at 13:19 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:40
查看资料  发短消息 网志   编辑帖子  回复  引用回复
zzz19760225
超级版主




积分 3673
发帖 2020
注册 2016-2-1
状态 离线
『第 15 楼』:  

拼音,笔画,象形体,音字体,
要把18030全部摊开来过一遍,
将拼音与笔画联系起来,不是满足人的使用需要,而是寻找一种规律,这个规律因人的加入而具有人的内容,属于人为寻找的规律,因为寻找的不是人,而是规律这个可以理解使用的力量形式,所以会排斥人的直接存在,具有非人化,类似辩证那个矛盾体。
这个18030其具有的内容是复杂的,具有各种概念合集群,但是这些内容具有一些独特与不同层面的共性,在共性基础上就可以再次有机组合建立起来。
其中会有死脑筋的知识直线延伸,还有各种随机假设的巧合,以及神奇的奇迹,会是一个非常有意思的世界。



龙芯与二进制转化的过程控制,二进制过程控制与汉字编译器的联系,汉字编译器与面向群体,个体,过程的需求应用功能实现和积累。
一个东西参与龙芯电脑的二进制,GCC,Vxworks,
在Vxworks之外一个借助Vxworks建立独立运行的二进制与汉字交换实现汉字指令的编译器,
在汉字指令编译器基础上,相对不同方向长期需求改变的分类。


它甚至影响到了我们的翻译。对于汉语学习者来说,要学的第一件事就是这门语言必不可少的歧义。汉语没有字母表,它的单词不是由字母构成的。相反,它的单词是由更小的词组成的。如中文描述尺寸的词(大小)是由“大”这个单词和“小”这个单词组合起来的,中文描述长度的词(长短)是由单词“长”和“短”组合起来的。中国人使用字典将上千个汉字编排起来,这些汉字必须被归类到大约二百个所谓的部首或家族中,所有这些都是按关联关系分类的。在每一类关联词中,数十个汉字按它所需笔画的总数依次排序,从最小的一个到最多十七个笔画。

单词的读音和声调给这门语言增加了复杂性。而声调的影响是一个单词可能有四种意思。一个典型的例子是“ma”。在第一声,ma的意思是妈妈。在第二声,ma的意思又变成了麻木的。第三声的ma,意思是马。而第四声的ma,陡转急下,意思是责骂。中国人必须大声说话,以使音调的差异能被听见。另一个造成歧义的原因是汉语使用的音节是那么的少。英语使用一万个不同的音节,而汉语只有四百个音节。因此,许多单词发音相同。双关语和误解比比皆是。





中华人民共和国国家标准公告
http://www.gov.cn/fuwu/bzxxcx/bzh.htm

[ Last edited by zzz19760225 on 2017-8-31 at 15:47 ]



1<词>,2[句],3/段\,4{节},5(章)。
2016-6-26 18:41
查看资料  发短消息 网志   编辑帖子  回复  引用回复
« [1] [2] [3] [4] [5] [6] »
请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: