文字在计算机中是如何处理的呢?计算机只能识别二进制数码0和1,任何信息在计算机中都是以二进制形式存放,文字也不例外,这就需要对文字进行编码。在计算机处理文字过程中,不同的环节采用的编码是不同的,目前文字编码主要有三种。
1、用于输入的文字的编码 —— 输入码(外码)
英文字符有键盘按键对应,不需要输入码。输入汉字、日文等文字才需要输入码。在计算机中输入汉字的方法很多,如键盘输入、语音输入、手写输入、扫描输入等,其中键盘输入是最常用的一种汉字输入方法。由于汉字很多,不可能用有限的按键来对应每一个汉字,为了让用户用英文键盘输入汉字,于是就有了汉字输入码,是用键盘上的字母和数字组成。如输入汉字“俞”,用搜狗拼音输入时输入码为:YU2,用搜狗五笔输入时为:WGEJ,用区位码输入法时为:5165。
2、用于储存文字的编码 —— 机内码(内码)
内码是供计算机系统内部进行储存、加工处理、传输而统一使用的代码。英文内码是单字节,即8位二进制,汉字内码是双字节,即16位二进制。内码需要一个标准码表对应,英文字符标准码表为ASCII,汉字常用的码表有国标码(GB)和BIG5码,每一个字符或汉字都有唯一的编码对应。
3、用于输出的文字编码 —— 输出码(字型码)
储存在计算机内的文字内码需要字型码才能在屏幕上显示或用打印机打印出来,字型码是由字模信息组成的。字模信息的集合就构成了字库。字库有点阵字库和矢量字库。
|