知识小贴士3-4 字符集与字符编码——人类伟大的创想.pdf

上传人:奉*** 文档编号:4221888 上传时间:2021-06-13 格式:PDF 页数:2 大小:241.36KB
返回 下载 相关 举报
知识小贴士3-4 字符集与字符编码——人类伟大的创想.pdf_第1页
第1页 / 共2页
知识小贴士3-4 字符集与字符编码——人类伟大的创想.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《知识小贴士3-4 字符集与字符编码——人类伟大的创想.pdf》由会员分享,可在线阅读,更多相关《知识小贴士3-4 字符集与字符编码——人类伟大的创想.pdf(2页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、科普知识 细节决定成败:知识小贴士 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进 制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如a用什么表示,称为 编码;反之,将存储在计算机中的二进制数解析显示出来,称为解码,如同密码学中的加密和解 密。在解码过程中,如果使用了错误的解码规则,则导致a解析成b或者乱码。 字符集(字符集(CharsetCharset) :是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称, 包括各国家文字、标点符号、图形符号、数字等。 字符编码(字符编码(Character EncodingCharacter

2、 Encoding) :是一套法则,使用该法则能够对自然语言的字符的一个集合 (如字母表或音节表) ,与其他东西的一个集合(如号码或电脉冲)进行配对。通常人们用符号集合 (一般情况下就是文字)来表达信息。 常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、GB18030 字符集、Unicode 字符 集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种 文字。 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是 基于拉丁字母的一套电脑编码系统。它主

3、要用于显示现代英语,而其扩展版本 EASCII 则可以勉强显 示其他西欧语言。它是现今最通用的单字节编码系统(但是有被 Unicode 追上的迹象) ,并等同于国 际标准 ISO/IEC 646。ASCII 字符集主要包括控制字符(回车键、退格、换行键等) ;可显示字符(英 文大小写字符、阿拉伯数字和西文符号) 。它最大缺点是只能显示 26 个基本拉丁字母、阿拉伯数目 字和英式标点符号,因此只能用于显示现代美国英语。因此现在的苹果电脑已经抛弃 ASCII 而转用 Unicode。 计算机发明之后的很长一段时间, 只用应用于美国及西方一些发达国家,ASCII 能够很好满足用 户的需求。但是当中国

4、也有了计算机之后,为了显示中文,必须设计一套编码规则用于将汉字转换 为计算机可以接受的数字系统的数。中国专家把那些 127 号之后的奇异符号们(即 EASCII)取消掉, 规定:一个小于 127 的字符的意义与原来相同,但两个大于 127 的字符连在一起时,就表示一个汉 字, 前面的一个字节 (他称之为高字节) 从 0 xA1 用到 0 xF7, 后面一个字节 (低字节) 从 0 xA1 到 0 xFE, 这样我们就可以组合出大约 7000 多个简体汉字了。 在这些编码里, 还把数学符号、 罗马希腊的字母、 日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两

5、个字节长 的编码,这就是常说的全角字符,而原来在 127 号以下的那些就叫半角字符了。 上述编码规则就是 GB2312。GB2312 或 GB2312-80 是中国国家标准简体中文字符集,全称信息 交换用汉字编码字符集 ,又称 GB0,由中国国家标准总局发布,1981 年 5 月 1 日实施。GB2312 编码 通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持 GB2312。GB2312 的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆 99.75%的使用频率。对于人名、古汉语等方面出现的罕用字,GB2312 不能处理,这导致了后来

6、GBK 及 GB 18030 汉字字符集的出现。 科普知识 细节决定成败:知识小贴士 当 计 算 机 传 到 世 界 各 个 国 家 时 , 为 了 适 合 当 地 语 言 和 字 符 , 设 计 和 实 现 类 似 GB232/GBK/GB18030/BIG5 的编码方案。这样各搞一套,在本地使用没有问题,一旦出现在网络中, 由于不兼容, 互相访问就出现了乱码现象。 为了解决这个问题, 一个伟大的创想产生了Unicode。 Unicode 编码系统为表达任意语言的任意字符而设计。它使用 4 字节的数字来表达每个字母、符号, 或者表意文字(ideograph)。每个数字代表唯一的至少在某种语言

7、中使用的符号。 (并不是所有的数 字都用上了,但是总数已经超过了 65535,所以 2 个字节的数字是不够用的。 )被几种语言共用的字 符通常使用相同的数字来编码,除非存在一个在理的语源学(etymological)理由使不这样做。不考 虑这种情况的话,每个字符对应一个数字,每个数字对应一个字符。即不存在二义性。不再需要记 录模式了。U+0041 总是代表A,即使这种语言没有A这个字符。 在计算机科学领域中,Unicode(统一码、万国码、单一码、标准万国码)是业界的一种标准, 它可以使电脑得以体现世界上数十种文字的系统。 Unicode 是基于通用字符集 (Universal Charact

8、er Set)的标准来发展,并且同时也以书本的形式1对外发表。Unicode 还不断在扩增, 每个新版本 插入更多新的字符。直至目前为止的第六版,Unicode 就已经包含了超过十万个字符(在 2005 年, Unicode 的第十万个字符被采纳且认可成为标准之一) 、一组可用以作为视觉参考的代码图表、一套 编码方法与一组标准字符编码、 一套包含了上标字、 下标字等字符特性的枚举等。 Unicode 组织 (The Unicode Consortium)是由一个非营利性的机构所运作,并主导 Unicode 的后续发展,其目标在于: 将既有的字符编码方案以 Unicode 编码方案来加以取代,特别是既有的方案在多语环境下,皆仅有 有限的空间以及不兼容的问题。 (可以这样理解:(可以这样理解:UnicodeUnicode 是字符集,是字符集,UTFUTF- -32/ UTF32/ UTF- -16/ UTF16/ UTF- -8 8 是三种字符编码方案。 )是三种字符编码方案。 ) 字符集与字符编码可以说是人类二十世纪伟大的创想,是人与计算机沟通的秘密武器。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com