《文本与文本处》PPT课件.ppt

上传人:wuy****n92 文档编号:71667893 上传时间:2023-02-04 格式:PPT 页数:13 大小:308.50KB
返回 下载 相关 举报
《文本与文本处》PPT课件.ppt_第1页
第1页 / 共13页
《文本与文本处》PPT课件.ppt_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《《文本与文本处》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《文本与文本处》PPT课件.ppt(13页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第5章 数字媒体及应用江苏科技大学 张家港校区教学课件教学课件2/4/20231文字符号在计算机中的表示(P13)日常使用的书面文字由一系列称为“字符”(character)的书写符号所构成计算机中常用字符的集合叫做“字符集”西文字符集中文(汉字)字符集(参见第5章)最常用的西文字符集是ASCII(AmericanStandardCodeforInformationInterchange)字符集包含96个可打印字符和32个控制字符每个字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符 2/4/20232标准ASCII字符集及其代码表 b6 b5 b4 b3 b2 b1 b0

2、012345670123456789ABCDEFb6b5b4b3b2b1b00 1 1 01 0 01 1 0 1 0 1 12/4/20233字符、字符集及其编码表 文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、标点、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符的二进位表示,称为该字符的编码或代码(code)不同的字符其编码各不相同字符集中所有字符编码一览表,称为该字符集的码表2/4/20234补充补充:西文字符的编码ASCII码目前计算机中用得最广泛的字符集

3、及其编码,是由美国国家标准局(ANSI)制定的 ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。2/4/20235复习:西文字符的编码ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:

4、字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码0X X X X X X X2/4/20236汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马)汉字的特点数量大;字形复杂,同音字多,异体字多2/4/20237常用的汉字编码字符集国家标准GB2312-1981汉字扩充规范 GBK国家标准GB18030-2005台湾地区的标准汉字字符集CNS 11643(Big 5,俗称“大五码”)国际标准化组织ISO制定的UCS/Unicode多文种大字符集2/4/202

5、38一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312汉字编码字符集1980年颁布信息交换用汉字编码字符集基本集GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、拉丁字母、俄文、日文平假名与片日文平假名与片假名、希腊字母、假名、希腊字母、汉语拼音等共汉语拼音等共682个个共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字和符号都有一汉字和符号都有一个

6、确定位置个确定位置2/4/20239GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”(GB2312 汉字的“机内码”又称“内码”)例如:“南”字的代码是11000100 11001111(用十六进制表示为C4CF)11第第1字节字节第第2字节字节X X X X X X XX X X X X X X2/4/202310GBK汉字内码扩充规范 GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括

7、繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1 X第第1字节字节第第2字节字节X X X X X X XxX X X X X X X2/4/202311UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码 称为UCS/Unicode2/4/202312标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同(1)UTF-8采用单字节可变长编码(2)UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容编码保持向下兼容2/4/202313

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com