医学信息获取.ppt

上传人:wuy****n92 文档编号:65747349 上传时间:2022-12-08 格式:PPT 页数:62 大小:1.29MB
返回 下载 相关 举报
医学信息获取.ppt_第1页
第1页 / 共62页
医学信息获取.ppt_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《医学信息获取.ppt》由会员分享,可在线阅读,更多相关《医学信息获取.ppt(62页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第2章 医学信息获取及利用2007-9-32.1 医学信息获取的基本概念医学信息获取的含义?n医学信息获取的理解(1)医学信息获取的传统理解借助某种换能器将医学实体的非电信号转换成医学模拟电信号,再由A/D转换器将模拟电信号转换成医学数字信号的过程定义为医学信息获取。(2)医学信息获取的广义理解凡能够采用某种方法得到所需医学信息的过程都称为医学信息获取2.1 医学信息获取的基本概念(续)n医学信息表示的含义n各种类型的医学信息,由于获取的方法不同,计算机直接识别的数字信息、须经过某种变换或某种编码才能为计算机所识别的信息。n数字变换或编码就是信息的一种表示形式2.1 医学信息获取的基本概念(续

2、)n医学信息获取的基本前提n信息感知是对医学实体信息的认识和感悟n信息感知主要由人体的感觉器官实现n声波振动耳鼓膜和听骨耳蜗管内淋巴液纤毛细胞发生弯曲变形神经生理电信号听觉器官感知声音n信息感知总是具有局限性n视觉器官只能感知16Hz20KHz的可见光n听觉器官只能感知20Hz20KHz的声波n获取人体无法直接感知的信息,必须借助人工感知系统(医学传感器),扩展和延伸人体感知器官功能。2.1 医学信息获取的基本概念(续)n医学信息获取的信息来源n信息源:组织或个人为满足其信息需要而获得信息的来源,称为信息源。n实体型、文献型、电子型、网络型信息源n医学信息获取的基本途径医学信息获取的基本途径2

3、.2 2.2 医学常规数据信息的获取及利用医学常规数据信息的获取及利用n医学常规数据信息的界定医学常规数据信息的界定n什么是医学常规数据信息?n指在进行医学临床、医学实验、医学教学、医学预防和医学管理等一般性的医学实践和科学实验中,所得到的各种常见的医学数据。n特点是:多以数据形式直观表现,具有明显的可测性;信息多种多样;分为计量指标数据和计数指标数据两类。n计量指标数据:各种物理和化学指标的数据信息n计数指标数据,则是指那些不能用数量描述的文本数据信息2.2 2.2 医学常规数据信息的获取及利用医学常规数据信息的获取及利用(续)(续)n医学常规数据信息的获取方法医学常规数据信息的获取方法n传

4、统方法:文档查阅法、实验研究法、现场调查法n网上搜索方法:从光盘数据库系统、门户网站、搜索引擎、网络搜索软件n医学常规数据信息获取的基本原则医学常规数据信息获取的基本原则n数据信息的正确性、完整性、统一性、可操作性n统一性:数据信息的形式和名称统一;遵循一定的标准。n遵循标准的原则是:国内标准优先国际标准,国家标准优先行业标准。倘若既无国际、国家标准,又无行业标准,也可以在一定约定下自己拟订一个临时性标准文本。2.2 2.2 医学常规数据信息的获取及利用医学常规数据信息的获取及利用(续)(续)n医学常规数据信息获取的利用途径医学常规数据信息获取的利用途径n统计处理、数据库构建、科学计算、大数据

5、利用n大数据:指那些规模巨大到无法利用目前常用的数据处理技术和主流软件工具,在合理的时空中实现获取、存储、处理的海量数据及其技术。n4 V特征:Volume(巨量)、Variety(多样)、Velocity(高速)和Value(价值)n核心:海量数据进行存储和分析处理2.3 医学生理信息的获取及利用n医学生理信息的含义医学生理信息的含义n生命体在其生命活动过程中,无论是器官组织还是细微细胞都可能成为生理信息产生的信息源n人体生理信号的类型:表2.1n电信号:内源性信号、外源性信号n非电信号:机械性质信号、化学性质信号n生理信号特点?生理信号特点?n幅值小,频率低n信噪比低,随机性强,易受干扰而

6、不易被识别n一般需要换能器才能获取2.3 医学生理信息的获取及利用(续)n医学生理信息获取的基本原理n医学生理信息获取的基本过程图2.2医学生理信息获取的基本原理医学生理信息获取的基本原理(续)n医学生理信息获取的基本技术(1)人体生理信号的表征。是一个时间的函数n对于具有连续重复特征的生理信号,通常采用准周期函数(如心电图信号)或瞬时函数(如眼动图信号、受刺激的细胞信号)进行描述。例如心电图中的P-QRS-T复合波就是以准周期或近似周期形式产生的波形信号来构建的波形图。n对于具有随机特性的生理信号,多数情况只能用统计学的方法进行描述 医学生理信息获取的基本原理医学生理信息获取的基本原理(续)

7、(2)医学传感器拾取信号的原理 n医学传感器概念:传感器又称换能器,是医学检测仪器与人体直接耦合的一种设备,其作用是对人体生理信号进行感知和拾取,并转换成模拟电信号。n医学传感器分类(表2.3)n工作原理分:物理型、化学型和生物型n输入信息分:有位移型、压力型、速度型、流量型、温度型和电位型n用途分:脉搏传感器、脑电传感器、胃电传感器n传感器组成:n感受器:完成对人体温度、压力和流量等物理量的识别和拾取n换能器:将拾取的物理量转换成大小不同的电信号形式医学生理信息获取的基本原理医学生理信息获取的基本原理(续)(3)生理信号的ADC转换n概念:人体生理信号经传感器拾取后得到是模拟电信号,通过模/

8、数转换即A/D转换或称ADC(Analog to Digital Converter)转换技术,使其数字化。nADC转换器组成:模拟多路选择电路、采样保持电路、A/D转换及控制电路nA/D转换器有8位、12位、16位、24位或更高位的多种分辨形式nADC转换的工作过程分两步:一是采样,二是量化。如图2.3ADC转换的工作过程n采样频率的选择n采样,就是将模拟信号的幅值被等分地间隔开来,即将一个连续时间函数的信号变成具有一定时间间隔T,使在每一个时间ti i=1,2,n时才有函数值的离散信号过程。n香农-奈奎斯特(Shannon-Nyquist)采样定理:采样频率f至少应是原始信号x(t)中最高

9、频率的2倍n量化阶数的确定n量化,就是在采样所确定的时间间隔位置对信号进行量化处理即以有限的数字精度进行数字表示的过程。n量化阶数m,指幅值范围对量化阶值的比值,用2的乘幂形式表示,即m=2n,这里的n为二进制数的位数 医学生理信息获取的方法及利用分析医学生理信息获取的方法及利用分析n心电信号的数字化获取方法及其分析n常见心电信号的数字化采集和分析系统n检测心律失常的心电信号采集和分析系统n动态心电信号采集和分析系统n心电信号采集和分析系统n心电图机、心电生理检则仪、运动平板心电检测机、动态心电图检测仪、心电监护仪n系统构成n测量程序:实现心电信号的数字化准确获取n分析程序:不同类型的心电系统

10、差别较大医学生理信息获取的方法及利用分析医学生理信息获取的方法及利用分析(续)(续)n脑电信号的数字化获取方法及其分析n脑电图EEG(Echoencephalography)是大脑神经活动在头皮上产生的电位分布n数字化脑电图设备:n脑电功率谱分析设备n动态脑电图机n脑电地形图BEAM(Brain Electrical Activity Mapping)仪n脑电信号分析和检测系统n测量程序:头皮电极拾取脑电信号,ADC转换数字信号n分析程序:不同的脑电系统区别很大2.4 医学图像信息的获取及利用医学图像信息的获取及利用n医学图像信息概述医学图像信息概述n医学图像信息的含义:一种用图像表达医学信息

11、的信息源,是医学诊断的重要依据。n医学图像种类:X射线图像、超声图像、磁共振图像、同位素图像和显微图像n医学图像信息的基本特征n维数多、信息量大(表2.4)、生命性表2.4 一些常见医学图像信息文件的大小图像类型一幅图像(位)图像数/检查文件/检查核医学图像1281281230-601-2M磁共振图像25625612608M超声图像512512820-2305-60M数字减影血管造影图像5125121215-404-10M计算机断层扫描图像512512124020M计算机放射图像2048204812216M数字化X线摄影图像2048204812216M数字化X线乳腺摄影图像4096409612

12、4128M医学图像信息获取的基本原理医学图像信息获取的基本原理n医学图像信息获取的过程(两个阶段)n光电转化:将反映不同光强度的医学图像信息转化成模拟电信号,n光电转换设备:电荷藕荷器CCD(Charged Coupled Device)和互补型金属氧化物半导体CMOS(Complementary Metal Oxide Semiconductor)n模数转化:把模拟图像信号转化为数字图像信号,即实现图像的采样和量化。n图像采样,是将空域或时域上的连续模拟图像拾取和变换成离散的采样点(像素)集合的过程。n图像的量化,就是将采样得到的像素点上表示明亮程度的信息的连续量离散化后,用数值(一般用整数

13、)阵列表示的过程医学图像信息获取的基本原理医学图像信息获取的基本原理(续)(续)n图像信息的表示形式n采用直观的矩阵形式表示。将图像离散化,离散后即可得到一个mn阶矩阵形式。P40(2.1)n阵列中每个点(xi,yi)的函数值表示采样点的灰度值,x和y分别表示在x,y方向的变化距离即采样周期。为方便起见,通常取x=y=0,x=y=1。医学图像信息获取的基本原理医学图像信息获取的基本原理(续)(续)n象素点的灰度级别n一幅图像的清晰度和保真度除了与象素点的采样周期有关,还与表示该象素点的灰度级别有关n灰度级别越高,效果越好,反之就越差。n人眼对黑白程度只能分辨出20多个级别,常用1个字节256等

14、级;用2个字节表示,灰度级别高了,有64k个等级,但存储空间却增加了1倍医学图像信息获取的基本原理医学图像信息获取的基本原理(续)(续)n黑白图像,亦称二值图像,其像素值只有0和1n灰度图像,每个像素的信息由一个量化的灰度级来描述n彩色图像:每个像素的信息是由RGB三种原色构成,而RGB又由不同的灰度级来描述,因此彩色图像是用三个矩阵共同来描述医学图像信息获取的基本原理医学图像信息获取的基本原理(续)(续)n医学图像信息的编码方法n什么是图像信息的编码?如何使图像信息在计算机中占用较少的存储空间,“数据压缩”。n图像信息的编码方法:n无损压缩,可逆压缩。压缩比2:1。n有损压缩,不可逆压缩。高

15、压缩比,图像质量降低。哈夫曼编码算法n基本思想和特点n依据数据出现频率来编码,达到压缩n特点:是一棵加权二进制树;频繁元素在树顶部;左分支分配1(或0),右分支分配0(或1)。n算法过程P41 构造唯一的数据元素概率集合,各元素是节点;概率集合列表中数据元素以值递增排序。最小的两个概率值相加 形成二叉树父节点,这两个值为叶节点,并将值小的(左侧)赋1,并从列表中移除这两个值,将新节点插入列表中,列表仍保持递增。重复 直到列表中留下 1个元素,即为 整个 二叉树的父节点。从二叉树树根节点开始找到 每个叶节点,把沿途经过的“1”和“0”串起来,即可得到每个叶节点的编码哈夫曼编码算法(续)n案例案例

16、2.1 设一幅医学图像中出现有8种灰度级别s0,s1,s2,s7,且已知在该幅图像的象素序列中,s0,s1,s2,s7分别出现的次数是:4,5,6,7,10,10,18,40,试用哈夫曼编码方法对其进行编码。n先计算每种灰度级别出现的概率p(si)(i=0,1,2,7)并按从小到大进行排序,即:n0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40n再将最小的两个概率节点值相加得到新的概率节点值,再将最小的两个概率节点值相加得到新的概率节点值,并构建二叉树和赋值并构建二叉树和赋值“0”和和“1”,之后再重新排序,之后再重新排序,即:即:n0.06,0.07,0.09,

17、0.10,0.10,0.18,0.40n按算法构造 二叉树 哈夫曼编码算法(续)n哈夫曼编码二叉树10.40.60.230.370.180.190.090.100.040.050.100.130.060.07S4S1S0S6S3S2S5S711101110000001最后从根节点开始沿着树枝到叶节点将所有赋值串起来,得到了最后从根节点开始沿着树枝到叶节点将所有赋值串起来,得到了s s0 0到到s s7 7的编码的编码结果依次是:结果依次是:0001100011,0001000010,01010101,01000100,00000000,011011,001001,1 1。教材P42 图2.7纠

18、错 0.230.370.13案例分析假设有一个字符列表“abcdefg”,它们在一个文件中出现的频率依次分别是17、7、22、13、77、90、45。试用霍夫曼编码算法为每个字母编码。哈夫曼编码算法(续)n编码效率分析n哈夫曼编码:用 可变长码子编码,对出现概率大的符号赋短码子,出现概率小的符号赋长码子。n信息编码的效率信息编码的效率由信源熵H(S)与信源符号的平均码长L的比值决定。本例:=0.977n其中,p(si)为第i个级别灰度出现的概率值,li为信源第i个状态si编码长度的平均码长。n本例:医学图像信息获取的基本方法及利用医学图像信息获取的基本方法及利用n从X射线成像系统中获取图像信息

19、n利用人体器官和组织对X线的衰减不同,透射的X线的强度也不同这一性质,检测出相应的二维能量分布,并进行可视化转换,从而可获取人体内部结构的图像。n常规X线数字成像系统n计算机X线摄影系统CR(Computed Radiography)n数字化X线摄影系统 DRn数字减影血管造影系统DSA(Digital Subtraction Angiography)n n计算机计算机X线摄影(线摄影(CR)n n CRCR系系系系统统统统是是是是使使使使用用用用可可可可记记记记录录录录并并并并由由由由激激激激光光光光读读读读出出出出X X线线线线成成成成像像像像信信信信息的成像板息的成像板息的成像板息的成像

20、板(imaging imaging plate plate,IPIP)作作作作为为为为载载载载体体体体,先先先先将将将将X X射射射射线线线线模模模模拟拟拟拟影影影影像像像像保保保保存存存存下下下下来来来来,再再再再对对对对存存存存储储储储在在在在IPIP板板板板上上上上的的的的模模模模拟拟拟拟信信信信息息息息通通通通过过过过激激激激光光光光扫扫扫扫描描描描器器器器和和和和光光光光电电电电转转转转换换换换器器器器将将将将潜潜潜潜影影影影转转转转换换换换为为为为光光光光电电电电信信信信号号号号,进进进进而而而而通通通通过过过过ADCADC转转转转换换换换器器器器转转转转换换换换成成成成数字数字数

21、字数字X X线的影像信息线的影像信息线的影像信息线的影像信息。n n数字数字X线摄影线摄影(DR)n n是是是是在在在在X X线线线线影影影影像像像像增增增增强强强强器器器器电电电电视视视视系系系系统统统统的的的的基基基基础础础础上上上上,采采采采用用用用模模模模/数数数数转转转转换换换换器器器器将将将将模模模模拟拟拟拟视视视视频频频频信信信信号号号号转转转转换换换换成成成成数数数数字字字字化化化化X X图图图图像像像像信信信信号号号号后后后后送送送送入入入入计计计计算算算算机系统中进行存储。机系统中进行存储。机系统中进行存储。机系统中进行存储。n n数数 字字 减减 影影 血血 管管 造造

22、影影(Digital Digital Subtraction Subtraction AngiographyAngiography,DSADSA)n解决传统的X射线血管造影中血管与骨骼和软组织的影像重叠、血管显示不清n原理:是利用数字图像处理技术中的图像几何运算功能,将造影剂注入前后的数字化X线图像进行相减操作,获得两帧图像的差异部分被造影剂充盈的血管图像。nDSA获取影像的过程是一个动态过程X线断层扫描成像系统n nX X线线CTCT(Computerized Computerized TomographyTomography,CTCT)是是以以测测定定X X射射线线在在人人体体内内的的衰衰

23、减减系系数数为为物物理理基基础础,采采用用投投影影图图像像重重建建的的数数学学原原理理,经经过过计计算算机机高高速速运运算算,求求解解出出衰衰减减系系数数数数值值在在人人体体某某断断面面上上的的二二维维分分布布矩矩阵阵,然然后后应应用用图图像像处处理理与与显显示示技技术术将将该该二二维维分分布布矩矩阵阵转转变变为为真真实实图图像像的的灰灰度度分分布布,从从而而实实现现建建立立断断层层图图像像的的现代医学成像技术。现代医学成像技术。影影像像成成像像图图螺旋螺旋CT n 螺旋螺旋CTCT机是目前世界上最先进的机是目前世界上最先进的CTCT设备之一,设备之一,其扫描速度快,分辨率高,图像质量优。用其

24、扫描速度快,分辨率高,图像质量优。用快速螺旋扫描能在快速螺旋扫描能在15秒左右检查完一个部位,秒左右检查完一个部位,能发现小于几毫米的病变,如小肝癌、垂体能发现小于几毫米的病变,如小肝癌、垂体微腺瘤及小动脉瘤等。微腺瘤及小动脉瘤等。通过网络信息,了解什么是螺旋通过网络信息,了解什么是螺旋CT,它有那些特点?,它有那些特点?从超声成像系统中获取图像信息n超声波:是指高于人的听觉范围即频率在20kHz的机械波,医学应用中的超声波是一种纵向压力波,其频率一般在1MHz到几十MHz之间。n临床超声系统:n超声诊断系统即B超(B-scan or B-mode)n超声彩色多普勒血流成像系统(彩超)n超声谐

25、波成像系统n超声计算机体层成像系统超声成像基本原理n利用超声波良好的指向性和他的反射、折射、衰减规律及多普勒效应等物理特性,借助超声波换能器和各种数字声束技术,将设定工作频率的超声波导入被检测的人体内,由于超声波遇到不同组织或器官的界面时,将发生不同程度的反射和透射,当接受设备接受到携带有相关信息的回波信号,经数字扫描变换等处理最终形成一幅超声图像。从磁共振成像系统中获取图像信息n磁共振成像系统MRI(Magnetic Resonance Imaging):是利用人体内氢原子核质子(1H)在磁场内共振的特性,通过不同的扫描脉冲序列形成横断面、冠状面和任意切面的扫描成像。n利用人体不同器官的正常

26、组织与病理组织之间在驰豫时间上存在的差异.n驰豫过程与驰豫时间:系统通过对处在静磁场中的人体施加某种特定频率的射频脉冲,使人体组织中的氢原子受到激励而发生磁共振,当中止后,氢原子核把吸收的能量逐步释放,其相位和能级都恢复到激发前的状态,称驰豫过程;而恢复到原来平衡状态所需的时间称驰豫时间,经过必要的前置放大,再由ADC转换成数字信号。从核医学成像系统中获取图像信息n核医学(NM:Nuclein Medicine)即原子核医学成像,又称 放 射 性 核 素 成 像 RNI(Radioisotope Nuclein Imaging)n是通过人体内注入能够发射伽马()射线放射性示踪剂来成像,使带有放

27、射性核的示踪原子进入要成像的组织,然后测量放射性核素在人体内的分布来成像的一种技术。n放射性核素成像技术可观察放射性在人体内的状况与运动变化,反映人体内的生理生化过程,能够反映器官和组织的功能状态,可显示动态图像。n构成:由探测器、扫描床和计算机系统组成,在功能上都是通过探测器对光子的获取,并经光电和模数转换实现对人体图像的处理。从核医学成像系统中获取图像信息(续)n分类:n单光子发射成像(Single Photon Emission Tomography,SPECT),早期诊断恶性肿瘤骨转移的骨骼显像、诊断心肌缺血的心脏灌注显像和诊断异位甲状腺的甲状腺显像。n正电子发射成像(Positron

28、 Emission Tomography,PET)。对肿瘤的早期诊断、恶性肿瘤的分期和分级、原发病灶的寻找、放疗生物靶区的定位n因为SPECT和PET都是对从病人体内发射的射线成像,所以统称为ECT。2.5 医学知识信息的获取和利用n医学知识信息获取的概念n医学知识信息的含义n韦伯斯特(Webster)词典:“知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认识,是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总和。”n知识工程的观点,知识是人们在生活和工作实践中所使用的事实、规则和方法,以及对他们的解释、转换和使用过程。n医学知识信息,就是人们对医学科学和医学实践规

29、律性认识的一种医学知识的信息表达。医学知识信息的类型n按照知识信息的基本形式划分n描述医学对象及其属性的知识、描述医学对象之间关系的知识、描述医学对象因果关系的知识、描述医学对象行为、状态和过程的知识等n按照知识信息的基本功能划分n一阶知识,指最基础的知识,如医学事实;二阶知识,指关于事实利用的知识,如医学概念;三阶知识是指关于对二阶知识使用的知识。医学知识信息获取的基本任务n医学知识信息的获取是构造医学知识系统的前提和重要步骤。n医学知识系统就是专门研究医学知识的获取、存储、表示、转换、分类和利用等问题的应用系统1.知识信息的收集:从知识源中把各种经过识别、理解、筛选、归纳、能为所用的信息抽

30、取出来的过程。2.知识信息的表示:知识表示就是知识的机器表示;是一种自然语言的机器表示。知识表示是一种特殊的编码形式,是将获取的知识用一种方法构造成一个知识模型的过程。医学知识信息获取的基本任务(续)n产生式规则法ifthen;ifthen(可信度)。(可信度)。案例案例2.2 由美国斯坦福大学研制的医学传染病辅助诊断MYCIN系统,其知识模型就是主要采用了产生式规则法。下面就是MYCIN系统中的一条规则:前提:(1)细菌革氏染色阴性,(2)形态杆状,(3)生长需氧结论:该细菌是肠杆菌属,CF=0.8医学知识信息获取的基本任务(续)案例案例2.3 下面是某个智能分析诊断系统中的规则形式,其编码

31、方法更是一目了然。规则的一般形式是:如果:条件(X1)的可信度为(Y1),且 条件(X2)的可信度为(Y2),且 条件(Xn)的可信度为(Yn),则有:结论(X),其可信度为(Y)。3.医学知识信息的存储医学知识信息输入到专门用于存放知识信息的知识库中保存起来,以便在知识系统的运行推理中使用医学知识信息获取的方法1知识信息的人工获取n常规医学知识的获取n医学领域专家知识的获取2.知识信息的自动获取n自动获取医学知识信息是指利用专门的计算机系统获取相关知识的方法n通过编辑器自动获取知识n通过机器学习方法自动获取知识n机器学习(Machine Learning)就是要构建一个知识系统,使该系统能够

32、模拟人类学习的过程和行为,自动地通过学习、归纳,以获取相关知识信息并不断完善自身的性能决策树(Decision Tree)n决策树(Decision Tree)系统是通过对训练示例的学习和训练最后得到的一个离散新知识的信息系统。nID3算法,悉尼大学年提出nID3算法核心思想:通过对给定的训练示例进行学习,从根节点开始,自顶向下对每个树节点进行划分成分支节点,并使其信息熵值不断减少直至熵为0,即到达叶节点而生成决策树。复习信息熵(P10)n香农信息熵:计算离散型随机事件信息量,P10n条件熵和联合熵:对于信源是两个离散型随机事件X和Y,则它们的联合信息熵H(X,Y)和条件信息熵H(X|Y)可分

33、别由式(1.3)和(1.4)n平均互信息量:表示信号Y所能提供的关于X的信息量大小 I(X,Y)=H(X)-H(X/Y)ID3学习算法算法步骤:1)把训练示例看成是一个集合,并按照示例的某个属性或划分目标构造一棵树。如果其信息熵等于0,表明训练示例不存在不确定性,决策树就此生成;否则下一步。2)按照划分目标将集合划分成若干子集以形成一棵由父节点和子节点形成的划分树,并标记指向父节点的指针。3)分别计算各子节点(树枝节点)的信息熵值,若为0,则无需再划分新的子节点;若否,则对该节点继续划分新子节点。4)重复2)和3)两步,直到所有树枝节点所形成的子集划分成新的子节点的信息熵值等于0为止。5)从根

34、节点开始,沿着指针将决策树每条树枝节点连接起来,最终得到通过学习而形成的新的知识规则。ID3学习算法(续)n案例案例2.4 设某医院眼科医生在决策患者佩戴隐形眼镜时已有一定经验,并总结出了如表2.5所示的决策表。如果将这个决策表作为一个训练示例集合交给计算机系统用决策树的方法去学习,那么系统将会获取什么样的知识?n首先把24个训练示例当作一个集合S,如果上述决策表完全正确,每个训练示例都能得到正确和唯一的诊断,这时集合S就没有不确定性,这就说明了描述S的决策树和规则集也就没有不确定性,其熵值均等于0。n本案每种决策的概率分别是:np(1)=4/24,p(2)=5/24,p(3)=15/24n诊

35、断集合S的信息熵为:H(S)=1.326bitn存在一定的冗余信息,ID3的目的正是要尽量减少这种冗余信息。其方法是采用不断减少熵值的方法将训练集合划分成较小的子集,直至信息熵等于0为止。ID3学习算法(续)n子集划分:划分的原则是通过选择某个与训练集合S具有最大互信息的属性来划分子集的,因为每一个决策总是与相关,就是说每一个属性值必然会包含关于的某些信息。其中互信息I是由(式2.3)决定:n只需计算计算属性A、B、C、D的条件熵即可ID3学习算法(续)属性A的决策的条件熵为决策属性A的频率如表2.6对于属性B、C、D的决策的条件熵分别是:H(S|B)=1.2867(bit),H(S|C)=0

36、.9491(bit),H(S|D)=0.7773(bit)属性A、B、C、D与训练集合S的互信息分别是:0.0394、0.0394、0.3770、0.5488个比特ID3学习算法(续)n根据决策属性D的属性值将集合S划分成两个子集D1和D2。仍需计算两个子集的信息熵,如果某个子集的信息熵等于0,则该子集无须再进行划分;否则,则要进一步进行计算所有属性与该子集的互信息,然后再按选取互信息最大的属性进行新的子集的划分。n这里的H(D1)=0,说明D1这个子集不需再划分成新的子集了。但H(D2)为:ID3学习算法(续)3数据库中的知识发现n什么是数据库中知识发现n知识发现KDD(Knowledge

37、Discovery in Dadabase):是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡的过程。n是将数据库中隐含的数据模式,以一种容易被人们理解的形式表现出来,以帮助人们从大量数据集合中获取有用的信息。3、数据库中知识发现的过程(续)nKDD过程可分数据准备、数据挖掘和信息评价n数据准备:包括数据选择、数据预处理和数据变换三个步骤n数据挖掘:从不同数据源中的大量随机的,甚至是模糊的数据中,像从矿石中淘金一样“挖出”隐含的、事先并不知道而又潜在有用的知识信息。n信息评价:对所发现的数据信息或模式进行解释和评估数据挖掘的基本原理n分类:数据分类与模式预测、数据聚类与

38、关联规则、依赖关系与依赖模型、异常与趋势n数据挖掘与传统的数据查询区别:n数据查询所得到的信息一般是表面的、能为用户直觉感受到的;而数据挖掘所“挖出”的信息通常是深层次的、预先难以知晓和预料的,甚至有的是与人的直觉相违背但又是非常有用的;n数据查询方法是直接的,格式也往往是固定的;而数据挖掘的方法却是灵活的,需要根据用户的不同要求和不同的数据目标,选择适当的挖掘算法。基于医学知识信息获取的知识系统n概念:知识系统是具有知识获取、知识存储、知识推理和知识应用的计算机系统。n医学知识系统的基本结构医学知识系统的基本结构(1)知识库(Knowledge Base)n存储医学常规知识和医学专家的经验知

39、识。n方法:首先确定求解问题所需的事实和规则,并选择一种知识表示方法将其表示出来,然后再用一种语言将事实和规则存入到知识系统中。(2)数据库(DataBase)n用来存放推理所涉及到的初始数据和推理过程中的中间结果以及最终结果医学知识系统的基本结构(续)(3)推理机(Inference Engine)n模拟医学专家的思维过程,根据当前已知的事实(数据库)和知识(知识库),按照某种推理策略进行推理以求得问题的答案。(4)解释机制(Explain Machine-made)n用于回答用户对系统的提问,以增强用户对系统求解问题的信心。(5)知识获取机制(Knowledge Get)(6)人机接口(Person-Machine Interface)作业n假设有一个字符列表“abcdefg”,它们在一个文件中出现的频率依次分别是17、7、22、13、77、90、45。试用霍夫曼编码算法为每个字母编码。n2.6.1 用霍夫曼进行编码处理n2.6.2 对疾病诊断数据,设计决策树n查资料进一步了解PET 和螺旋CT的 原理和临床用途。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com