信息服务与用户 第三章 信息分布.ppt

上传人:s****8 文档编号:67340580 上传时间:2022-12-24 格式:PPT 页数:45 大小:294KB
返回 下载 相关 举报
信息服务与用户 第三章 信息分布.ppt_第1页
第1页 / 共45页
信息服务与用户 第三章 信息分布.ppt_第2页
第2页 / 共45页
点击查看更多>>
资源描述

《信息服务与用户 第三章 信息分布.ppt》由会员分享,可在线阅读,更多相关《信息服务与用户 第三章 信息分布.ppt(45页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第三章第三章 信息分布信息分布n n主要内容:以文献信息为对象,从纵向(随时间变化的分布动态)和横向(不同载体、领域的分布动态)来研究信息分布的特征和规律。3.1 3.1 信息产生与分布中的信息产生与分布中的马太效应马太效应n n来源:来源:它的名字来自于圣经它的名字来自于圣经新约新约马太福音马太福音中的一则寓言。中的一则寓言。“凡是少的,就连他所有的,也要夺过来。凡凡是少的,就连他所有的,也要夺过来。凡是多的,还要给他,叫他多多益善。是多的,还要给他,叫他多多益善。”n n扩展扩展 19681968年,美国科学史研究者罗伯特年,美国科学史研究者罗伯特莫顿莫顿(Robert K.Merton)

2、(Robert K.Merton)首次用首次用“马太效应马太效应”来描述这来描述这种种社会心理现象。社会心理现象。任何个体、群体或地区,一旦在某一个方面任何个体、群体或地区,一旦在某一个方面(如金钱、名誉、地位等)获得成功和进步,就会(如金钱、名誉、地位等)获得成功和进步,就会产生一种积累优势,就会有更多的机会取得更大的产生一种积累优势,就会有更多的机会取得更大的成功和进步。成功和进步。3.1.13.1.1马太效应的表现和作用形式马太效应的表现和作用形式 n n核心趋势n高产或核心作者n核心期刊n高频词汇的确立特征:是信息生产主体(行为者)的主动期特征:是信息生产主体(行为者)的主动期望与采取

3、实际步骤的结果望与采取实际步骤的结果n n集中取向n n一篇论文多次被引n n一个网站被众多用户点击特征:是社会选择和影响的结果特征:是社会选择和影响的结果 马太效应在人类社会中普遍存在,被广马太效应在人类社会中普遍存在,被广马太效应在人类社会中普遍存在,被广马太效应在人类社会中普遍存在,被广泛引申和应用。泛引申和应用。泛引申和应用。泛引申和应用。经济中的马太效应举例:贫者越贫,富者越富。贫者越贫,富者越富。品牌资本的马太效应举例:品牌知名度越大,品牌的价值越高,其忠实的品牌知名度越大,品牌的价值越高,其忠实的消费者就越多,市场份额越大。消费者就越多,市场份额越大。教育中的马太效应举例:越是教

4、授、专家,得到的科研经费多,社会兼越是教授、专家,得到的科研经费多,社会兼职越多,各种名目的评奖似乎就是为他们设立的。职越多,各种名目的评奖似乎就是为他们设立的。过度投资建设名校。资金、师资、生源严重过度投资建设名校。资金、师资、生源严重向名校倾斜,而薄弱院校却出现了人、财、物的全向名校倾斜,而薄弱院校却出现了人、财、物的全面危机。面危机。将学生分为三六九等,给予不平等的待遇。将学生分为三六九等,给予不平等的待遇。科学领域的马太效应举例:相对于那些不知名的研究者,声名显赫的科相对于那些不知名的研究者,声名显赫的科学家通常得到更多的声望即使他们的成就是相似学家通常得到更多的声望即使他们的成就是相

5、似的,同样地,在同一个项目上,的,同样地,在同一个项目上,声誉通常给予那些已经出名的声誉通常给予那些已经出名的 研究者研究者,结果,研究成果越多的结果,研究成果越多的 人往往越有名,越有名的人成果人往往越有名,越有名的人成果 越多,最后就产生了学术权威越多,最后就产生了学术权威 3.1.2 3.1.2 马太效应的影响马太效应的影响n n正面影响正面影响正面影响正面影响突出重点,降低信息管理的成本,提高信息利用效益突出重点,降低信息管理的成本,提高信息利用效益在理论上,基于马太效应描述的优劣,发现信息管在理论上,基于马太效应描述的优劣,发现信息管理学的基础性定律。理学的基础性定律。防止社会过早地

6、承认那些还不成熟的成果或过早地防止社会过早地承认那些还不成熟的成果或过早地接受貌似正确的成果接受貌似正确的成果 “马太效应马太效应”所产生的所产生的“荣誉追加荣誉追加”和和“荣誉终身荣誉终身”等对无等对无名者有巨大的吸引力,促使无名者去奋斗,而这种奋斗名者有巨大的吸引力,促使无名者去奋斗,而这种奋斗又必须有明显超越名人过去的成果才能获得向往的荣誉。又必须有明显超越名人过去的成果才能获得向往的荣誉。n n负面影响负面影响负面影响负面影响 易使信息工作者按简单的优劣进行复杂多变的信易使信息工作者按简单的优劣进行复杂多变的信息管理工作息管理工作 信息分布富集有时是表面的、外在的信息分布富集有时是表面

7、的、外在的 过分注意核心信息源过分注意核心信息源 马太效应青睐名人、拒绝新人的习惯势力不利于马太效应青睐名人、拒绝新人的习惯势力不利于新人成长,限制了新思想、新知识和新信息的产生及新人成长,限制了新思想、新知识和新信息的产生及传播。传播。n n启示启示启示启示 发挥好的方面:发挥好的方面:l l 促进资源的优势积累和整合,所谓促进资源的优势积累和整合,所谓“集中力量办大事集中力量办大事”。l l 促进良性竞争。都有一种促进良性竞争。都有一种“一步领先、步步领先一步领先、步步领先,一步一步落后、步步落后落后、步步落后”的进取意识的进取意识,为社会进步提供强大动力。为社会进步提供强大动力。去除坏的

8、方面:去除坏的方面:l l 在资源和利益分配中坚持效益与公平兼顾的原则。在资源和利益分配中坚持效益与公平兼顾的原则。l l 加快制度性规范的建设。加快制度性规范的建设。3.2 3.2 信息生产者分布规律信息生产者分布规律 信息生产者在信息生产过程和生产结构中呈现何种规律,这种规律对信息分布有何影响。洛特卡定律 普赖斯定律3.2.13.2.1洛特卡定律洛特卡定律n n 洛特卡定律是由美国学者A.J.洛特卡在上世纪20年代率先提出的描述科学生产者生产率的经验规律,又称“倒数平方定律”或“平方反比分布”。n n 它描述的是它描述的是科学工作者人数与其所著论文之间科学工作者人数与其所著论文之间科学工作

9、者人数与其所著论文之间科学工作者人数与其所著论文之间的关系的关系的关系的关系:生产生产2 2篇论文的作者数量约为生产篇论文的作者数量约为生产1 1篇论文的作篇论文的作者数量的者数量的1/4;1/4;生产生产3 3篇论文的作者数量约为生产篇论文的作者数量约为生产1 1篇篇论文作者数量的论文作者数量的1/9;1/9;生产生产n n篇论文的作者数量约为生篇论文的作者数量约为生产产1 1篇论文作者数量的篇论文作者数量的1/n2,1/n2,而生产一篇论文作而生产一篇论文作者的数量约占所有作者数量的者的数量约占所有作者数量的6060。n n 该定律被认为是第一次揭示了该定律被认为是第一次揭示了作者人数与生

10、产作者人数与生产作者人数与生产作者人数与生产论文数量之间的关系。论文数量之间的关系。论文数量之间的关系。论文数量之间的关系。n n洛特卡定律应用举例:洛特卡定律应用举例:当某一领域中生产6篇文献的作者数量是1000人,估计该领域作者总量约是多少?(1)生产一篇论文的作者数量:62*1000=36000人(2)生产一篇论文的作者数量占所有作者数量的60%,故:36000/60%=60000人3.2.23.2.2普赖斯定律普赖斯定律 核心生产者分布的核心生产者分布的“平方根定律平方根定律”:在某一特定领域在某一特定领域中,全部论文的半数系由中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写

11、的。该领域中全部作者的平方根的那些人撰写的。I I n(xn(x)=)=N1/2 m+1 m+1 式中,式中,n(xn(x)为撰写为撰写x x篇论文的作者数;篇论文的作者数;I=I=n nmaxmax为该学科规定时期内最高产的作者数;为该学科规定时期内最高产的作者数;N N为该学科领域全部作者总数。为该学科领域全部作者总数。n n M=0.749(nM=0.749(nmaxmax)1/21/2 式子表明,高产作者中一位最低产的作者发表式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方的论文数量,等于最高产作者所发表论文数的平方根的根的0.7490.749倍。倍

12、。n n K=0.812/(nK=0.812/(nmaxmax)1/21/2 式子表明了高产作者人数同全体作者人数之间的式子表明了高产作者人数同全体作者人数之间的比例关系。比例关系。价值:简洁地描述了信息按生产者能力的分布情况。价值:简洁地描述了信息按生产者能力的分布情况。价值:简洁地描述了信息按生产者能力的分布情况。价值:简洁地描述了信息按生产者能力的分布情况。信息生产者分布规律揭示了少数信息生产者生产了大量信息的规律和特点,充分显示了马太效应的作用效果。3.3 3.3 信息离散分布规律信息离散分布规律n n 信息的离散分布是信息的重要属性,信息的离散分布是信息的重要属性,它表现它表现为信息

13、的内容单元以不同方式从不同角度分布于各为信息的内容单元以不同方式从不同角度分布于各种载体中。种载体中。n n 信息的离散分布是信息的离散分布是人类所有信息活动的基人类所有信息活动的基石,也是对信息进行有效管理的基础石,也是对信息进行有效管理的基础。因而研究信。因而研究信息的离散分布规律是信息管理学科的重要课题。息的离散分布规律是信息管理学科的重要课题。布拉德福定律布拉德福定律 齐夫定律齐夫定律3.3.1布拉德福定律 揭示论文在科学期刊中的分布情况n n 英国著名文献信息学家布拉德福发现,某一学英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,科领域中的相关论文

14、在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。而且具有明显的集中与分散规律。n n 布拉德福他在长期的观察和统计基础之上,提布拉德福他在长期的观察和统计基础之上,提出了有名的出了有名的“布拉德福分散定律布拉德福分散定律”(BradfordBradford s s Law of Scattering)Law of Scattering),简称为布拉德福定律或布简称为布拉德福定律或布氏氏定律定律n n “如果将科学期刊按其刊载某个学科主题的论如果将科学期刊按其刊载某个学科主题的论文文数量,以递减顺序排列起来,就可以在所有这些期数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最

15、高的刊中区分出载文率最高的核心核心部分和包含着与部分和包含着与核心核心部分同等数量论文的随后几区,这时核心区和后继部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成各区中所含的期刊数成1aa1aa2 2的关系的关系(a1)(a1)。”这这就是布拉德福定律的区域表述形式。就是布拉德福定律的区域表述形式。应用地球物理学论文的布氏分布应用地球物理学论文的布氏分布分区分区期刊载文量(篇期刊载文量(篇/年)年)期刊数量期刊数量论文数量论文数量1 1449 94294292 21-41-455554994993 31 1258258408408 n n布拉德福定律应用举例:布拉德福定律应用举

16、例:运用布拉德福定律 研究中国沙棘文献的核心期刊说明:说明:n n布拉德福定律有两个基本要点:布拉德福定律有两个基本要点:频次等级排序,形成主体来源频次等级排序,形成主体来源(期刊期刊)的有序目录的有序目录确定相关论文在主体来源中的分布规律确定相关论文在主体来源中的分布规律n n具体方法则包括区域分析和图形描述具体方法则包括区域分析和图形描述n n布拉德福定律主要揭示的是宏观层次的信息布拉德福定律主要揭示的是宏观层次的信息(文献文献)离散分布,而对于微观层次的信息离散分布,而对于微观层次的信息(内容单元内容单元)分分布的研究则基本上是空白。布的研究则基本上是空白。3.3.23.3.2齐夫定律齐

17、夫定律 词汇是表达和载荷信息的基本单元。词汇的选择、使用及出现频次必然影响信息的分布。齐夫定律是美国学者齐夫定律是美国学者G.K.齐夫于上世纪齐夫于上世纪40年代提出的年代提出的词频分布定律词频分布定律。1.1.齐夫定律的表述齐夫定律的表述n n 如果将一篇如果将一篇较长文章较长文章(约约5 0005 000字以上字以上)中每个中每个词按其出现词按其出现频次递减频次递减排列起来排列起来(高频词在前,低频高频词在前,低频词在后词在后),并用自然数给这些词编上等级序号,出,并用自然数给这些词编上等级序号,出现频次最高的为现频次最高的为1 1级,其次为级,其次为2 2级级这样一直到这样一直到D D级

18、,如果用级,如果用f f表示词在文章中出现的频次,用表示词在文章中出现的频次,用r r表表示词的等级序号,则有:示词的等级序号,则有:frfr=c=c(1)(1)式中式中c c为常数。上式称为齐夫定律。为常数。上式称为齐夫定律。词频分布词频分布 R Rf fLgLg r rLgLg f f1 14004000 00.990.992 22002000.690.695.305.303 31331331.101.104.894.894 41001001.381.384.604.605 580801.611.614.384.386 666661.791.794.194.197 758581.941.9

19、44.064.068 850502.082.083.913.919 944442.202.203.783.78101040402.302.303.693.69齐夫定律的修正齐夫定律的修正n n 如果建立如果建立f f与与r r的直角坐标系,用纵坐标表示的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条词的等级序号,横坐标表示出现频次,就得到一条双曲线。如果等级双曲线。如果等级r r与频次与频次f f都取对数,则双曲线变都取对数,则双曲线变成一条直线。成一条直线。1234 5 6 r f200150100 50 0lgflgr n n frb=c(2)取b=1,(2)式与(1

20、)式相同,因此可以将(2)式看做是对齐夫定律的修正。说明:n n齐夫定律是对自然语言词汇统计所得到的规律,研究表明,人工语言及人工语言语词构成的集合同样满足齐夫定律。n n齐夫定律通过研究英语语言词汇得出的结论,同时完全符合汉语语言词汇的分布。3.4信息对时间的分布规律 研究信息在时间轴上的动态分布规律,揭示信息的增长与老化,刻画信息随时间的推移所表现出来的趋势。指数增长律 逐渐过时律3.4.13.4.1指数增长律指数增长律n n 普赖斯曲线 如果以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律。这就

21、是著名的普赖斯曲线。普赖斯曲线普赖斯曲线1665 1750 1800 1850 1900 1950 t F(t)10000 1000 100 10 通过对曲线分析,普赖斯最先注意到通过对曲线分析,普赖斯最先注意到文献增文献增长与时间成长与时间成指数函数关系指数函数关系。如果用如果用F(tF(t)表示时刻表示时刻t t的文献量,则指数定律可表为下式:的文献量,则指数定律可表为下式:F(tF(t)=)=aeaebtbt(1)(1)式中:式中:a a是统计的初始时刻是统计的初始时刻(t=0)(t=0)的文献量的文献量 e=2.718e=2.718 b b表示持续增长率表示持续增长率 人们还常常用文献

22、量翻一倍的时间来衡量文献人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即的增长速度,即 t=t=lnln 2/b 2/b (2)(2)式中:式中:tt为文献量翻倍时间,为文献量翻倍时间,b b为持续增长率。为持续增长率。l l 实际的统计发现,不同时期、不同级别、不实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势是不一同质量、不同学科领域的文献信息增长态势是不一样的。样的。l l 勒希尔考察了不同质量级别的文献增长状况,发勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大。勒希尔认为,现它们的增长速度差别很大。勒希尔认为,文献的文献的数量与其质

23、量有关数量与其质量有关。他定义。他定义(01)(01)为文献的为文献的质量级别质量级别,则不同级别上的文献量为,则不同级别上的文献量为F(tF(t)。l l 如果文献量翻倍时间为如果文献量翻倍时间为tt,那么质量为,那么质量为级的级的文献数量翻倍时间将是文献数量翻倍时间将是t/t/。l l 他给他给的具体值如下:的具体值如下:=1=1:至少是一般文献:至少是一般文献(实际代表所有文献实际代表所有文献)=3/4=3/4:至少是有意义的文献:至少是有意义的文献 =1/2=1/2:至少是重要的文献:至少是重要的文献 =1/4=1/4:至少是非常重要的文献:至少是非常重要的文献 =0=0:第一流的文献

24、:第一流的文献 对于第一流的文献对于第一流的文献(即即=0)=0),文献数量,文献数量lnF(tlnF(t)。n n生长曲线生长曲线 普赖斯指出,考虑物质的、经济的、智力的及普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增长更趋近于时间的影响和限制,文献信息的增长更趋近于生物生物的生长曲线的生长曲线(Logistic CurveLogistic Curve),即,即最初生长最初生长或或繁殖很快,随着时间推移,其生长速度越来越慢,繁殖很快,随着时间推移,其生长速度越来越慢,致几乎不增加了致几乎不增加了。其方程为:。其方程为:F(tF(t)=k/)=k/(1+ae1+ae-k

25、bt-kbt)式中:式中:F(tF(t)代表时刻代表时刻t t的文献量,的文献量,k k为文献增长为文献增长的最大值。的最大值。生长曲线生长曲线生长曲线生长曲线K/2Ln a/kbtF(t)生长曲线表明,在文生长曲线表明,在文献增长的初始阶段,献增长的初始阶段,它是符合指数增长规它是符合指数增长规律的,当文献增至最律的,当文献增至最大值的一半时,增长大值的一半时,增长率开始变小,最后缓率开始变小,最后缓慢增长,并以慢增长,并以k k为其极为其极限。限。生长曲线的描述生长曲线的描述生长曲线的描述生长曲线的描述 一般来说,在不同的阶段科学文献增长的一般来说,在不同的阶段科学文献增长的态势是不同的。

26、态势是不同的。l l 学科处于诞生和发展阶段,文献量指数增长,文学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。献的寿命较短。l l 学科进入相对成熟阶段,文献增长就不能总保持原学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长。某一知识领域的研究取得重大进展后进入相相对变长。某一知识领域的研究取得重大进展后进入相对成熟的阶段。内容上更新的文献又将进入一个新的急对成熟的阶段。内容上更新的文献又将进入一个新的急剧增长时期剧增长时期(如指数增长如指数增长)。然后又进入一个稳定时期。然后又进入一

27、个稳定时期。l l 文献的增长往往会出现几个急剧增长时期和几个相文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局。对稳定时期,呈现出错综复杂的格局。3.4.23.4.2逐渐过时律逐渐过时律n n 随着时间的推移,信息的价值会逐渐衰随着时间的推移,信息的价值会逐渐衰减乃至失效。减乃至失效。文献老化文献老化 文献信息的老化一般指这样四种情形:文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被文献中所含信息仍然有用,但现在已被包含在更新的其他论著中;包含在更新的其他论著中;文献中信息仍旧有用,但现在正处于一个人们文献中信息仍旧有用,但现在正处于一个人们对

28、其兴趣下降的学科;对其兴趣下降的学科;文献中的信息仍有用,但为后来的著作超越;文献中的信息仍有用,但为后来的著作超越;信息不再有用。信息不再有用。衡量文献老化的指标n n文献半衰期文献半衰期文献半衰期文献半衰期 是指某学科领域现尚在利用的全部文献中是指某学科领域现尚在利用的全部文献中的一半是在多长一段时间内发表的。的一半是在多长一段时间内发表的。半衰期大体上与某学科领域的文献中半数失半衰期大体上与某学科领域的文献中半数失效所经历的时间相同。效所经历的时间相同。例如:例如:物理学文献的半衰期是物理学文献的半衰期是4.64.6年年意思:意思:(1 1)现仍在利用的物理学文献的现仍在利用的物理学文献

29、的50%50%,其,其出版年龄不超过出版年龄不超过4.64.6年。年。(2 2)物理学文献一半失效的时间是)物理学文献一半失效的时间是4.64.6年年n n普赖斯指数普赖斯指数普赖斯指数普赖斯指数 即某一学科领域内,对发表年限不超过即某一学科领域内,对发表年限不超过5 5年年的文献的引用次数与总的引用次数之比值。的文献的引用次数与总的引用次数之比值。一般来说,普赖斯指数越大,半衰期就越一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快。小,文献老化的速度越快。文献信息老化曲线 用纵坐标表示现在正被引证的文献量,用纵坐标表示现在正被引证的文献量,横坐标表示时间,绘制出文献的老化曲线。横坐

30、标表示时间,绘制出文献的老化曲线。相应的方程可表示为:相应的方程可表示为:C(tC(t)=)=keke-at-at 式中:式中:C(tC(t)表示发表了表示发表了 t t年的文献的被引次数,年的文献的被引次数,k k是常数,随学科不同而异,是常数,随学科不同而异,a a为老化率。为老化率。被引证次数C(t)出版年龄tt1t2t30.5文献信息老化的影响因素n n文献增长。文献增长。文献的增长和老化是一个事物的两个方面,文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识它们从不同的侧面来描述科学的发展,阐明科学知识的修正率。的修正率。n n学科差异。学科差异。世

31、界上世界上93%93%98%98%的科学杂志引用寿命为的科学杂志引用寿命为2020年左右,但并不是所有这些学科的文献老化速率都大年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚大。体一致,相反,彼此之间差异甚大。n n学科发展阶段的差异。学科发展阶段的差异。即使是同一学科,不同的时期即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同。或阶段,文献的半衰期不尽完全相同。n n信息环境和需求。信息环境和需求。不同信息用户对文献的需求是不同不同信息用户对文献的需求是不同的的 ,因而信息利用者的需求及所处的信息环境,因而信息利用者的需求及所处的信息环境 的研的研究十分必要。究十分必要。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com