2007年度“国家科学图书馆青年人才领域前沿项目”结题报告.doc

上传人:创****公 文档编号:4061268 上传时间:2021-01-13 格式:DOC 页数:95 大小:1.39MB
返回 下载 相关 举报
2007年度“国家科学图书馆青年人才领域前沿项目”结题报告.doc_第1页
第1页 / 共95页
2007年度“国家科学图书馆青年人才领域前沿项目”结题报告.doc_第2页
第2页 / 共95页
点击查看更多>>
资源描述

《2007年度“国家科学图书馆青年人才领域前沿项目”结题报告.doc》由会员分享,可在线阅读,更多相关《2007年度“国家科学图书馆青年人才领域前沿项目”结题报告.doc(95页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、2007年度“国家科学图书馆青年人才领域前沿项目”结题报告“科学前沿领域”挖掘的文献计量学方法研究项目负责人:杨立英项目组成员: 周秋菊 岳婷“科学前沿领域”挖掘的文献计量学方法研究目 录1引 言31.1研究背景31.2研究的目的和意义41.3国内外研究现状51.3.1国外研究现状51.3.2国内研究现状71.4本文工作简介72“科学前沿领域”活动规律的理论研究82.1 “研究前沿”的概念及定义82.2 研究前沿的挖掘技术102.2.1同被引技术102.2.2文献耦合122.2.3词频分析132.2.4共词分析152.3 小结183 “科学前沿领域”的文献计量学方法研究193.1基于传统文献计

2、量的“科学前沿领域”遴选方法193.1.1 引文分析方法203.1.2 词频分析方法213.1.3引文分析法和词频分析法的比较213.1.3.1引文法与词频法213.1.3.2词频与词的网状关系方法223.1.3.3共词聚类与共引聚类方法223.2基于现代统计学方法的“科学前沿领域”遴选243.2.1统计学方法与科学计量学方法的关系243.2.2常用的统计学方法253.2.2.1 聚类分析253.2.2.2主成分分析283.2.2.3多维尺度分析303.3基于研究描绘技术的“科学前沿领域”遴选方法333.3.1研究描绘技术的基本概念333.3.2基于研究描绘技术的技术挖掘应用研究363.3.3

3、 基于研究描绘的“科学前沿领域”挖掘373.3.4 方法评述383.4基于爆发词的“科学前沿领域”挖掘方法393.5 新兴趋势及其处理技术403.5.1新兴趋势的概念及定义403.5.2新兴趋势的处理技术413.5.2.1 基于文献计量学指标的可视化方法413.5.2.2 基于文献计量学指标的综合评价方法433.5.2.3基于文献共引聚类网络分析的方法453.5.2.4基于神经网络的机器学习方法473.6小结484“科学前沿领域”挖掘的可视化技术494.1可视化技术的概念494.2常见的可视化系统比较分析494.2.1 Pajek504.2.2 Thomson Data Analyzer514

4、.2.3 HistCite524.2.4 ETD524.2.5 CITESPACE534.2.6 PROTEJ554.2.7 HDDI564.3当前系统特点分析564.3.1 优点分析574.3.1.1处理和可视化基本数据574.3.1.2处理和可视化网络数据574.3.1.3科学前沿领域的主题遴选、聚类和识别574.3.2 缺点分析584.4共现可视化系统原理、方法及其实现594.4.1共现可视化原理594.4.2共现可视化及其指标、方法594.4.3共引可视化的软件工具634.4.4 基于复杂网络理论的可视化科技监测方法654.5基于科学计量的“科学前沿领域”系统解决方案654.6小结67

5、5“科学前沿领域”挖掘的应用研究685.1“世界科学前沿领域”的文献计量应用研究685.1.1所选领域知识说明685.1.2方法与数据695.1.3数据分析705.1.3.1 数据总体分析705.1.3.2时间线技术应用:研究前沿领域分析735.3 小结836结论841引 言1.1研究背景科学技术作为现代社会最活跃的因素和最强有力的支撑力量,在经济建设中发挥着重要作用。由于人类对未知世界的探索是无限的,而社会可以用于科学探索的资源却是有限的,因此无论是发达国家要保持在科学知识前沿领域的领先地位,还是发展中国家在原本落后的起点上实现局部突破、跨越式发展,都需要有组织、有选择地确定重点科技项目予以

6、资助,合理配置、有效利用有限的科技资源,以求得本国科学技术最有效的发展。越来越多的国家和政府认识到,在制定统筹安排、整体推进的科技战略规划中,遴选“优先领域”或“重点领域”,是加速科技进步,推动社会经济协调发展的关键所在。各国政府确定“优先领域”或“重点领域”时,都高度关注“前沿领域”。“科学前沿领域”是引起世界科学家高度关注并取得重大突破,带动或推动相关学科发展,涌现出大批科学成果的研究方向。它的发展在整个科学发展中举足轻重的作用:不仅在其内部形成了科学研究的“富矿区”,而且极大的推动和促进了相关学科乃至整个学科群的飞速发展。这些研究领域是全世界最顶级的科学家瞩目的焦点。从广义上讲,科学“前

7、沿领域”包含二部分内容,一部分是引起世界科学家高度关注的对未解的科学难题所做的种种探索并取得了重大突破:另一部分是非常超前的、有可能在若干年后成为科学难题之解的非共识研究工作。在任何时候,前者是科学前沿的主流,它囊括了前沿领域的绝大多数研究工作,因而,本论文的研究内容锁定在前者。“前沿领域”的研究不仅在其内部形成了科学研究的“富矿区”,而且极大的推动和促进了相关学科乃至整个学科群的飞速发展。遴选和挖掘这些领域和研究主题的动态进展,不仅为国家的科技发展战略制定提供了依据,还可以为科学家提供一个多角度观测世界科学发展的空间。任何学科都有自己演化的历史,在演化中形成相应的动态知识结构图,其中蕴藏着数

8、量不等的“研究领域”。这些“研究领域”并不以显而易见的方式为我们所知,而是隐藏在大量的科学论文中。对这些“研究领域”的区分、归纳是描述“前沿领域”的重要基础。长期以来,科学家通过大量地阅读文献或者是通过国际合作和国际交流来了解世界科学前沿,这种基于科学家主观认识作出经验判断的方法是当今的一种主流方法。然而,定性的经验方法往往受到科学家主观认识及专业知识面的限制,会直接影响到科学家的科研选题,也会影响到国家和政府的科学发展战略制定。事物发展体现在数量关系上,往往都会观察到由少到多的规律。在科学演化的不同阶段会表现出不同的特征。科学计量学的奠基人普赖斯在大科学、小科学中用科学家数量、科技论文数量的

9、指数增长、逻辑斯蒂曲线描绘了不同发展阶段的科学增长规律,开创了科学史研究的先河。这说明科学发展的阶段性特征可以通过定量方法来揭示。在定量分析则是建立对“前沿领域”特征深入分析基础上,以大规模的论文数据为研究对象,从中揭示、挖掘科学“前沿领域”。1.2研究的目的和意义“前沿领域”在每个学科内部非常活跃,具备鲜明的活动规律:不仅在短期内取得突破性进展,而且形成了一定的研究规模和影响力。这种规律突出表现在研究成果数量以较快的加速度增长,且有强的学术辐射力。因而,基于对“前沿领域”成果特征的分析,通过对大规模的论文数据分析,对论文的数量、内容及引用关系进行定量研究,来追踪某领域的产生、发展、分化、相互

10、渗透的情况及其动向,从而判断、挖掘“前沿领域”。本研究拟用科学计量学、统计学方法并结合可视化技术的手段挖掘、展示反映科学研究的“前沿领域”。研究从对“科学前沿领域”活动规律、挖掘技术入手,在对 “科学前沿领域”的文献计量学方法进行系统、深入的研究后,总结出一套利用文献计量方法快速挖掘“科学前沿领域”的方法,并用这一方法进行实证研究。本研究用具体的数据和图示让科学家和决策者对于“前沿领域”有一个量的判断,为管理者制订科学技术发展的路线、战略和政策,有效地进行科学技术事业的组织管理提供决策依据,为科学家提供视野更加宽阔的观察视角,具有很好的实际应用价值。1.3国内外研究现状近年来,随着科技文献信息

11、量的猛增、科技信息资源和科学研究朝着数字化方向的发展、计算能力和计算速度的迅速增长、存储容量的不断提高、以及一系列新的挖掘、分析、检索、可视化等技术的成熟应用,给传统的文献计量学不断注入新鲜活力。在文献计量学研究中,对“科学前沿领域”进行挖掘,是因为其具有鲜明的成果产出特征,这是运用文献计量学方法对“科学前沿领域”的论文进行研究的重要理论依据和基本出发点。科技论文中有许多能够表征科学发展和动态的重要信息,其中论文数量或论文的引文数量从无到有,从少到多呈持续快速增长的发展态势是观察和分析“前沿领域”的重要基点。目前,国内外有一些相关的方法研究和实践尝试:1.3.1国外研究现状在从研究对象看,国外

12、对“科学热点领域”、“科学增长领域”、“突现领域”的关注已经久有历史:从制定科技发展战略决策的需求出发,各国政府都会组织或委托有关部门预测或遴选“优先领域”、“重点领域”,而对科学发展动态的实时挖掘是确定“优先领域”、“重点领域”的重要基础,“科学前沿领域”与“科学热点领域”、“科学增长领域”、“突现领域”在内容上有一定程度的交叉,但不太相同,“前沿领域”不仅关注领域发展现状,也可以反映领域的动态增长,因此,对“前沿领域”的研究和关注尤为重要。根据目前的文献调研,有关“前沿领域”挖掘及其方法研究主要在以下机构和个人层面展开:(1)Thomson 科技信息集团及其首席科学家Henry Small

13、(2)美国海军研究所(ONR)Kostoff博士(3)荷兰Leiden大学科技研究中心(CWTS)(4)美国乔治亚理工学院公共政策研究所(SPP)(5)英国科技政策所(SPRU)(6)日本国家科技政策研究所(NISTEP)(7)兰德公司(Rand com.)(8)美国Drexel大学教授陈超美(9)美国Baker-Hughe公司Steve A Morris博士所涉及的主要文献计量学方法有:共引聚类方法 美国情报学家Henry Small于1973年提出的,根据两篇论文同被引的强度作为测度论文间关系程度的一种方法。共引聚类最常见的作法是基于高被引论文的共引聚类,其理论依据是某一主题下的高被引论文

14、隐含的表达了科学家研究所关注的焦点,通过对这一组论文内容联系强度的聚类分析,找到前沿的主题。Henry Small主要利用共引聚类的方法,以WEB OF SCIENCE 为数据基础,对“增长的领域”作了大量的实践研究。作为ISI的首席科学家,共引的方法被用于ESI数据库的Research Fronts中。共词聚类方法词的网状关系指论文的内容词(关键词、主题词)间的联系,通过研究词间关系来分析所涉及的主题内容。最主要的研究集中于词的共同发生率(共词)方法,通过统计任意两个关键词同时出现在一篇论文的频率,用共词聚类的方法把样本关键词分成若干簇,来反映学科内部研究者频繁关注的重点主题领域。用做共词聚

15、类的关键词或主题词一般是高频主题词,也有用低频主题词做的。基于高频主题词的共词,从理论讲比共引聚类的时效性要好。.基于低频主题词的共词理论依据是低频词有可能是潜在的趋势,但也有可能不会成为研究热点,因而用低频词共词聚类的理论依据似乎不足。Law,J与Bauin.S最早提出并利用共词分析来图示环境酸化领域的研究变化,此后,Callon,M等研究者又利用共词的方法进行了一系列的实践研究。总的来讲,国外对这一领域的研究非常重视,但一整套对“科学前沿领域”进行挖掘的文献计量学方法研究的理论成果还没有形成。已有的研究成果,侧重于实践层面上较多,对方法的理论探讨较少;对已知的的研究重点领域进行回顾的较多,

16、挖掘遴选潜在“前沿领域”的较少。1.3.2国内研究现状与国外相比,国内研究者对“科学前沿领域”活动规律的实践活动基本上是处于起步探索阶段:中国医科大学的崔雷从2000年起开始用同引或共词的方法来挖掘医学领域的热点研究主题,并设计了国内第一个文献计量学共引分析系统,开创了国内用文献计量学方法研究科学活动规律的先河。柴省三等也有专门的文章对共引、共词进行了理论研究。此外,还有一些研究者用时间预测,概率预测、灰色系统、模糊系统的方法来展望未来科学发展的状态。以往国内的研究中,研究者关注的焦点重在“研究领域”的归纳描述和方法自身的理论解释,这给了本研究很大的启示,因而希望在前者的研究基础上,对制定国家

17、科技发展战略急需的“科学前沿领域”进行研究,通过实证分析,总结出一套挖掘“前沿领域”的文献计量学方法。1.4本文工作简介在学科演化的动态过程中,研究内容的结构一定存在着某种规律性,本研究旨在挖掘“科学前沿领域”的活动特征以及映射在论文产出中的规律,但这个规律能否用科学计量学方法捕捉到,很大程度上取决于前期的理论研究和分析。本研究从理论研究出发,通过研究论文数据中反映出来的前沿领域变化特点与规律,研究出一套较为完善的观察遴选“科学前沿领域”文献计量学方法,能够实时动态的观察到世界科学发展变化的情况,为今后科研管理者制定符合中国科技发展的战略决策提供依据,为科研人员站在全景的高度了解本领域和相关领

18、域的发展现状,更好地融入科学共同体中进行交流提供参考。2“科学前沿领域”活动规律的理论研究及时了解科研动态,把握学科方向对科研机构、企业和整个国家都非常重要。无论是科研人员还是科技管理者,都要善于敏锐地发现科研领域中的“新”事物。对于什么是科研领域中的“新”事物,有多种说法,如研究前沿(Research front)、新兴趋势(Emerging Trend)、热点领域(Hot Topic)等。从广义上讲,“科学前沿领域”包含二部分内容,一是非常超前的、有可能在若干年后成为科学难题之解的非共识研究工作。二是引起世界科学家高度关注的、对未解的科学难题所做的种种探索并取得了重大突破。在任何时候,后者

19、是科学前沿的主流,它囊括了世界科学前沿领域的绝大多数研究工作,本研究对科学前沿领域和重要发展方向的遴选锁定在前者。在科学研究的全生命周期中,“前沿领域”代表了科研发展方向,因此对其进行研究具有重要的意义。“科学前沿领域”在每个学科内部研究非常活跃,通过文献计量学的方法,对“前沿领域”在文献数量、内容及相互引用方面的变化关系进行定量分析,挖掘其活动规律,进而追踪某一学科的产生、发展、分化、相互渗透的情况,是进一步考虑如何动态的挖掘到“科学前沿领域”的重要基础。科学技术的“研究前沿”代表的是某一个研究领域的思想现状,它是一个相对的概念。在科研活动中,前沿是根据研究对象当前在学科领域中所处的地位而确

20、定的。研究对象在学科领域中所处的地位领先,可以被称作前沿。对研究前沿进行研究,有助于科研人员和科研管理人员和科研人员迅速了解某个领域的研究前沿和研究热点,及时进入国际新兴主流科研问题研究,抢占科技制高点。同时,对研究前沿的监测能为科学家及时提供高水平的国际合作伙伴,为政府机构对重大科研项目及时提供资助,或者为单位内部分配科研资源提供决策依据,从而推动科学技术或社会经济的发展。2.1 “研究前沿”的概念及定义研究前沿的概念最早由普赖斯(D. J. de S. Price)提出。早在1965年,普赖斯观察到科学家似乎倾向于引用最新发表的文章,并将其称为即时因子(immediacy factor)。

21、某个领域的研究前沿是由科学家积极引用的文章所体现的。普赖斯认为,“研究前沿是基于新近研究成果的,网络也变得越来越紧密”,他估计一篇文章之前有30-40 篇相关文章发表,由此构成研究前沿。普赖斯将200篇有关N-rays主题的文章按年代顺序进行排列,通过引文矩阵(列引用行)来预测学科的研究前沿,研究前沿的包容界限是一篇引文发表前的大约50篇文章。稍早发表的一些论文会被一组新近发表的论文通过参考文献紧密联系起来,这些稍早发表的论文被看作是活跃的研究前沿。1973年,斯莫尔(Small)参考普赖斯的定义提出了共引聚类方法,来分析特定领域内基础性的、较早发表的核心论文,表征当前活跃的研究领域、研究领域

22、结构。他认为共引文章聚类表征着当前活跃的研究领域。共引聚类的本质决定于选择的词集(Word profiles)。假设一个聚类中的文章Di被K 篇文章Di1,Di2,.,Dik引用,选出在Dij文章标题中最常出现的四个词形成文章Di的词集。集合一个聚类中所有词集,选出出现频次最高的N个词,就形成了N-词聚类库(N-word cluster-profile)。这种词库的最大优势就是简单,然而,初始词集的选择因受到K篇引用文献的标题限制,可能不足以揭示潜在主题领域的动态变化。1994年,皮尔森(Persson)将研究前沿定义为与高同被引文献簇关联的施引文献群,即施引文献构成了研究前沿,而将被引的文献

23、称作研究前沿的知识基础。2003年,莫里斯(Morris)等人将研究前沿定义为倾向于引用一组固定和时间不变基础文献的文献集, 由文献耦合数据聚类得到。SCI的创始人加菲尔德(Garfied)在1994年定义了更大的研究前沿范围,将同被引聚类的核心论文和引用这些核心论文的最新文献一起定义成研究前沿。2006年,陈超美(Chaomei Chen)把研究前沿定义为一组突现的动态概念和潜在的研究问题,可以从引文网络中作为研究前沿的知识基础,即引用文献的路径轨迹与关键论文节点加以判别。如前所述,随着认识的发展,40多年来,不同的学者对研究前沿的概念内涵进行了不同的定义和诠释。综合起来,大致可以分成以下3

24、类:大致有以下3种说法:1)将一组高被引文献定义为研究前沿,如Price、Small的定义;2)将一组施引文献定义为研究前沿,如Morris的观点;3) 将突发或热点主题定义为研究前沿,以陈超美为代表。2.2 研究前沿的挖掘技术由于目前关于研究前沿的现有定义大致有三类,因此,不同的定义分别对应着不同的研究方法。将高被引文献称作研究前沿的学者,大多利用同被引聚类的方法来分析数据;将施引文献称作研究前沿的学者,大多利用文献耦合方法来分析数据;而将突发或热点主题称作研究前沿的学者,大多会利用词语分析的方法研究,包括词频分析、共词分析等。2.2.1同被引技术所谓同被引(Co-Citation,又称共引

25、),是指两篇以上论文共同被后来的一篇或多篇文献所引用,则称这两篇引文同被引,以引用它们的论文数量的多少为测度,这种测度称为同被引频次(Co-Citation Frequency)或同被引强度(Co-Citation Strength) 同被引强度越大。即同时引用这两篇论文的文献越多,说明它们之间的关系越密切。同被引这一概念,是1973年由美国情报学家斯莫尔 (H.G.Smal1)和前苏联女情报学家N.马沙科娃(Marshakova)分别在研究文献的引证结构和文献聚类时不约而同提出来的,作为测度文献间关系程度的另一种方法。Small(1973)在对“粒子物理学专业”进行知识结构描述时,发现两篇论

26、文被相同文献引用的强度可以用来测度其内容相似程度,在此基础上创造性地提出了同被引的概念(见图2-1)。图2-1文献共引图示(方框表示同被引论文)同被引概念不仅局限于同时被引用的两篇论文间的关系,而且还能延伸至被同时引用的作者、期刊、学科等之间在结构上的网络关系。White和Griffith(1981)发表了较有影响的作者同被引:智力结构的文献测量一文,文献通过对情报科学39位知名作者的同被引分析,划分出情报科学五大体系的核心作者,为以后的同被引研究提供了良好的范例。作为同被引分析的奠基人,Smal1利用同被引分析进行了大量的实践研究。经过30多年的演进,以Smal1为代表的研究者从引文数据的选

27、择、共引矩阵的标准化处理,到不同层次、等级聚类方法的改进、可视化方法的引入,对共引分析理论与技术进行了大量研究,研究内容涉及物理学、生物医学、行为科学、信息科学等多个领域,分析了科学领域内重要概念之间关系,并模拟学科知识结构,使得共引分析理论研究与技术日臻完善, , , 。近几年,利用共引聚类来挖掘科学“热点领域、前沿领域、增长领域”正成为研究的焦点,Smal1最近的研究中探讨了追踪与预测“增长的领域”,用共引聚类的方法逐级展示了在碳纳米管、纳米科学、材料科学研究中被研究者关注的领域以及在不同的聚类水平下碳纳米管研究的地位。此外,美国科技信息研究所(Institute for scientif

28、ic Information,ISI)利用共引方法在“科学前沿”挖掘中作了大量的工作,并运用到数据库实践中。在ISI的基本科学指标库(Essential Science Indicators,ESI)中对高被引论文进行同被引聚类处理,将内容联系密切的高被引论文收敛为若干簇,对每簇内部的论文进行半自动处理,得到了“前沿领域”(Research fronts)。2.2.2文献耦合计量学中“文献耦合(Bibliographic Coupling)”这一术语是美国麻省理工学院的教授M.M.Kessler(1963)最先提出来的,他在对物理评论(Physical Review)期刊进行引文分析研究时发现

29、,越是学科、专业内容相近的论文,它们参考文献中的相同文献的数量就越多。于是他把两篇同时引用一篇论文的论文称之耦合论文(Coupled papers),并把它们之间的这种关系称为文献耦合(见图2-2)相同参考文献的数量即为耦合强度。引文耦合关系也可以推广到多篇论文的情形。显然,耦合强度越高,两篇文献(或多篇文献)的关系越密切。如果多篇文献间具有耦合关系,则构成一个耦合网络。耦合强度为网络的权值,两篇论文共有的引用文数目为这两篇论文的耦合强度。图2-2 文献耦合图示(方框表示耦合论文)Weinberg曾在1974年对文献耦合作过较为全面的综述。此后,许多学者对文献耦合的分析方法又进行了发展。Per

30、sson利用文献耦合分析基于同被引分析识别出的知识基础来确定研究前沿。他首先对数据集内的文献建立施引-被引矩阵,矩阵的列是施引文献,行是被引文献,耦合分析重点考察矩阵的列,并采用单链接聚类进行聚类分析。由于被引频次和数量会受到引用频次以及引用数量的影响,有些学者还对文献耦合及同被引数量加以标准化以获得更优化的分析结果。后来,Morris等人采用创新性的时间线方法来分析和展现研究前沿。他们在文献耦合聚类的基础上引入时间轴,可以在图形上展现研究前沿出现和消失的时间、潜在的新兴研究前沿及其基础文档、卓越的专家和研究中心、领域内研究前沿的层级结构、研究前沿间的信息流动等信息,可供领域专家进行技术预测。

31、时间线方法分析研究前沿的主要步骤为:1) 结合分析目标构建数据集,设定阈值筛选文献之后建立施引-被引矩阵,得到数据集文献的耦合频次;2) 使用凝聚型层次聚类法对文献单元样本进行聚类分析,即将每篇文献看作一个类,两两计算其距离之后,采用自底向上的方法迭代地将距离最近的两个类合并,直到产生预定的聚类数量;3) 通过聚类,生成一个树状图,x轴是文献出版日期,y轴是沿水平轨迹排列的树状图的“叶”,即文献簇,通过分析可以得到研究前沿的结构和时间演化。4) 通过对文献簇内论文标题的分析,确定研究前沿的名称,然后由领域专家进行较准确的描述。文献耦合是由论文作者有意识地引用而产生的链接,度量的是由被引文献链接

32、起来的施引文献之间的关联。从时间上看,文献耦合是固定不变的,而且耦合数据在论文发表后就可以立即获得。一些研究者认为,文献耦合分析能够比同被引分析更好地描绘研究前沿。2.2.3词频分析所谓词频是指某一个单词在文章或讲话中出现的次数。在文献中,不同词汇的使用和出现频次是非常不同的,但并非是任意的和随机的,而是受人类行为支配,具有一定统计规律性,通常称其为“词频分布规律”。词频分析是文献计量学方法中最基本的方法之一,其理论基础是词频的波动与社会、情报现象之间存在内在联系,从而透过词频现象看内容本质的科学方法。词频分析方法依靠统计语言学基础,研究词(字)在科学文献中出现的频率分布,据此建立频率词典。1

33、9世纪人们就开始应该这种特殊的计量技术,德国语言学家凯定(F.W.Kaeding)编写了世界上第一部频率词典德语频率词典,样本容量为110万个词的文句。此后,这种独特的科学计量方法开始为人们所认识和重视,先后大约有300余部类似的词频词典问世。科学计量研究的目的是,按照学科领域建立词频词典,从而对科学家的创造活动作出定量分析比较。例如,有人对爱因斯坦和普朗克一生论文标题做过词频分析,结果发现爱因斯坦共用过1207个词,而普朗克只用777个词,据此推知爱因斯坦的科学兴趣和涉猎领域要比普朗克广泛得多。词频分析方法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确

34、定该领域研究热点和发展动向的文献计量方法。词频分析方法在情报学领域应用广泛,最基础的当属利用齐普夫词频分布定律揭示语言统计规律、书目信息特征、组织检索文档和图书情报管理等。在文献数据库中,作者和数据库标引员采用关键词来标识文章中的主要研究内容,如果关于某一问题的研究多,则相应的关键词出现次数也多。因此选出高频关键词作为研究的热点主题,并进行深一步研究。高频词阈值的确定主要有两种方法:1) 结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性;2) 另一种是结合齐普夫第二定律辅助判断高低频词的界限。通过揭示高频词在各年中的分布变化,可揭示学科的发展热点和脉络,包括:统计各年收录的高

35、频词的差异;统计各个高频词在各年中的频次变化和频次排序变化;与内容分析相结合,分析高频词所承载的科技内容;将这些关键词进行相应的分类与组织,揭示领域研究的热点主题。加拿大蒙特利尔大学的Robert Dalp教授(1997年)曾完成了一份关于世界纳米科技研究状况的计量分析报告,报告以加拿大国家研究理事会( The National Research Council of Canada ,NRC)确定的79 个纳米科技关键词为依据,采用词频分析的方法,不仅分析了全球范围内纳米科技论文的产出,而且分析了世界各国纳米技术专利的分布。梁立明和谢彩霞(2003年)基于中国期刊网题录数据库和中国专利信息数据

36、库,采用关键词词频分析方法,勾勒出我国纳米科技的研究领域,分析了近几年我国纳米科技成果的研究热点和研究弱项。此外,梁立明和李小宁还用词频分析法对国际著名科技创新与科技政策研究机构的工作进行扫描,定位世界范围内该领域的前沿,捕捉研究热点。此后的研究基本上遵循了基于词频分析遴选高频词,作为研究热点的表征,并以统计图表的形式展示研究热点的模式,如纪蔚蔚基于词频分析我国2004年科学学的主要研究热点;张雁等通过词频分析认为:企业、技术、创新、管理、科技、发展、知识、战略、评价、产业、科学等领域是2005年我国科学学的主要研究热点等。在研究前沿热点的应用方面,采用词频统计方法确定研究前沿有操作相对简单,

37、揭示科技发展的方式比较直接的优点。但是,因为词频阈值的确定比较主观,而不同的研究者有不同的标准,可能导致研究结果不一致。由于词频阈值通常是固定的,而词的出现频次具有波动性,因此某些研究从长期来看是属于热点,但是可能在某一年的波动略在词频阈值下方,有可能被忽略掉,导致分析的误差。此外,高频词在形成研究主题的过程中,需要较多的人工干预,需要专家根据自己的知识背景将高频词分成特定的研究主题。2.2.4共词分析共词分析(Co-word、Co-term)的原理是对一组词两两统计它们在同一篇文献中所出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题

38、的结构变化。共词分析的思路最初是在20世纪70年代法国文献计量学家提出的,1986年,法国科研中心 (Centre National de la Recherche Scientifique,CNRS)的M。Callon、J.Law和A.Rip出版了Mapping the Dynamics of Science and Technology,当时被称做“LEXIMAPPE”,。由于在结果分析方面关键词具有得天独厚的直接性,很快引起研究者的高度关注。法国和荷兰是共词研究的主要聚集地,Callon、Law、Courtial、Bauin、Leydesdorff、Raan的研究代表了共词分析的主流,

39、,。图2-3共词分析图示(方框表示共词论文)论文的关键词、主题词是科学研究内容的提示符和凝炼,共词(Co-word)分析(见图2-3)通过统计词汇(通常是关键词)之间的关系与结合来概述研究领域的微观知识结构,从横向和纵向的角度分析领域学科的发展过程、特点以及领域或学科之间的关系,反映研究领域的科研水平及动态和静态结构,拓展信息检索领域以求帮助用户检索信息。早期的共词聚类理论探讨集中在关键词间相关程度的测试,如包容指数(Inclusion index)和临近指数(Proximity index)等指标,前一个指标重在测度领域内最重要的研究主题,后一指标重在测度那些规模较小、容易淹没的研究主题之间

40、的关系。这些共词分析主要涉及关键词之间关系的分析,The UK Advisory Board for the Research Councils (ABRC)应用这些指标作了大量研究,Callon将这些共词研究称第一代的共词研究,1988年Callon提出了对聚类结果进一步描述和分析的“战略坐标”,用密度(Density)和向心度(Centrality)来测度聚类簇与簇之间、簇内部联系程度的强弱,分别计算出各簇(研究主题)密度和向心度,把所有的主题展现在以密度和向心度为X、Y轴战略坐标图中。位于不同象限的研究主题处在不同的发展阶段,其中第二、三象限词簇有可能向“前沿领域”发展。战略坐标将第一代

41、共词分析中对词间关系的考察延伸到研究词簇间关联关系,研究的学者主要集中在法国,Callon称之为第二代共词分析。无论是第一代还是第二代共词分析,绝大多数是基于索引词或主题词的。美国海军研究办公室的Kosstoff博士将基于关键词或主题词的共词分析进一步扩大到基于全文本自动抽取词汇的共词分析数据库内容结构分析技术(Database Tomography,简称DT),这项技术开始是作为检索扩展技术应用,随后Kosstoff将其作为共词分析扩展来发掘词间天然关系,用来发现具有核心竞争力的关键技术。共词分析对于词的选择非常敏感,作者取词的习惯、未经规范的关键词、关键词在表征论文内容的完整性及其它原因都

42、会造成结论的模糊、晦涩。此外,还有一些研究对共词分析结论的可解释性提出置疑,认为存在随意性较大、不确定性的缺陷,因而这一研究远未达到至臻至美,仍需不断地完善和改进,。综上所述,各种“研究前沿”的处理技术都具有自身的特点,而且受数据源和分析原理的影响,可能会或多或少地存在着一些固有的缺陷。词频分析简单易行,但只是从论文关键词计量分析的角度考察学科发展动向,对研究前沿更深入的分析探讨还要靠内行专家;文献耦合在时间维度上是静态的,是作者有目的地链接两篇文献,是基于有意识的行为;而同被引则是不断变化的,是事后建立的关联。不过,对于识别科学研究前沿的应用来说,引文分析始终是一种间接的途径,将引文分析和共

43、词分析相结合已经获得更普遍的认可。美国海军研究所的Kostoff博士在结合运用引文分析和共词分析等文献计量方法来发现潜在研究创新方面作出了重要的贡献。他采用文献相关的发现(Literature-related discovery ,LRD)方法链接两篇或多篇文献中原本尚未联系起来的概念,从而获得全新的、有趣的、可信的和可理解的知识以及潜在的研究前沿。他将LRD 方法分成两个部分:基于文献的发现(LBD)和文献辅助的发现(LAD),并进一步将其各自分成开放式发现系统(从问题出发直到发现解决方案)和闭合式发现系统(从问题和解决方案出发来确定之间的链接机制)。其中,基于开放式发现系统的LRD方法的主

44、要步骤是:1) 目标问题转化成检索式来检索核心文献;2) 通过书目信息获得核心文献的技术框架(利用引文分析等计量方法获得核心作者、研究中心) 和技术结构(利用DT识别出广义主题及主题间的关系),在此基础上识别并扩展检索出与每一个主要的重点领域相关的直接或非直接关联的文献;3) 分析并限定解决方案的类别,分析扩展检索得到的所有记录,从中发现那些可能包含潜在发现的文献并作进一步分析。Kostoff使用LRD方法在帕金森病、多发性硬化等多个领域进行了研究,并获得了有益的研究成果。2.3 小结本章首先从理论研究入手,分析了当前“科学前沿领域”主要内容和相关技术。由于目前关于研究前沿的现有定义大致有三类

45、,因此,不同的定义分别对应着不同的研究方法。将高被引文献称作研究前沿的学者,大多利用同被引聚类的方法来分析数据;将施引文献称作研究前沿的学者,大多利用文献耦合方法来分析数据;而将突发或热点主题称作研究前沿的学者,大多会利用词语分析的方法研究,包括词频分析、共词分析等。3 “科学前沿领域”的文献计量学方法研究如前所述,国外对“科学前沿领域”的研究非常重视,但一整套对“科学前沿领域”进行挖掘的文献计量学方法研究的理论成果还没有形成。已有的研究成果,侧重于实践层面上较多,对方法的理论探讨较少;对已知的的研究重点领域进行回顾的较多,挖掘遴选潜在“前沿领域”的较少。本章在对已有研究进行深入分析的基础上,

46、着重在方法层面上进行理论探讨。3.1基于传统文献计量的“科学前沿领域”遴选方法由于现代社会科学技术的高速发展,信息文献数量猛烈增长,造成所谓的“信息爆炸”。从70年代开始,文献计量研究在英国悄然兴起,80年代后得到进一步发展,在全球兴起一股计量研究热,形成一门新的计量学科文献计量学。美国情报学家怀特(White)在80年代就指出,文献计量学已居于情报学的中心位置,构成情报科学中生气勃勃的一半内容。目前,文献计量学已公认为图书情报领域内最活跃的一个分支学科,成为情报科学的研究主流,科学计量研究的重要组成部分,体现了当代学科管理定量化的趋势。文献计量已经与整个科技活动,科研发展的评价研究融合在一起

47、,伴随着文本挖掘和数据挖掘技术的不断发展,结合可视化技术,基于文献计量的科技资源监测已然成为科学学中定量化分析研究的有力工具和重要组成部分,也成为“科学前沿领域”中具有鲜明特色的一部分内容和处理数据、信息的基本手段和方法。科学计量学的方法通过对学科成长与其文献数量、内容及相互引用方面的变化关系进行定量分析、定量评价和预测,可以追踪某一学科的产生、发展、分化、相互渗透的情况及其动向,可以观测学科的内部结构变更情况等一系列潜在的动态趋势,从而帮助科技人员了解目前科技发展的情况,使他们能够把握科技发展的趋势。科学计量学的引文和词频分析方法是其中应用最多的方法,具体方法类型见图3-1。 科学计量学方法:(科学前沿分析)引文分析法词频分析法引用频率分析(作者,论文等等)引文网状关系分析(作者、论文共引聚类)词的发生频率词的网状关系分析(共词聚类分析)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 事务文书

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com