图片
CiteSpace有一个亮点就是将时间因素加入到了知识图谱的绘制之中。先划分时间段,然后再合并起来一起分析,如关键词时区图,有些文章将其命名为主题演化图,其实不太合适,该图本质呈现的是关键词的一种演化关系,而不是主题的演化。
主题演化应该是主题间的关系,如TE软件所做出的科学主题演化图,或者利用ST软件分时间区间做的战略坐标(主题类型的划分),见下图。
本文主要讲解一下CiteSpace绘制的关键词时区图,即关键词的时区图是怎么生成的,其他高级图谱以后再讲。
上图的数据集时间区间是1998-2018
图片
圆圈
图中的每一个圆圈代表一个关键词,该关键词是在分析的数据集中首次出现的年份【注意:是此数据集中首次出现,并不是关于此主题的所有数据中】。
关键词一旦出现,将固定在首次出现的年份,尽管之后论文里仍会出现该关键词,图中将不再显示,只会在最早出现的年份显示。
如果后来的年份又出现了该关键词,那么该关键词会在首次出现的位置频次加1,出现几次,频次就增加几次。所以就可以解释为什么1998年,文献量很少,而关键词“数据管理”和“高校图书馆”圆圈这么大的原因了。
因为,之后论文关键词中出现的“数据管理”和“高校图书馆”均在1998年进行了累加。
此种方法合不合理呢?
如果一个关键词在1998年出现一次,之后几年没出现,而在2012年出现了80次,那么软件会把该关键词归到1998年,显然结果是不合理的,因为存在异常情况。当然,既然是异常,现实情况出现几率不是很大。
该图显示的仅仅是目标领域关键词首次出现的时间和从整体视角来看的研究热点(研究热点通过关键词频次显示,但是CiteSpace统计的频次是阈值裁剪后的频次,并不是总频次,见推文:CiteSpace关键词共现图谱含义详细解析与注意事项)。
该图无法反映这些热点(关键词)的大致年份分布,如果需要反映研究热点的平均年份分布此时CiteSpace就无能为力了,需要借助COOC或VOSviewer软件进行图谱绘制,其中COOC也可以绘制时区图,具体见下文。
图片
线条
圆圈代表着关键词,线条代表着关键词之间的联系。但在该图中线条存在的意义并不大,不是我们分析的重点。
这里的线条就是关键词之间的共现关系。
例如1998年的“数据管理”和2008年的“科学数据管理”同时出现在了2008年的某一篇论文中,那么“数据管理”和“科学数据管理”之间便存在一条联系,这条线从1998年连到了2008年。
连线表示两关键出现在同一篇或多篇文章中。
总结:
时区图中的每个时间段均是该时间段的所有新出现的关键词,如果与前期关键词共同出现在同一篇文章中将会用线联系起来,前期关键词频次加1,圆圈变大,从而生成此图。该图确实能够从整体上反映研究路径的变化,但如果想要更全面的反映路径变化还需要结合关键词加权时区图、逐年关注度变化、逐年增长率变化和时间加权研究热点变化等图。当然我们也可以逐年统计关键词的变化趋势,来反映研究热点的变化,如SE软件绘制的关键词演进图。
图片
图片
图片
图片
图片
存在的问题1
CieSpace绘制的时区图有一个问题,就是每个时间区间展示的关键词数不能太多,否则图就会很乱,比如本文开头我们做的图,虽然看着挺不错的,但是每个时间区间所展示的关键词数有限(PS.这张图竟被很多人盗用,用于他们的宣传),特别是最新出现的关键词由于频次相对较低,无法在图中显示出来,使我们无法挖掘出最新的前沿。
上文说了,在时区图中线条存在的意义并不大,不是我们分析的重点。所以我们可以利用COOC软件的时区图功能进行绘制,虽然COOC做出的时区图没有CiteSpace好看,但其展示的每年关键词数以及最前沿关键词方面优于CiteSpace,见下图。
图片
该图也是关键词时区图,但是其可以全面反映更多的关键词以及最新关键词,而不仅仅是那些高频关键词。
图片
存在的问题2
这里还存在一个十分严重的问题,很多CiteSpace新手甚至老手都不知道,导致已经发表的很多论文存在问题。即利用不清洗的数据直接作图会导致关键词首次出现时间错误。
因为随着网络首发的推广,很多最新的论文缺失年份信息,而CiteSpace会把缺失年份的论文默认设置为1900年,导致出错。
下面,我们先来了解下网络首发出版模式。网络首发出版模式对文献计量的影响不容低估!
什么时网络首发?
网络首发论文被认定为正式出版论文。经编辑部和《中国学术期刊(光盘版)》电子杂志社审核,可在中国知网提前在线发布。案例图如下:
图片
网络首发的好处?
发表时间不受纸刊限制,出版容量也突破了传统纸刊的束缚。便于研究成果快速传播和使用。
网络首发对文献计量的影响?
【1】重复问题
有时知网里同一篇文章会同时出现【网络首发】和【非网络首发】两条题录,导致在做文献计量分析时重复统计,而现有软件没法去重。
【2】时间问题
网络首发题录信息里没有时间,导致做文献计量时出现错误,而现有软件没法解决。COOC软件除外。
做文献计量分析时,以上两个问题一定要注意,否则会出现严重错误。比如,由于网络首发缺失时间,CiteSpace软件会将2022年网络首发的文献默认设置为1900年,而Vosviewer在做时间关键词分析时也不会考虑这种问题。另外,上述软件均没法进行去重。
而很多文献计量的文章(包括已经发表的文章)经常不注意以上两点,不知道自己做的其实是错误的分析。
针对上述两个问题的解决方案:
(1)利用COOC最新版软件去重
(2)利用COOC最新版软件提取,补充时间即可。
最后且最重要的:
做文献计量数据预处理阶段的5大问题,见推文:CiteSpace关键词共现图谱含义详细解析与注意事项
以后再做文献计量所用的软件应该是COOC+CiteSpace或者COOC+VOSviewer。如果你想做出更好看的网络图谱,还需要结合NSS软件。如果你有一些文本型数据,但是想用CiteSpace、VOSviewer等软件作图,那么你还需要结合TM文本挖掘软件。