基于CiteSpace的数据资产研究知识图谱分析
Knowledge Map Analysis of Data Assets Research Based on CiteSpace

作者: 赵楚涵 :对外经济贸易大学信息学院,北京; 张凝琛 :澳门科技大学资讯科技学院,澳门;

关键词: 数据资产管理知识图谱数据治理数据价值Data Asset Management Knowledge Atlas Data Governance Data Value

摘要: 数据已被看作为新的生产要素,数据资产的研究引起了学者们的关注,梳理数据资产领域研究线索,可以进一步帮助学者把握未来的研究方向。本文利用CiteSpace软件对中国知网、web of science数据库1997~2020年数据资产相关文献进行分析,通过关键词知识图谱分析国内外相关研究主线。国内外发文量总体呈上升趋势,2015年后国内数据资产领域研究热度快速增长。国内外研究的聚焦点略有差异,国内研究主要关注政府来源数据,倾向于建立一体化数据治理体系,提供敏捷数据服务,数据资产管理聚焦于数据安全、数据权属规则设计、数据资产价值评估与数据资产审计。而国外研究主要关注来源于智慧城市建设的数据,数据资产管理聚焦于利用分布式访问等技术保证数据权属、数据资产交易和安全。

Abstract: Data have been regarded as a new factor of production. The research of data assets has attracted the attention of scholars. Combing the research clues in the field of data assets can further help scholars grasp the future research direction. This paper uses CiteSpace software to analyze literatures related to data assets in CNKI and web of science databases from 1997 to 2020, and analyzes the main research lines at home and abroad through keyword knowledge map. The number of documents published generally shows an upward trend, especially after 2015, the research heat in the field of data assets increases rapidly in China. Also, the focus of domestic and foreign research is slightly different. Domestic research mainly focuses on government source data, tends to establish an integrated data governance system to provide agile data services, and data asset management focuses on data security, data ownership rule design, data asset value evaluation and data asset audit. Foreign research mainly focuses on the data from smart city construction, and data asset management focuses on using distributed access and other technologies to ensure data ownership, data asset transaction and security.

1. 引言

随着移动互联网、云计算、人工智能等新技术的涌现,数据井喷式增长,数据成为数字经济时代除劳动力、资本、土地、技术之外新的生产要素,推动着经济的增长,据中国信息通讯研究院统计,2019年中国数字经济增加值达到35.8万亿元的规模,占全国GDP总量的36.2%,同比提升1.4个百分点,仅次于美国。在新冠疫情背景下,全球经济大幅衰退,数字经济却实现了逆势上扬,数据要素的推动作用不可忽视。数据作为生产要素可视为资产投入,具有资产及价值属性,数据资产的研究得到了学者们极大的关注,但目前的研究还有待进一步提升和探索。本文采用CiteSpace工具构建数据资产知识图谱,对中国知网、web of science数据库1997~2020年数据资产研究成果进行梳理,绘制发文统计图、关键词共现图、聚类图,总结分析数据资产领域研究趋势、研究内容,为后续研究提供参考。

2. 研究方法与数据来源

科学知识图谱是以知识域为对象,显示科学知识的发展进程与结构关系的一种图像,绘制科学知识图谱的工具有很多种,包括CiteSpace、VOSviewer、SPSS等。CiteSpace是由陈超美教授团队研发的一款信息可视化软件,基于共引分析理论和寻径网络算法绘制一系列可视化图谱,展示学科领域发展的关键路径和知识拐点,分析学科领域演化机制和探索学科发展前沿。本文选用CiteSpace工具的最新版本5.7.R2绘制数据资产领域知识图谱,通过解读知识图谱,探索数据资产领域的研究进展。一般用CiteSpace分析的中文数据库有CNKI和CSSCI,以数据资产为关键字,在CSSCI数据库中对标题、关键字、正文检索,时间范围设置为1997~2020,检索到的数据资产领域文章仅有33篇,于是将检索范围扩大至CNKI数据库,同样以数据资产为关键字,搜索SCI、EI、北大核心、CSSCI、CSCD来源期刊,共检索到241篇期刊文献,对检索文献进行初步阅读,删除会议介绍、赛题介绍、简讯等类型文献,最后共得到232篇中文文献。CiteSpace分析的外文数据库有web of science,其核心合集数据库收录了12000多种世界权威的、高影响力的学术期刊。在web of science核心合集中,以“data asset*”为主题进行检索,共获得219篇文献,时间跨度为1997~2020。

3. 发文数量分析

对发文数量进行分析,有助于了解数据资产领域研究热度变化情况。国内数据资产领域的研究可分为平稳期、发展期和快速发展期,如图1所示。1998年提出数据资产相关概念,1998~2011年发文数量维持在低水平,期间数据资产领域的研究处于平稳期。2011年开始发文数量出现向上波动,2012年为大数据启蒙之年,大数据风潮带动了与之相关的数据资产领域发展,2011~2017年发文数量呈现上升趋势,热度逐渐增长,进入发展期。2018年发文数量出现一定下降,通过分析文献的研究主题发现2017年文献主要围绕着大数据、数据治理,而2018年研究主题为数据资产价值的文献开始增多。2018~2020年文献发表增长曲线陡峭,2020年国内关于数据资产领域的文章共有约69篇,同比增长40.8%,数据资产领域研究进入快速发展期。国外数据资产的研究早于国内,2015年之前的发表文献数量高于国内发文数,但2015年之后,国内数据资产研究热度与输出成果超过国外。

Figure 1. Number of papers on data assets

图1. 数据资产论文数量

4. 国内数据资产研究关键词分析

4.1. 关键词共现

关键词是一篇文章核心内容的提炼,关键词多次出现表明有较多学者关注此类研究方向,通过高频词关键词,可以了解数据资产领域的热点研究内容和方向。将来自知网的232篇文献导入CiteSpace,节点设置关键词共现分析,时间跨度为1997~2020年,时间切片定为24,进行Pathfinder、Pruning sliced networks和Pruning the merged networks的网络剪裁,得到了国内关键词词频分布表、关键词共现图,其中节点大小与发文数量成正相关,节点连线粗细代表关键词之间的联系程度,如图2所示。共现图中有106个节点、142条连线,连接密度为0.0255,关键词数量较合理,关键词之间有明显的结构关系。

表1显示的国内数据资产文献关键词词频分布可以看出,除了研究主题数据资产外,“大数据”、“数据治理”、“数字经济”、“数据资产管理”、“数据管理”、“数据资源”、“大数据资产”、“数字化转型”、“数据安全”等属于高频关键词。“区块链”、“高校”、“数据开放”等关键词也被学者关注,为了实现数据安全可靠的共享,利用区块链技术,设计数据共享平台架构与模型 [1],解决基于中心化的数据共享方式存在的数据易被篡改的安全性风险。同时,学者们也设计基于区块链的数据资产交易体系,解决数据交易过程中存在的个人数据难以确权、不能保证数据资产质量、数据资产价值转移无法高效完成等问题 [2]。“高校”一词的出现是由于学者对高校教学、科研、管理等活动中产生的数据资产的关注,学者们建议借鉴美国高校数据治理方式,在高校找准自身定位、提升治理水平、规划发展路径方面发挥数据资产应用价值 [3]。大数据时代,数据不断开放与共享,学者们关注在数据开放过程中的战略价值、实施路径、隐私保护政策、数据安全等问题。有学者通过分析美国数据战略,针对中国政府数据开放中缺乏顶层设计、实施路线图、法律法规等问题,建议从国家层面立法,一方面确定数据安全等级和开放条件,同时在促进共享防范风险上,建立数据共享绩效考核标准、明确共享机构管理职责 [4]。

Figure 2. Keyword co-occurrence map of domestic data assets research from 1997 to 2020

图2. 1997~2020年国内数据资产研究的关键词共现图谱

Table 1. Keyword frequency of domestic data assets research from 1997 to 2020

表1. 1997~2020年国内数据资产研究的关键词词频

4.2. 关键词聚类

通过关键词聚类对国内数据资产领域热点研究内容进行分析,将关系较为紧密的关键词聚合,显示主要研究线索。在CiteSpace关键词共现的基础上进行聚类,聚类指标显示Q = 0.8039 > 0.3,聚类结构显著,S = 0.9367 > 0.5,聚类划分合理。如图3所示,主要聚类为#大数据、#数据体系、#数据资源资产、#密切值法、#数据资产框架、#智慧校园、#区块链等。

Figure 3. Keyword clustering of domestic data assets research from 1997 to 2020

图3. 1997~2020年国内数据资产研究的关键词聚类

#0聚类有15篇文献,聚类标签为“大数据”,重要的关键词有数据安全、数据价值等。作为一种时代背景,对现有数据量、数据技术描述的文献出现频次较高,正是由于数据量突增、大数据的出现,形成了大数据–数据安全–数据价值等研究线索。数据作为数字经济的关键生产要素,具有经济属性、价值属性,数据不再是业务运营中出现的副产品,而应当逐渐成为推动业务发展的核心资源,此时保障数据安全及隐私与挖掘数据价值受到不断关注和重视 [5]。李启雷(2020)对航运大数据管理实际应用分析后认为存在着数据安全监管规则缺失、数据资产价值评估困难等难点,数据交换过程中数据的保密性问题、分级保密机制、数据溯源、数据脱敏是数据安全隐私中需要注意的问题,在数据的估值和利益分配中数据价值不仅体现在存储体量,也体现在其价值密度和分挖掘后的产出价值 [6]。盛小平等(2020)认为数据开放共享与数据安全治理就像硬币的两面,人们对数据开放共享、数据安全治理等主题分别进行了深入研究,但很少有论述科学数据开放共享中的数据安全治理问题,因此其从数据机密性问题、完整性问题、可用性问题三方面探讨该问题,从而建立数据安全治理体系 [7]。

#1聚类有13篇文献,标签为数据体系,较为重要的关键词有数据标准化、数据仓库、数据中台、数据生命周期、数据质量管理。代表性的是杨敏等(2020)基于数据中台的数据体系,进行全域数据管理,并提供数据服务,将业务数据化的数据在数据中台内业务化、资产化,将数据融入业务创造价值 [8]。利用数据中台技术将传统数据仓库和数据管理框架融合,提升数据资产利用效益,未来可利用人工智能技术进一步驱动数据资产的智能管理。

#3聚类有10篇文献,主要研究内容数据资源资产,聚类中比较重要的关键词有制度保障、立法、数据权属、政务数据等。学者们将政务数据资源看作第三类资产,即数据资源资产,并且关注政务数据资源的权属原则设计,在数据源获取和数据开放利用过程中,不同主体对数据有不同的数据权属主张,这与公民隐私权存在一定冲突 [9]。针对政务数据开放共享中存在的权属原则等问题,部分学者认为缺乏立法和制度供给,提议借鉴美国《开放政府数据法》,加快我国政府数据开放进程,建立数据权力保护与数据开放流动的平衡机制 [10]。

#4聚类有10篇文献,主要研究内容是密切值法,比较重要的关键词有价值挖掘、价值评估。贡献较大的文献是利用密切值法确定多个企业权重,改进B-S模型使其适用于多个对象的数据资产价值评估 [11]。倪渊等人发现基于AGA-BP神经网络的数据资产价值评估方法比GA-BP神经网络、BP神经网络性能提升明显,具有更好的价值评价效果 [12]。但上述研究受指标量化和数据本身限制,选取的数据资源价值影响因素有限,还有许多影响数据资产价值的因素需要探讨,同时需要进一步探索机器学习在数据资产价值评估领域的应用。

#5聚类有10篇文献,主要关于数据资产框架研究,重要关键词有数据管理、数据资产审计。卫军朝等(2016)的数据资产框架下的机构数据资产审计 [13],分析了国外基于数据资产审计的理论和实践,为我国开展数据资产审计提供了参考。华烨等(2020)针对烟草企业提出新的数据管理方法,实现主数据管理、数据管控平台、数据共享管理进行创新 [14]。

5. 国外数据资产关键词分析

5.1. 关键词共现

在CiteSpace导入web of science数据库的219篇文献,节点设置关键词共现分析,Time Slice选择1997~2020年,时间切片定为24,进行Pathfinder、pruning sliced networks 和 pruning the merged networks网络剪裁。关键词词频分布如表2所示,大数据、区块链、信息安全、模型、系统、风险、框架、安全等属于高频关键词。大数据、区块链的词频明显高于其他关键词,表明研究热点较为集中。关键词共现如图4所示,有88个节点、130条连线,连接密度为0.034,关键词数量较合理,关键词之间有明显的结构关系,但也存在着独立关键词。

Table 2. Keyword frequency of abroad data assets research from 1997 to 2020

表2. 1997~2020年国外数据资产研究的关键词词频

5.2. 关键词聚类

关键词聚类图谱如图5所示,聚类指标Q = 0.7305、S = 0.7829,说明聚类结构显著、划分合理、符合科学聚类的标准,最终形成的关键词聚类依次是:#智慧城市、#分布式访问控制、#大数据、#比特币、#数据治理等。

Figure 4. Keyword co-occurrence map of abroad data assets research from 1997 to 2020

图4. 1997~2020年国外数据资产研究的关键词共现图谱

Figure 5. Keyword clustering of abroad data assets research from 1997 to 2020

图5. 1997~2020年国外数据资产研究的关键词聚类

#0聚类有15篇相关文献,聚类标签为智慧城市,重要的关键词有物联网、创新、数字经济、工业。代表性的文献是Gutierrez(2016)等人的研究 [15],学者们认为有必要利用信息通信技术建设智慧城市,提高管理城市的敏捷性,从不同城市和城市公用事业服务中提取数据源,建设城市数据存储库,提供给各类利益相关者使用,探索数据资产平台建设与共享。针对智慧城市建设中的交通拥堵问题,Faixo F H等(2020)提出利用可编程经济(PE),在各种车辆中使用IOT、智能合约,把城市中的车辆空间等数据资产化,管理协商车辆进入特定领域,创造新的价值交换场景 [16]。

#1聚类有12篇文献,聚类标签为分布式访问控制。聚类中贡献较大的一篇文献提出当前许多服务平台(CMaas)都是集中式的,数据需要流经客户和服务商之间的中间代理,若实现了客户与服务商的直接连接,可以提升透明度、数据完整性,并且可以保证数据所有权保留给创造者 [17]。Hussain等(2020)认为用户在云上共享数据,失去了对数据的所有控制权,而基于云的存储提供商应当提供数据版权管理(DRM),保护存储在云中的用户数据资产,提出利用雾计算的数据版权管理 [18]。可以看出,分布式访问控制研究主要是解决数据资产在流通交易中的所有权问题,通过分布式访问控制数据所有权的归属。

#2聚类有11篇文献,聚类标签为大数据。大数据是数据资产的时代背景,针对空间大数据,Wang等(2014)提出了融合地理以及大数据特征的空间大数据挖掘技术,从总体数据而不是样本认识世界,发现大数据价值,定位数据资产 [19]。而Khatri等(2016)强调掌握业务决策与理解企业数据资产交织的重要性,对比分析了面向业务与面向数据两种数据透视图,面向数据的视角关注处理和分析企业数据的过程,最终产生支持决策的见解 [20]。

#3聚类有11篇文献,聚类标签为比特币,重要的关键词为区块链。区块链主要来解决分布式数据资产访问与交易,确保数据资产的安全与交易的可靠性。Chuang等(2020)提出了基于区块链的多接入边缘计算的物联网经济系统,交易过程由分层区块链上的智能合约自动执行,确保了数据资产交易的可靠性与自动化 [21]。Sifah等(2018)提出基于链外的主权区块链,相对于传统区块链技术,既能保护数据安全,又能减少存储在网络中的数据量 [22]。此外,在选择区块链平台进行数据资产管理及交易时,Zhou等(2020)建立了三级指标体系评估区块链动态性能,提升区块链整体绩效 [23]。

#5聚类有8篇文献,聚类标签为数据治理。代表性的是Hannila等(2019)的研究,他们提出基于数据驱动的产品组合管理方法,治理公司数据,发挥公司数据资产的作用 [24]。

6. 国内外研究内容对比分析

基于以上分析,得出国内外主要研究线索如表3所示。国内外的研究都处于‘大数据’背景下,将大数据看作一种资源,期望实现其价值。从表3的研究线索可知,国内外的研究在以下几个方面存在差异:

1) 国内数据资产管理逐渐倾向建立全域数据管理体系,不单独进行数据治理,将数据服务与业务分析统一在同一系统,对不同业务提供数据服务,快速、准确地实现业务要求。

2) 国内研究主要关注来自政府的数据资源,从一定程度上也反映出国内数据开放共享还处于初级阶段,需要政府牵头引领社会主体协同开放数据。国外研究主要关注来自智慧城市建设过程中产生的数据,对这些数据进行开放共享,实现数据资产交易。

3) 国内数据资产管理除集中在数据权属规则设计、数据安全外,还涉及数据资产价值评估、数据资产审计等。国外数据资产管理主要围绕数据资产的权属控制、数据资产安全。

4) 国内外研究内容都涉及数据资产权属规则设计以及数据安全,国外主要探讨从分布式访问技术、区块链技术上解决以上问题。国内研究则集中在立法、制度保障解决数据权属问题,从理论层面探讨数据安全治理体系设计。国内也有学者利用区块链等技术解决数据资产安全以及权属规则设计问题,但研究数量较少,研究进程稍有落后。

Table 3. Main research clues of data assets

表3. 数据资产主要研究线索

7. 总结

为了把握数据资产领域研究脉络,本文利用CiteSpace工具对数据资产相关文献进行梳理,对比分析了国内外数据资产的研究线索和热点,发现国内外的研究在数据治理体系、数据资源来源、数据资产管理、数据资产管理进程等方面还是存在一定差异的。未来国内研究可以从以下几个方面深入:

1) 进一步数据开放与共享。数据开放与共享是数据资产进行交易流通的基础,目前数据管理面临的困境仍需要科研人员进一步解决,在确定数据权属、保证数据安全的情况下,以政府数据开放共享带动其他领域数据资产开放共享。

2) 探索技术层面上解决数据权属、数据安全问题,如分布式访问技术、区块链技术。

3) 继续推进全域数据管理。将业务数据化与数据业务化集成在统一平台上,建设数据中台,提高业务反应敏捷性,提升数据资产的价值。

4) 针对具体的应用领域,探索数据资产价值评估方法。数据的价值体现在应用场景,根据不同的应用场景和数据资产特色,建立不同的数据资产价值评估方法,进一步探索机器学习、深度学习技术在数据资产价值评估的应用。

5) 数据资产的研究还处于理论阶段,数据资产交易机制,特别是数据资产的定价机制的探索还较少,产业界已有相关数据交易平台,如贵阳大数据交易平台、上海数据交易中心等,未来进一步加强学术和产业界的合作,探索数据资产交易机制与平台设计,促进数据资产的流通。

NOTES

*通讯作者Email: 1809853pi011001@student.must.edu.mo

文章引用: 赵楚涵 , 张凝琛 (2021) 基于CiteSpace的数据资产研究知识图谱分析。 服务科学和管理, 10, 165-174. doi: 10.12677/SSEM.2021.106023

参考文献

[1] 程骏超, 张驰, 何元安. 区块链技术在跨部门海洋数据共享中的应用[J]. 科技导报, 2020, 38(21): 60-68.

[2] 盛念祖, 李芳, 李晓风, 赵赫, 周桐. 基于区块链智能合约的物联网数据资产化方法[J]. 浙江大学学报(工学版), 2018, 52(11): 2150-2158.

[3] 彭雪涛. 美国高校数据治理及其借鉴[J]. 电化教育研究, 2017, 38(6): 76-81.

[4] 杨晶, 康琪, 李哲. 美国《联邦数据战略与2020年行动计划》的分析及启示[J]. 情报杂志, 2020, 39(9): 150-156 + 94.

[5] 沈一飞, 郭笑雨. 数字经济与金融数据治理[J]. 中国金融, 2020(22): 32-33.

[6] 李启雷. 航运大数据管理及其在公共服务领域的应用[J]. 浙江大学学报(人文社会科学版), 2015, 45(3): 16-24.

[7] 盛小平, 郭道胜. 科学数据开放共享中的数据安全治理研究[J]. 图书情报工作, 2020, 64(22): 25-36.

[8] 杨敏, 何海涛, 张永强. 基于数据中台的校园数据体系设计与建设[J]. 深圳大学学报(理工版), 2020, 37(z1): 95-100.

[9] 张鹏, 蒋余浩. 政务数据资产化管理的基础理论研究: 资产属性、数据权属及定价方法[J]. 电子政务, 2020(9): 61-73.

[10] 翟军, 李昊然, 孙小荃, 李剑锋. 美国《开放政府数据法》及实施研究[J]. 情报理论与实践, 2020, 43(8): 202-207 + 177.

[11] 翟丽丽, 王佳妮. 移动云计算联盟数据资产评估方法研究[J]. 情报杂志, 2016, 35(6): 130-136.

[12] 倪渊, 李子峰, 张健. 基于AGA-BP神经网络的网络平台交易环境下数据资源价值评估研究[J]. 情报理论与实践, 2020, 43(1): 135-142.

[13] 卫军朝, 蔚海燕. “数据资产框架(DAF)”视角下的机构数据资产审计调研与分析[J]. 图书情报工作, 2016, 60(8): 59-67+92.

[14] 华烨, 王莉. 烟草企业数据资产管理方法研究及实践[J]. 中国烟草学报, 2020, 26(5): 114-122.

[15] Gutiérrez, V., Theodoridis, E., Mylonas, G., et al. (2016) Co-Creating the Cities of the Fu-ture. Sensors, 16, Article No. 1971.
https://doi.org/10.3390/s16111971

[16] Faixo, F.H., Arroyo, X., López-Jurado, M.P., et al. (2020) Digital and Programmable Economy Applications: A Smart Cities Case by Fuzzy Sets. Journal of Intelligent and Fuzzy Systems, 38, 5391-5404.
https://doi.org/10.3233/JIFS-179632

[17] Hasan, M. and Starly, B. (2020) Decentralized Cloud Manufactur-ing-as-a-Service (CMaaS) Platform Architecture with Configurable Digital Assets. Journal of Manufacturing Systems, 56, 157-174.
https://doi.org/10.1016/j.jmsy.2020.05.017

[18] Hussain, A., Kiah, M.L.M., Anuar, N.B., et al. (2020) Perfor-mance and Security Challenges Digital Rights Management (DRM) Approaches Using Fog Computing for Data Prove-nance: A Survey. Journal of Medical Imaging and Health Informatics, 10, 2404-2420.
https://doi.org/10.1166/jmihi.2020.3178

[19] Wang, S.L. and Yuan, H.N. (2014) Spatial Data Mining: A Perspec-tive of Big Data. International Journal of Data Warehousing and Mining, 10, 50-70.
https://doi.org/10.4018/ijdwm.2014100103

[20] Khatri, V. (2016) Managerial Work in the Realm of the Digital Universe: The Role of the Data Triad. Business Horizons, 59, 673-688.
https://doi.org/10.1016/j.bushor.2016.06.001

[21] Chuang, I.H., Huang, S.H., Chao, W.C., et al. (2020) TIDES: A Trust-Aware IoT Data Economic System with Blockchain-Enabled Multi-Access Edge Computing. IEEE Access, 8, 85839-85855.
https://doi.org/10.1109/ACCESS.2020.2991267

[22] Sifah, E.B., Qi, X., Agyekum, O., et al. (2018) Chain-Based Big Data Access Control Infrastructure. The Journal of Supercomputing, 74, 4945-4964.
https://doi.org/10.1007/s11227-018-2308-7

[23] Fan, C., Ghaemi, S., Khazaei, H., et al. (2020) Performance Evaluation of Blockchain Systems: A Systematic Survey. IEEE Access, 8, 126927-126950.
https://doi.org/10.1109/ACCESS.2020.3006078

[24] Hannila, H., Koskinen, J., Harkonen, J., et al. (2019) Prod-uct-Level Profitability—Current Challenges and Preconditions for Data-Driven, Fact-Based Product Portfolio Manage-ment. Journal of Enterprise Information Management, 33, 214-237.
https://doi.org/10.1108/JEIM-05-2019-0127

分享
Top