在信息科技转向物联网之际,一个全新的万物互联时代即将到来,到2020年将有高达几百亿的智能设备连接互联网。
我们希望通过大数据交易行业现状的分析与梳理,探索我国未来大数据交易产业健康良性的发展之路,为国家大数据应用和产业发展做出积极贡献。
从可穿戴设备到智能家居,再到智慧城市、互联工厂等等,这些智能设备产生的海量数据在更为先进的算法及运算能力推动下将为社会创造出更多新的价值。
大数据产业已形成庞大的产业生态,我国大数据产品和服务业务收入规模已超万亿元。
(来自中国大数据产业链生态白皮书)
数据集作为大数据产业的基础资料,已经成为企业核心竞争力的一个重要方面。
数据集的构成一方面是纵向同类数据大量的聚集,以生成更为精准的模型,比如医学影像领域的智能辅助阅片软件,当有越多同一病种大量患者的医学影像作为训练集时,模型输出的结果也将更为准确;
另一方面是横向跨领域的数据集合,以塑造出多维度的立体模型,如同时分析同一用户的个人基础数据、银行数据、运营商数据、社交数据等等,可以建立更为立体丰富的用户画像。
(来自中国大数据产业链生态白皮书)
但数据体系是多样化的,不同维度的数据留存在各行各业,如电信、交通、消费、金融、制造等等。
数据的存储及管理形式也是分散的,如人口、自然资源等相关基础数据由政府各部门统筹管理使用;
行业领域数据由企业和政府分别管理使用,如银行存储和管理账户数据、流水情况;
运营商存储和管理用户的通讯数据和位移数据,社交网络存储和管理的是用户的社交数据等等。
不同行业之间,同行业内不同企业之间,甚至同一企业不同业务部门之间的数据孤岛现象普遍存在。
大型企业拥有大量资源来整合数据:
亚马逊已抓取50亿网页的数据,其物流中心有超过50万张产品的JPEG图像和相应的JSON元数据文件,每日监测全球广播、印刷物、网络新闻的记录超过40亿份。
谷歌拥有最大存储库的数据集之一,数据达10-15Exabyte;
阿里巴巴的数据存储已经逼近EB(大数据存储单位)级别,部分单张表每天的数据记录数高达几千亿条。
巨头仍在不惜重金通过投资并购以获得数据。
亚马逊2017年6月宣布以130亿美元并购知名有机超市Whole Foods,可说是一项着眼于大数据的交易;
IBM 2016年2月以26亿美元的价格收购医疗保健和分析提供商Truven Health Analytics,此举为2年内IBM进行的第四笔与健康数据有关的收购,总投入超过40亿美元;
阿里巴巴早已把自己定位为数据公司,阿里资本在文化娱乐、金融领域、电子商务三个方向投资重金,分别高达300亿、269亿、223亿,连同其他业务,早已成为国内最大的数据运营者之一。
对于无力通过自建/投资并购方式获取数据的广大中小企业,数据购买及交易是其备选渠道,但应注意相关法律风险。
目前针对用户信息的非法收集、窃取、贩卖和利用行为猖獗,中国互联网协会发布的《中国网民权益保护调查报告(2016)》显示,我国6.88亿网民因垃圾短信、诈骗信息、个人信息泄露等造成的经济损失达915亿元,人均为133元。
初创公司为更加合理的获取数据,除主营业务外,会开展一部分业务用于获取数据、留存数据,如医疗行业内,开展辅助诊断业务的公司也会同步发展一些协同的科研项目或相关的医疗资源管理项目。
除数据获取挑战外,因各企业各部门对数据的留存、处理方式存在差异,企业也将面临较高的数据获取后的整合成本。
自2015年,大数据上升为国家发展战略开始,国家政策不断引导、鼓励和推动发展大数据交易机制。
以在合法、合规,保障数据安全的前提下,建设完善基础设施,解决数据交易过程中公允定价、交易标准、数据传输等关键问题。
全国各地相继成立大数据交易所,包括贵阳大数据交易所、上海数据交易中心、武汉东湖大数据交易中心等等,以数据堂、美林数据、爱数据等为代表的数据资源企业也取得快速发展。
阳光的数据交易逐步落地,随着数据交易类型的日益丰富、交易环境的不断优化、交易规模持续扩大,我国数据互联、变现能力显著提高。
《2016年中国大数据产业白皮书》中预计2020年国内大数据交易市场规模将达到545亿元,相对集中分布在政府、金融、教育、电信、医疗等行业。
(来自贵阳大数据交易所)
数据交易业务目前主要有两种业务模式,一种是以贵阳大数据交易所、上海数据交易中心等为代表的平台模式,另一种是以数据堂等为代表的自营模式。
在平台模式下,平台本身不拥有数据,而是通过让供需双方加入平台。
供方发布数据、需求方提交数据需求,平台发挥数据质量认证、数据格式标准化、数据金融工具的作用,提供数据脱敏、质量控制、安全控制等基础服务,数据清洗、建模、分析、可视化技术等增值服务,协助数据供方将数据变成可以交易的资产。
交易平台同时提供交易定价、支付结算、数据传输等服务,保障数据供需双方交易完成并获得交易佣金。
(来自联新团队整理)
在自营模式下,企业通过众包、外购、公共机构共享、网络采集等方式获得数据,利用自身技术对数据进行清洗、建模、可视化等,建立数据产品,提供予数据需求方。
自营模式下,企业可以通过扩大数据获取、深度挖掘数据价值以丰富数据产品及提升单数据价值而提升数据服务能力;但由于在自营模式下数据将经企业流转,企业应注意防范数据泄漏及隐私保护相关法律风险。
(来自中国大数据产业生态白皮书)
数据交易仍处起步阶段,面临基础配套不完善、市场及产品分散等挑战。
1配套措施不够完善
目前国家层面数据交易相关明确的法律法规尚未推出,也缺少专门的监管部门,这导致地方各类型的数据交易平台在建设过程中自行摸索标准体系,在发展进程上有所顾忌,谨慎前行,发展速度受到一定程度的影响。
2市场碎片化程度比较高
根据《中国大数据产业生态白皮书》的统计,51.61%的数据交易平台收入在500万以下,收入1亿元以上的数据交易平台仅占6.45%。
多个分割的市场不利于数据大量的汇聚,不同交易平台之间数据缺乏流动性,难以真正实现平台化、规模化、产业化的发展,难以实现数据交易平台的优势。
(来自中国大数据产业生态白皮书)
3数据产品碎片化程度比较高
以发展阶段相对领先的贵阳大数据交易所为例,截至2017年10月,交易所交易额累积突破1.2亿元,可交易数据产品4000个,可交易的数据总量超过150PB,即平均交易单品交易金额2万/年,每PB产生交易额不足80万元。
“粗放式”的原始数据产品难以满足数据需求方个性化需求,数据需方面临较大的数据整合成本,是导致该现象的主要原因。数据产品过低的交易规模和频次也不利于数据平台组织交易。
数据交易平台正在探索灵活的产品形式,如华中大数据2016年7月上线了以“活数据”交易为主的大数据交易平台。
“活数据”即实时数据,API是实时数据接口,数据提供方通过接口调用的方式向需要方提供,同时华中大数据交易平台上提供了API调试工具、接口地址和统一格式的请求参数等信息,方便数据需求方快速理解和使用。
上海数据交易中心于2017年发布数据金融产品——CRP(中国企业信用风险画像库),CRP使用方可以在平台上选择高质量数据,并通过一点实时数据接口,从多源供方获得自身业务运行所需的数据,用于训练调校业务算法模型,多维度刻画企业信用风险,为金融业务持续发展提供基础数据服务。
随着数据交易需求不断激增,相关政策的逐渐落地,市场必将出现引领行业发展及整合市场的数据交易平台。
在保障数据安全的前提下,真正实现数据的采集、处理、定价、传输等,充分发挥数据交易平台的实质优势。
数据交易平台将通过结合自身资源情况探索个性化的发展道路,一方面可拓宽数据来源渠道,激活“长尾数据”,丰富数据产品提供方式,增加供方数据特色,另一方面可能围绕数据需方需求划分层级,通过“深加工”的产品形式,向相对集中的产品需求提供个性化定制服务等,降低数据需方整合数据成本的同时提高单位数据的交易频次、交易规模,提升数据交易平台的竞争优势。
国务院总理李克强在中国大数据产业峰会上曾表示,中国超过80%的数据在政府手中。因此各地数据交易平台建设也离不开政府的支持。
联新资本于2016年参与发起成立了上海数据交易中心。
上海数据交易中心是经上海市人民政府批准,上海市经济和信息化委、上海市商务委联合批复成立的国有控股混合所有制企业。
作为上海市大数据发展“交易机构+创新基地+产业基金+发展联盟+研究中心”五位一体规划布局内的重要功能性机构,承担着促进商业数据流通、跨区域的机构合作和数据互联、政府数据与商业数据融合应用等工作职能。
联新资本将同上海数据交易中心一起推动泛长三角地区乃至全国数据交易机构的互联互通和深度合作,形成健全规范的商业数据流通、交换机制,共同促进商业数据资产流通、充分释放数据资源衍生产品红利,为国家大数据应用和产业发展做出积极贡献。