更新时间:2019-10-25 12:01点击:
最近,整个大数据产业迎来多事之秋。从今年9月开始,多家数据企业先后被曝出负责人被查或公司暂停营业的消息,很多公司因此面临严重的生存危机。
近一个多月以来,杭州、深圳等多地公安出动警力,带走多家大数据风控平台高管协助调查。一时间,整个数据行业风声鹤唳,从业者人人自危。
那么,形成这一问题的原因是什么?有关部门又该如何对数据行业进行有效治理?
制度建设滞后致问题频出
随着大数据技术的发展和成熟,数据逐渐成为一种十分重要的生产要素,通过对数据进行分析,相关从业者可以挖掘出巨大的商业价值。
在这种背景下,大量企业开始将资源投入到对数据的搜集、整理,以及处理工作上,大数据产业开始蓬勃发展。然而,在大数据产业高速发展的同时,相关的制度建设却稍显滞后。相关法律和制度的空缺,使与数据有关的问题层出不穷。
在这些问题中,比较引人重视的有三个:一是侵犯隐私。这主要发生在数据搜集环节。为了从用户身上获取到有价值的信息,少数企业置用户的隐私权于不顾,肆意侵犯。二是数据保护问题。这主要发生在数据的传递和储存环节。由于安全保护工作的不到位,一些被搜集到的数据可能流出,从而对数据的相关利益方造成较大伤害。三是数据垄断。这主要是指一些企业通过掌握更多、更好的数据,从而获得了更大的市场份额,并借此限制市场竞争。
目前,已有很多学者对关于数据产生的各种问题进行了分析和解读,但从整体上看,这些学者提出的方案,更多集中在法律和制度的层面上。但从根本上来讲,上述数据问题其实属于技术问题,要想解决它们,须先从技术上找到问题根源所在,再用技术的手段去解决。
中心化处理模式引发连锁反应
尽管隐私侵犯、数据保护、数据垄断这三个问题,无论是在内涵上还是在表现上都截然不同,但从根本上来看,他们都是由数据的中心化处理模式所导致的。
在当前通用的数据处理技术之下,人们对数据进行分析,就要从数据中挖掘出有用的信息,就需先把分散的数据搜集到一起,再对这部分统计数据进行处理。如果数据是分散的,人们对此便无能为力。
这种中心化的处理模式导致了很多后果:
首先,这促使数据的分析者需要千方百计去搜集数据。在此过程中,就可能违反相关的规定,或侵犯人们的隐私。
其次,在汇集数据时,需将数据在不同的主体间进行传递,而此过程是很难被追踪的,这就决定了如果数据在传递过程中发生问题,原来拥有数据的主体将很难对其进行控制。以去年被曝出的剑桥分析事件为例,尽管在此事中脸书公司(Facebook)一直处在舆论的风口浪尖,但真正造成数据泄露和滥用的却是剑桥分析公司。
再次,现在备受诟病的所谓数据垄断问题,在一定程度上其实是掌握数据的企业为了防止数据泄露而做的防范。其实,很多掌握数据的企业都可以通过开放数据来为自己获取收益,但考虑到由此产生的问题,他们在采取这样的举措时都很犹豫。尤其是在剑桥分析事件发生之后,很多数据企业对数据安全的疑虑陡然增加,一改以往开放数据的态度,转而变得十分封闭。
基于以上原因,为了解决数据带来的众多问题,制度和法律建设固然重要,但要从根本上解决,可能还要依靠数据的力量,让目前中心化处理数据的模式发生改变。
新技术有望“治愈”数据顽疾
尽管要全面解决因数据产生的问题并不容易,但一些技术的发展已让我们看到了希望。在众多的技术当中,有三种技术可能是较值得重视的:
第一种是区块链技术。区块链技术有一个重要的特征,就是可追踪溯源,这一技术可全面记录数据传递过程中的所有信息。这样,一旦数据在传递过程中发生问题,就可清楚地知道问题发生在哪个环节、应由谁来承担相关责任。
第二种是安全多方计算技术。这一技术由清华大学教授姚期智提出,后来姚期智还凭此获得了图灵奖。安全多方计算技术的要点,在于保证“零知识证明”的提供。
何为“零知识证明”呢?举例来说,若有两个富翁想知道二者谁更有钱,但又不愿泄露自己的财富信息。那么,他们可将自己的财富信息以某种加密的方式告诉第三方,让第三方进行比较。实现这个过程的技术有很多,安全多方计算技术就是其中很有代表性的一种。有了这个技术,不同主体在数据交换的过程中,就可防止无关信息的泄露,因此数据传递的安全性就得到了保障。
第三种技术是谷歌正在推行的“联合计算”。和传统的中心化处理方式不同,“联合计算”不再采用搜集数据、集中处理的数据分析模式,而将模型分发到用户手中,直接在用户端训练模型。这样,数据分析者就可以在不从用户处搜集数据的情况下,完成模型的训练和数据的分析。这样不仅能保证数据的安全,也可从源头上杜绝数据垄断问题的发生。
数据问题是随技术的发展产生的,而技术本身或许也早已为这些问题的解决埋下了伏笔。笔者相信,只要我们善于利用新的技术,数据产生的各种问题迟早会得到解决。(作者系《比较》杂志研究部主管)