融合论坛INTEGRATION FORUM资源有限的小公司可以进行大数据分析,BEAS构建在现有的商业DBMS之上,为小公司提供了查询大数据的即时能力。—中国科学院外籍院士、英国皇家学会院士、欧洲科学院院士,英国爱丁堡皇家学会院士、国际计算机学会会士樊文飞从大数据到小数据数字经济离不开大数据计算,下面我介绍就餐记录,某人于某年某月某日,在某个餐馆一下关于大数据计算的挑战和机遇。我从事的就餐;第三是餐馆记录,包括餐馆名称、平均价是计算机工作,具体来讲是工业计算,给函数格等。这些是常见的数据,我们可以在数据库F、参数X做计算。在大数据环境下,用数据库的中进行简单查询,叫作SPC(统计过程控制)。术语来讲,Q是查询,相当于函数F,D是数据,那么我们如何进行查询?这是一个传统的查询相当于参数X。在传统计算机数据库领域,我们计划。第一步,先通过扫描朋友列表,找到我的处理GB级数据,量级达10的9次方。在大数据环朋友,把他放在表格里,这就是F;第二步,查找境下,我们要处理PB级乃至EB级数据,量级达朋友的就餐记录,找到他5月份就餐的餐馆,这10的15次方乃至18次方。那么有一个问题,量的是嵌套循环。我用传统计算机数据库的技术,变化是不是能带来质的变化?通过组件可以实现上述的查询功能。的确,大数据量的变化给技术理论及应用现在的问题是增加了数据量,查询计划能技术都带来了变化。以Facebook为例,假设我否行得通?Facebook训练了几千亿的外键,而要去纽约,想找一个餐馆并查询餐馆的收费情且有十亿多的用户。两年前Facebook的数据量况,而我的朋友今年5月份去过这个餐馆。现在高达300PB,每天以半PB级的量在增长,这会带有三条记录:第一,Pid1是Pid2的朋友;第二是来怎样的挑战?我能找到最快的固态硬盘的最36软件和集成电路SOFTWARE AND INTEGRATED CIRCUIT大容量是15TB,每秒钟扫描容量达到12GB。假设我的数据量没有300PB,只有15TB,某人只有100个朋友,那么我需要多长时间查询出结果?首先,做一个线性扫描,扫描一次需要20分钟,其次,做嵌套循环需要2000分钟,总共是33小时,约1.4天。这个查询很简单,何况要处理的是300PB的数据,而不是15TB的数据。 我们再看看传统计算机的计算复杂性存储理论,也就是把计算问题分类,易解问题可以用多项式表示,如果不能用多项式表示,我们称之为NP-hard或者Intractable。这是个传统理论,沿用了50多年。我们看看在大数据环境下是不是发生了变化。15TB的数据计算要用1.4天,复杂性是N的2次方,按传统理论来说是易解问题。易解问题是P,在大数据环境下,P的一部分是易解的,另一部分是不易解的。传统的计算能力应用了50多年,但在大数据环境下需要更新。的确,大数据给传统计算理论和计算基础带来了新的挑战。工业界如何应对挑战呢?用大数据。我在Facebook工作的学生告诉我,在Facebook,计算查询平均需要5万台机器同时运作,如果说计算时间可以被多个处理器平均分担,那么刚才这个查询的完成时间为2.4秒。但是这一类计算只用于比较特殊的查询。如果使用并行计算,假设处理器越多,计算得越快。但并行计算不是万能的,对于资源有限的小公司来说,这不能解决问题。使用传统的计算理论,只能跟在别人后面走,未必会拼得过别人几十年的积累,所以我们需要新的理论和方法。因此,我们提出了有机计算,可以理解为我们有大数据,要计算查询,虽然数据集很大,但不必查询所有的数据。在有些情况下可以有一个小数据集,小数据集的计算结果和大数据集是一样的。这个小数据集的量与大数据集是无主题演讲关的,如果能找到小的数据集,就可以把大数据变小,把大数据计算变成小数据查询,这就是有机计算。难点在于如何找小数据集?我们提出了一个理念—Access schema。也就是说无论数据集有多大,都可以在有限的资源下做大数据计算。以Facebook为例,它规定每个人的朋友数量不超过5000个。首先,可以给每个人建一个索引,朋友数量最多5000个,然后设置每个人每个月最多用晚餐31次,这样就可以根据ID找到其餐馆价格,这就是所说的把大数据变小,从而解决查询问题。我们基于这个理论开始做研究,并把它做成运行系统,我们发现77%的SPC Queries是有机系统。后来我们用单机来做,一般大数据的查询能在9秒钟之内完成,然而传统的数据库系统耗时14小时也不能完成。华为公司用了我们的系统以后,发现查询效率提高了很多。学术界认为我们改变的是有机计算。我们还提了另一个理念—数据驱动的近似算法。我们根据资源拟定一个资源比率,把小数据集的计算结果作为近似计算结果,并且保证所有计算过程中X不超过这个数据,而且能够保证精度。这里的精度和传统定义不一样,不再是概率,而是精确解,能够保证每个近似解都存在一个精确解,并使他们保持在一定的范围之内。在大数据资源有限的情况下,这可以为我们提供实时分析。现在我们的团队准备把这套理论做成数据库系统,我们的团队是一支细分领域领军人员全配置的研发团队。我们的数据库系统预计明年推出,希望能给资源有限的小公司提供大数据处理能力,希望他能真正成为中国自研的数据库系统,欢迎大家使用,谢谢!(根据演讲内容整理,未经本人审核)2019年第12期37