科技网

当前位置: 首页 >IT

黎建辉大数据助力科技管理系统升级

IT
来源: 作者: 2019-01-09 19:13:00

通信世界消息(CWW)2017年5月25日,由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办, 信通传媒·《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。中国科学院计算机络信息中心大数据部主任,CODATA中国委员会秘书长黎建辉作了“科学大数据管理技术与系统”的主题演讲。以下为演讲实录。

我想分享一下我们怎么理解科学大数据,它对科学大数据的管理和分析数据有什么挑战和目前在国内我们做的工作。

科学大数据主要是我们科研活动的的输入,所有人做科研活动有数据,做科研活动除了有论文还有数据,现在大家越来越重视对数据进行长期的管理和保存,比如我们的FAST运行一定时间会归档,这个是数据发现的事实和证据,这些数据从那里来?我们的数据从和上可以获得,而科学数据是我们数字的化的观测、科学检测等,我们在科学里面会用来自商业和管理方面的数据。产生有两种方式,一种是手工去采集,在物流产生之前,或者大的传感器产生之前,我们的采集数据是访谈、测量或者是记录在纸上,那个时候我们的数据量比较少,现在大家知道,主要靠科学仪器获取大大量源源不断产生的数据,这个数据产生的量非常大,而且复杂度非常高,FAST接这个装置的目的是产生数据,他们做分析来发现新的现象,现在我们科学院有十几个大的科学装置,通过观测产生数据。

举两个例子,这个是欧洲大型强子对撞机通过实验获取数据,我前一段时间去参观了,它这个里面除了实验装置以外还有计算机中心处理数据,我们天上的卫星产生数据,摇杆、包括我们位置信息的数据也是,还有天文观测,一回回详细介绍。

我们看科学大数据的特点,我举了一个例子,比如基因种的数据,还有天文观测,还有高端物理,还有数据量非常大,还有很多其他的几个特点,我们分析一下,各式各样形态共存的,而且是一级一级演化的,我们在一个卫星从传感器来的数据之后要不断的做分析,从原子数据分级到第四级的产品才可以用,而且这个产品是动态的,整个的数据的管理是自动化的做,整个数据体现非常完整的生命周期的过程,从采集、预处理到分析,到最后长期的保存,一般我们有大的数据库来归档管理,我负责的数据中心有30PB来管理数据,国际上的数据中心都有大的中心来归档。

现代的科学研究进入了大数据和大科学和大发现,2016年5月,BBC特别报道的方式介绍了中国的大数据科学研究。

有了大数据以后我们对科学发现有什么机遇?它会让我们发现一些新的模式,我们有一个假设,地球是非常复杂的,人体也是很复杂的,我们可以做的事情分解一个一个方面,把它进行分解,假设是我去观察整个大系统的某一部分得到了一些解释之后我们认为可以回到完整的解释,其实是做不到,他们之间的关系的复杂超过了都某一部分的研究,有了大数据之后我们可以逐步做大的系统性的整体的研究,去发现很不相关的因素,比方某个地方的海冰熔化速度加快会不会带来气温的变化,更重要的是可以表示复杂的行为,我们看左边的图是个模拟的组建之间耦合的过程,右边是脑细胞复杂的特征,将来可视化我们可以在研究的过程有一些新的方式。

另外一个特点我们的数据和模型可以融合起来不断迭代,根据新的数据来了之后我们进行预测,让我们的预测越来越精准,这些都是新的模式,有了大数给我们的科学发现和人类解决新的复杂的问题解决了新的手段。

可以简单来说,对科学家来说,科学大数据对科学家有能力更强,看的更远,更深的望远镜,FAST看的越来越深,另外从细微的部分可以看的越来越细。所以科学一方面往宏观发展,另外一方面往微观发展。

要把这些科学大数据进行管理,与其他的数据管理有什么区别了?我们总结了一下科学大数据我们希望有一个特点,我们现在的数据流动性不是很好,我们一个数据要经过很长的过程才可以到科学发现过程,我们要做科学大数据的管理要从数据的源端可以到运用端,而且要会聚融合形成新的东西,有了这样的环境可以更好做科学发现。

下面一个图我们通过采集器放到数据的管道,然后汇集一个湖我们要做化学的反应,要把数据进行清洗变成新的数据,然后放在数据池里面,这个数据吃是面向领域的,这个是完整的链条,我们做所有的数据管理的终极目标让这个链条的流动人参与越少越好。

这个是我们举的几个例子,这个是天文台做的GWAC,望远镜产生数据之后进行处理,然后进行论证,看有没有新的天文现象,它马上可以预警,最后建立一个数据,都是非常大的数据库,而提供给全社会的科学家进行分析,这个整个本身就是一个非常大的挑战。第二像高能物理,一个高能物理的实验,他一次试验会产生很多的数据,这些实验是以稳健的形式存在的,科学家要从大量的文件里面率选感兴趣的事件发现一些没有发现的东西,这个过程要非常快,我们要大量的涉及对文件的读取,从文件里面找到事例进行分析,这个速度你要是快就发现科学别人快,在这个过程中就提出了对这样的数据管理的需求。第三,马老师会讲WDCM有大量的关联,可以找到不同的菌种,可以找到不同的复杂的关系。

从刚才的三个例子我们总结一下,科学大数据的管理大概有这样的流程,从我们的科学仪器产生数据,然后进入实施采集和分析的系统,然后进行第一次的过滤和清洗,然后放在一个存储和分析的系统里面,分析完了之后我们发布出来给其他的科学家使用,我们认为有重要意义的数据必须做长期的保存和归档,在科学界他们经常用的比较大的库做归档,这样10年、20年的数据都在这里,发布共享之后要提供的分析,现在的数据多了,我们有一种趋势,我们不希望大家把数据下载,分析起来也很难,我们希望在一个云里面,大家上载你们的模型和分析方法进行数据分析。我们整个数据要进行溯源,这个里面有几个关键的问题,在采集和时时分析的时候要进行处理和入库,刚才讲的GWAC每15秒产生一个图象,IST30秒,通过400G的光缆传到数据中心进行分析,如果30分之内有小概率的事件对全社会进行预警,这个事情的处理对发生小概率事件的要求是非常高的。

在这个里面我们要快速发现你需要的目标数据集,真正科学家要从海量的数据里面找他需要的部分,这个地方是快速的准确搜索。第三个是分析发布第一块要做知识的关联,大家讲的知识图谱,要做不同属性找之间是不是有相关性。

我们的数据要放进来归档,这个里面涉及到数据的迁移,要保证数据的可靠性,整个的过程是流程化,整个过程是可溯源的,刚才我们讲的,从这个图片我们看到我们面临的一系列的挑战,从时时间数据的入库,找到你需要的目标数据集,做数据的关联,数据的分析,以及流程化,自动化的处这个是我们做科学大数据管理系统研发计划,这个是去年刚刚启动,有十各个单位,我们单位是牵头组织北大、西安交大、清华试图做一套开元对科学大数据管理提供高效数据分析处理的系统,我们做系统的目的基本原则是我们希望通过这个架构是开放的,可以动态引进的,这个是我们做的方式,到现在为止我们有一套架构来分析每一次的需求,我们提出了整个从统一的数据访问,到溯源和模型,资源的宗宪,尤其是数据流的管理,我们也提出了整个系统的架构,我们在云的环境里面我们有各种管理的引擎,这些引擎我们在上面提供一个统一的查询语言,在上面我们提供一个数据自动化可以按流程组织的一套数据流适应数据的需要,我们还提供了各种数据采集的框架,这个我们要开放出来,形成开元的社区,这个是我们提出的架构,引擎主要是针对三个数据类型,针对天文学的时候我们希望针对天文 新表的数据有一个结构化的管理引擎,我们叫ASTRODB,可以高效提供分析服务,另外一个半结构化数据我们提出的引擎是EVENTDB,这个都是文件系统,我们根据模数的模型,把事例放在数据哭里面进行索引,这样我们可以很快的找到事例进行分析,而不需要频繁打开文件,这样效率会提高很多。

针对图数据的关联管理,我们做一个似GSTORE—BIO,现在我们专门针对微生物的数据的需要我们做的这个引擎,可以支持各式各样ARF图谱的操作,我们可以实现30亿规模的图谱,速度已经非常快了,我们测试了300亿也是没有问题的,这个是我们目前在做的这样的工作。

总体来讲,科学大数据主要的目的来自科学研究,也是为科学研究服务的,为我们提供了详细的表征的能力,可以看到科学研究的方法,这个里面我们对科学大数据的分析和管理的水平在科技竞争里面关键的部分,我们希望通过我们的能力在科学大数据的系统方面可以有所突破,可以为科学家提供一个新的手段。

我们现在都谈大数据,但是没有开放数据的前提实际上是空洞的,我们必须在开放的世界里面分享开放的数据才可以谈大数据,为了促进科学数据的开放共享,我们做了一个杂志叫做《中国科学数据》,我们科学家可以把他的数据作为论文放在上面进行访问。另外我们一直组织中国科学数据的大会,2017年的大会是8月2日—8月4日在昆明召开,主题是科学数据与国家科技计划,我们只有400个份额,希望大家报名。我的报告就到这里,谢谢大家。

安平县防滑板
快速门价格
佛像厂家
小型豆腐皮机公司
面膜加工厂家

相关推荐