资讯详情

基因组学巨头华大基因发布最新的生物信息学软件和数据集

发布日期:2011-11-16 

2011年11月12日,生物信息学软件及数据发布会在深圳大梅沙隆重举行。这是华大基因继今年7月份生物信息学软件发布会之后,举办的第二届生物信息学软件发布会。在发布会上,研发人员向大家详细介绍了最新版的生物信息学软件的性能和优势,包括最新版soap系列软件、宏基因组测序数据分析软件metacluster 4.0、遗传变异检测软件及两个基于云计算的软件gaea 2和hecate 2。来自全球的100多位基因组学家和生物信息学专家学者参加了本次发布会。

  下午3点半,会议在杨碧澄博士的主持下正式开始。香港大学的tak-wah lam教授对soap3的优势和应用进行了详细的阐述:“soap3是基因组学领域领先的gpu(graphics processing unit)加速软件包,其性能比soap2提升了10倍-30倍,能够在几十秒的时间内完成一百万条长度为100bp的序列比对。如今生物信息学已经成为基因组学研究中强有力且必不可少的研究手段,高效、快速的生物信息软件必将会大大促进研究学者在生物学领域取得更大的科学突破。”

  据悉,华大基因不断开发新的算法,紧密跟踪gpu计算等先进技术,在提高计算能力的同时降低功耗,力图做到绿色高效能计算,以前需要90个几个小时完成的数据分析工作现在只需要6个多小时就可以完成。香港科技大学的卢冕博士向大家介绍了他与华大基因在计算软件共同研发方面取得的成就,他指出:“基于gpu平台,我们同华大基因共同开发了用于遗传变异检测的gsnp和gama。原本使用soapsnp需要3天才能完成的人类基因组数据分析,gsnp在2个小时之内就能完成。此外,gama在2天内可以完成1000个人的等位基因频率估算,以前则需要1年多的时间。”随后,香港大学的sim-ming yiu教授分析了宏基因组测序数据分析的常用方法以及在宏基因组测序数据分类分析中出现的问题和困难,并对比介绍了metacluster 4.0的优势。华大基因的彭智宇和谢寅龙分别对转录组测序中可变剪切检测软件soapsplice、融合基因检测软件soapfusion和转录组测序从头组装软件soapdenovo_trans的性能和优势进行了详细的介绍。


  华大基因弹性计算中心研发主管向伟向大家介绍了华大基因的两个基于云计算的软件hecate升级版和gaea,他解释说:“这两款新软件主要应用于新一代测序数据软件分析服务,为基因组从头测序和重测序提供弹性计算银河娱乐平台的解决方案,由于两者都具有灵活且扩展性强的特点,因此将此种处理方式命名为弹性计算。如今dna测序技术成本的下降幅度远远高于测序数据成本,云计算已成为基因组学研究领域中的一个日趋重要的工具或服务。基于云计算的软件服务给研究者提供了分析数据的平台,大大提升了运行速度并降低了成本,他们不再需要自己购买计算机集群即可完成海量数据的分析处理。”


 奥胡斯大学的李胜霆介绍了soapindel 的使用,他表示:“soapindel 主要应用于pair-end 短序列测序中插入/缺失突变的检测,通过模拟数据分析验证,soapindel具有较高的灵敏度和特异性,而且可以检测到20-100bp较长片段的插入/缺失突变。”

  在发布会的最后,由华大基因(bgi)和biomed central(简称 bmc ,生物医学中心)共同主办的学术期刊杂志——《gigascience》,首次公布其大型数据库gigadb()及其现已公布可免费访问的17个可引用数据库,包括谷子、甜高粱和高粱、土豆、白菜、黄瓜、木豆、三种蚂蚁、蛔虫、裸鼹鼠、绵羊、家蚕和野蚕、藏羚羊、亚洲人(全基因组、转录组和甲基化),使用者可以像使用其他数据库(如ncbi等)一样对其进行访问。gigascience首席主编laurie goodman说:“gigadb已采用数字对象唯一标识符 (doi)进行标识,在论文发表在相关学术杂志之前就可以获得数据库中的绝大多数信息,这可以使整个科学界在第一时间共享相关数据信息,省去了从数据产生到文章发表的时间,极大地促进了数据的快速发布及传播。”

  面对在基因组学研究中分析处理的数据量的迅猛飙升,华大基因正不断地在高性能计算领域内开发可以处理海量生物信息数据的硬件和分析软件。其生产中心在2011年6月20日举办的国际超级计算机大会(international supercomputing conference,isc11)上,荣获由国际数据公司(international data corporation,idc)公布的首届“高性能计算创新优秀奖”(hpc innovation excellence award),寓意着华大在性能计算和应用能力已经处于国际先进水平,引领国内生物领域高性能计算的行业发展,目前在深圳、香港、北京、杭州和武汉拥有数个大型生物信息学超级计算中心,存储系统超过10 pb(petabytes),总计算能力为156t flops,现在正向1000t flops(即1p flops)甚至更高的计算性能快速前进。

 


最后更新:2011-11-16