Xiphias平台数据计算服务(成都)

格致大数据现已开通基于Xiphias平台的数据计算服务,可提供人类基因数据从FASTQ到BAM以及VCF的高速计算。

*此处为原始数据压缩格式 fastq.gz 大小

Xiphias 高性能生物信息计算平台搭载了格致大数据自主研发的基因数据处理芯片,利用软硬件协同的方式极大地提高了基因数据处理效率,同时拥有从原始数据到注释报告和最终推荐解读的一键式解决方案,简单易用、高效低耗,有着极具竞争力的价格优势。

高性能生物信息计算平台 Xiphias 可以快速地对基因数据进行比对、排序、压缩及变异识别等分析,相比于常规计算平台,可提供十几倍到几十倍的数据处理加速。

功能:

  • FASTQ 到 VCF 一键式处理流程
  • FASTQ 文件高效压缩存储

同时,Xiphias 还提供了生物信息分析常用的 Alignment、Smith-Waterman 及 PairHMM等专用计算模块,极大地提升了基因数据分析与处理的效率,同时降低了数据处理成本。

优势:

  • 高计算性能 低能耗
  • 高存储压缩比 低成本

Genome Analysis Pipeline基因数据处理流程

传统生物信息处理软件从 FASTQ 生成 VCF 需要经过 Alignment、 Reorder、 BAM Gen erate、 Sorting、 Add ReadGroup Mark Duplicates、 Index 以及 Variant Calling 这众多繁琐的步骤,而每个步骤都会花费相当长的时间。以 DNA Sequence Analysis Pipeline 为例,对 30 倍深度的人类全基因组数据进行分析处理,需要花费近 6 个小时进行序列比对,近 12 个 小时进行变异识别,总共需花费近一天时间才能由 RAW FASTQ 分析计算得到 VCF 文件。

而Xiphias平台搭载了格致大数据自主研发的基因数据处理芯片,结合软硬件的优势,对整个生物信息处理流程进行了优化加速,使得操作和使用更简单,同时也大大缩短了数据处理所需的时间。

以 DNA Sequence Analysis Pipeline 为例,传统软件对 30 倍深度的人类全基因组数据进行分析处理,需要花费近 6 小时进行序列比对近 12 小时进行变异识别,总共需花费近一天时间才能由 RAW FASTQ 分析计算得到 VCF 文件。Xiphias 一体机可以在 30 分钟内完成 30X WGS 的序列比对,在 2.5 个小时内完成从 FASTQ 到 VCF 的整个处理流程,Xiphias 集群(5节点)更可达到在几分钟内完成序列比对、半小时内完成整个处理流程的效率。

Alignment序列对比

Xiphias利用硬件优势实现的序列比对算法可以达到较bwa mem等基于CPU的比对软件数倍到数十倍的计算加速。

效率信息

Performance Alignment(150x WXS) Sorting(150x WXS) Aligment(30x WGS)
Xiphias 1 min 1 min 11 min (dual Xiphias_core)
Server(BWA+SAMTOOLS) 10 min 6 min 3 hour 25 min

计算速度Aligment(30x WGS)

Variant Calling变异识别

Xiphias 基于硬件实现了 Variant Calling 算法中计算最为密集的 PairHMM 模块。

通常在整个 Calling 过程中,PairHMM 计算消耗了 20% ~ 80% (因不同数据质量和数据分布情况而不尽相同)的计算时间。Xiphias 1.0 中基于硬件实现的 PairHMM 模块相对与通常的软件计算有着 10 倍左右的加速比,可将整体 Calling 的效率提升数倍;而 Xiphias2.0 将在 1.0 的基础之上对软硬件设计做进一步优化,以期达到更高的加速比。

一体机(Dataset:30x WGS)

集群 - 5节点(Dataset:30x WGS)

Gezhi Compression基因数据压缩

Xiphias 平台采用了针对基因数据设计的专用压缩算法,基于硬件对基因数据压缩算法进行了加速,达到了较常用 GZip 压缩算法 5 倍的加速。

格致无损压缩相较于常规 GZip 压缩有着 2.5 倍的压缩比,同样压缩速率的有损压缩更是有较 GZip 压缩 5 倍的压缩比。

性能展示

Size(GB) Gzip Xiphias lossless Xiphias lossy
RunTime
(min)
4 5 1 1
48 58 13 13
Size
(GB)
4 1.1 0.4 0.2
48 18 7.8 3.6
FASTQ/FASTQ.GZ输入

编码输出

压缩

Xiphias 生物信息计算平台可以支持广泛的生物信息分析算法,并集成了各种高度优化的生信分析 Pipelines,如 WGS、WES、RNAseq/ 转录组、区域捕获、癌症基因组分析等,用户可根据需求实现灵活配置。