基因组数据压缩

无损基因组数据压缩

Enancio技术有助于压缩基因组数据存储和传输成本 

DRAGEN ORA and NextSeq 1000-2000
率先实现机载的无损基因组压缩

DRAGEN ORA(前身为Enancio推出的Lena)无损基因组数据压缩既可以在安装了NextSeq 1000/2000测序系统的仪器上使用,也可以在DRAGEN服务器v3.8上使用。

深入了解NextSeq 1000/20000
深入了解DRAGEN
DNA Helix

基因组数据压缩的优势

因美纳致力于提供创新的测序技术,帮助客户管理随着测序研究激增而不断增长的数据产出。来自Enancio的基因组数据压缩技术(现称为DRAGEN ORA(Original Read Archive)压缩技术)可提供理想的速度和效率,对其他因美纳信息学解决方案起到非常好的补充作用。

基因组数据压缩可以:

  • 降低存储成本
  • 提高文件传输速度
  • 减少内部网络流量

无损基因组数据压缩技术

Enancio的无损基因组数据技术通过压缩因美纳测序仪的输出,将数据存储占用空间缩小为原来的五分之一。Enancio技术采取基于参考基因序列的压缩方法,使用超快速定位方法将reads定位到参考基因组,然后只存储重新生成这些reads所需的数据:一个位置和一个差异列表。

其他数据压缩技术通常速度较慢。Enancio技术针对高压缩比以及快速压缩和解压缩率进行了优化,同时保持了数据完整性。用适合不同类型质量方案的距离编码器和背景模型,以无损方式对质量分数进行编码。

获取DRAGEN ORA解压软件

所有用因美纳压缩技术压缩的文件都可使用我们提供的解压软件轻松解压。该解压软件可以免费下载和使用。

立即下载

安装后,通过简单的命令即可直接将解压的输出结果传递给各种常见定位工具,如BWA、STAR和Bowtie。压缩和解压技术均已无缝集成到DRAGEN Bio-It平台中,可提供准确、超快速的测序数据分析。

Enancio是因美纳最近收购的一家公司,拥有专门为基因组学数据设计的专有无损数据压缩技术。

visual of how DRAGEN ORA works

DRAGEN ORA无损压缩专为基因组学数据而设计。使用基于参考基因序列的方法压缩DNA序列:使用专为压缩设计的超快定位方法,将reads定位到参考基因组上。应用紧凑的二进制格式将reads编码为位置和差异列表,再采用熵编码器。用适合不同类型质量方案的距离编码器和背景模型,以无损方式对质量分数进行编码。

learn the benefits of compression technology

与gzip相比,DRAGEN ORA压缩技术将FASTQ文件的数据占用空间缩小至五分之一1。这意味着直接节省存储成本和更快的文件传输速度。

这项压缩技术将分阶段集成到因美纳产品系列中,生成的FASTQ文件最小可以压缩至fastq.gz1的五分之一。NextSeq 1000/2000已经提供了压缩功能。DRAGEN服务器从v3.8版本开始提供压缩功能,将压缩的FASTQ文件无缝整合到DRAGEN Mapper中。

在NGS工作流程中,您可以选择启用压缩,生成压缩的fastq.ora文件。在DRAGEN v3.8版本中,DRAGEN Mapper可以直接整合fastq.ora文件以实现无缝集成。fastq.ora文件还可以即时解压缩用于定位和下游分析。在DRAGEN BCL转换中整合压缩简化了工作流程,如下图所示:

ORA compression technology within DRAGEN
DRAGEN中使用的ORA压缩技术
legacy process, compression was an extra step
收购Enancio前:压缩需要使用单独的软件,压缩是额外的步骤。

压缩技术输出的是一个新的压缩的FASTQ二进制文件格式文件:fastq.ora。此文件格式支持存储和共享,可明显减少存储成本和文件传输时间。所有压缩文件均可使用免费提供的解压缩软件解压缩。

Fastq.ora文件可即时解压缩用于定位和下游分析,很快将直接被DRAGEN接收。

235 GB的原始FASTQ文件可通过gzip压缩至55 GB。借助DRAGEN ORA压缩技术,数据占用空间进一步缩小至11 GB2

通常情况下,Fastq文件和BAM或CRAM文件适用于不同的存储目的。但是,fastq.ora文件支持您存储原始数据的压缩副本,保留MD5值,并且与相应的CRAM文件相比占用空间更小。

DRAGEN现在可以压缩两种不同的格式:FASTQ和BAM分别压缩为fastq.ora和CRAM。

压缩的使用完全是可选的。DRAGEN用户仍可自由选择存储策略:激活转换为因美纳FASTQ压缩文件格式并存储这些文件,禁用转换为DRAGEN ORA压缩文件格式fastq.ora、存储fastq.gz,或者存储BAM或CRAM文件。

可以。DRAGEN 3.8版本实现了完全无缝压缩,压缩后的fastq.ora文件可直接整合到DRAGEN Mapper中。

此外,在免费解压缩软件安装完成后,通过简单的命令即可直接将解压的输出结果传递至多种常见定位工具,例如BWA3、 STAR4和Bowtie5

DRAGEN ORA FASTQ FASTQ压缩文件可以共享。解压缩软件是免费提供的。在免费解压缩软件安装完成后,通过简单的命令即可直接将解压的输出结果传递至多种常见定位工具,例如BWA3、STAR4和Bowtie5

病理信息学数据分析

来自Xing Cancer Care的Lynn Fink领导着一所已获得ISO15189认证的病理实验室,她向我们分享了实验室如何使用因美纳信息学平台进行数据分析,以及从众多解决方案中选择因美纳的原因。

观看网络研讨会
view webiar - Lynn Fink discusses Illumina informatics in her pathology lab
基因组数据存储与安全性

在云端存储、处理和共享大型基因组和NGS数据集,感受安全性、速度和可扩展性的全面提升。

测序数据分析

我们的测序数据分析软件可减少配置和运行分析工作流程所需的时间,让您能更专注于重要的研究。

因美纳信息学产品系列

了解旨在简化基因组数据分析和管理的各种信息学产品。

参考文献
  1. On files generated by NextSeq 1000/2000 and NovaSeq 6000 Systems
  2. This result has been obtained from the DNA sample NA12878 sequenced on the NovaSeq 6000 instrument with a 30x coverage. Data is accessible on the BaseSpace project: basespace.illumina.com/s/3ExEZMlH8Lkq.
  3. Li H. and Durbin R. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.
  4. Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29(1): 15–21.
  5. Langmead B. et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology 2009 10:R25