给您最好的
阿里云优惠券!

如何用999元存储1000个人重数据

伴随着测序成本的下降,庞大的基因组数据应运而生。基因测序行业面临巨大的数据存储、传输和计算压力。不知大家有没有计算过将1000个人全基因组数据存在云端三年需要多少费用呢?

以一个30X人重的数据量计算,加上质量值等的原始fastq文件大小约为200G,那么1000个人重就是200G*1000=200TB。使用目前通用的gzip压缩软件压缩后的文件大小约为40TB(Novaseq数据),按0.148元/GB/月的存储费用计算,三年下来这笔费用超过20万元人民币!

可能地产界的大佬不会将这点费用放在眼里,但如果有办法能替公司开源节流,相信大部分公司,尤其是中小企业还是喜闻乐见的。身在测序界,小编最近就发现了一个节流的办法,仅花费数千元,就帮公司存下了1000个人重数据。对此,领导表示很满意,说要给小编奖励一个大红包,小编表示相当高兴和期待。趁着心情好,小编就忙不迭的给大家分享一下这一波操作啦~

该出手时就出手

首先,我们要拥有一个云存储空间。目前,国内阿里云、腾讯云、华为云及国外的亚马逊等各大云厂家均为基因测序行业提供优质的云服务。

正值酷暑难当的时节,阿里云首当其冲开启了一波云存储钜惠,对象存储OSS 3年存储包冰点特价——10TB海量存储3年仅需999元!

这个优惠力度,相信是震惊了不少懂行的小伙伴。小编就是趁此机会捡了这个大便宜,并在此将这个好消息分享给更多的行业小伙伴。毕竟,分享这个美德一向是小编身体力行倡导的。

通过扫描下方二维码注册购买云存储空间的同学,每人可获得一个免费的全基因组数据分析!

赶快行动吧~

扫码立享——阿里钜惠云存储

倚天一出 谁与争锋

存储空间买好了,接下来就是放进去1000个人重数据的事情了。那如何将1000个人重存到10TB的空间呢?

前面我们说了,1000个人重数据经gzip压缩后约是40TB大小,想存放在10TB的空间也是不可能办到的。而小编最近了解到的一款压缩软件——GTX.Zip,号称压缩倍率高达gzip的 6 倍以上。这样一来,1000个人重数据就可以轻轻松松存进10TB空间了。

GTX.Zip这款软件是由曾在2016年GCTA风云挑战赛中的那匹黑马——人和未来生物科技有限公司开发的,而当时他们也是打破了基因数据压缩的世界纪录!历经长达三年时间的技术沉淀,据说这款基因大数据压缩工具最低可将fastq文件压至原文件的2%大小,可以说是6得飞起。于是小编迫不及待试用了一下,压缩结果如下:

整个数据任务包含100个左右(小编绝对不承认这是一种贪心的行为的)平均约3GB大小的gzip格式数据,竟然在半个小时内压缩完成了! 不得不说这个速度真是让人惊喜。压缩率方面,以上面这个WGS数据为例,从压缩前的11.809GB到压缩后到1.953GB, 约为原文件大小的1/6,果然是世界纪录级别的。

随后,作为一个严谨科学的测序人,小编又把解压这个过程也测试了一番。下载安装了解压包后,解压进行得很顺畅,无图无真相:

从图中可以看出,解压后的数据和小编的原始数据MD5值是完全一致的!至于解压速度,用喜大普奔来形容小编的心情毫不为过。

鉴于这波体验非常好,小编秉承着好学的态度,深入了解了GTX.Zip这款压缩工具各方面的性能。除了在压缩率上傲视群雄外,GTX.Zip还在检验压缩产品的金标准——数据安全性这方面表现完美。

为什么这么说呢,据开发人员介绍,GTX.Zip在压缩过程中,所有压缩数据都必须经过动态解压还原,确保与原始数据完全一致后,才会输出压缩数据流。因此,其能真正保证压缩数据的100%安全还原。(如果发生还原数据不一致的情况,GTX.Zip 会选择拒绝压缩该文件,而决不让管理员发生误判。)

原来如此,可以说是考虑得很贴心了有没有?此外,作为一款压缩工具,GTX.Zip在其他各方面的表现都堪称出色。不信的话,各位可以亲自去测试检验。

福利看这里

最后,又到了发福利的时间,刚好GTX.Zip的开发者也希望帮助更多的行业小伙伴降低他们的数据保存成本,于是携手本公众号来送一波福利给大家:

即日起至2018年10月30日,GTX.Zip压缩 免费 体验活动火热进行中(fastq和gzip文件格式均可压缩),限额 500 名,先到先得。

注:单次提交的压缩文件限200个以内。

额外送一波福利给大家:

为方便大家理解传说中的2%压缩技术,近距离观察GTX.Zip运行过程,生信技能树特邀请2016年GCTA风云挑战赛中的那匹黑马——人和未来生物科技有限公司技术总监入驻荔枝微课,向大家讲解技术细节及原理。

限时免费,先到先得哦~

(需要首先扫描关注荔枝微课,选择GTX压缩技术秀参课,静待下周三(2018-08-22)8:30开课)