上午看了一份基因行业报告,做了一些摘抄和思考。
关键点
1 测序成本偏离摩尔定律超速下降
在2001年个人基因组测序费用约1亿美元,而到了2014年初,基因测序巨头Illumina公司借助其最新开发的测序平台HiSeq X Ten,成功将人类全基因组测序成本降到1000美元以下,突破了基因测序下游应用的“成本瓶颈”,让基因组测序大规模渗透进入学术研究、药物研发、临床应用成为可能。
2 数据分析将会是未来的成本约束
将测序流程拆分来看,下游的数据存储、传输和分析解读这部分成本的下降幅度明显慢于上游文库构建、上机的实验部分,因此未来测序成本下降的瓶颈将集中在生物信息学数据分析这部分(在革命性的新的测序技术摒弃复杂的生物信息学过程之前)。
3 基因测序技术的演变历程
从技术的演变升级来看,基因测序技术主要历经三代:第一代测序技术,主要基于Sanger双脱氧终止法的测序原理,结合荧光标记和毛细管阵列电泳技术来实现测序的自动化,1975年由Sanger和Coulson发明,基本方法是链终止或降解法。人类基因组计划就是基于一代测序技术。第二代测序技术,早期代表平台包括Illumina的Solexa、Life Technologies的Solid、罗氏的454平台等目前市场的主流机型包括Illumina的HiSeq/MiSeq/NextSeq、Life Technologies的Solid/Ion PGM/Ion Proton等。它们的测序原理不完全相同,但共同的特点是都以舍弃读长为代价实现了高通量。第三代测序技术又称为单分子DNA测序,即通过现代光学、高分子、纳米技术等手段来区分碱基信号差异的原理,以达到直接读取序列信息的目的,而不需要使用生物或化学试剂,这对于进一步降低测序成本是非常可取的。
4 第二代测序技术优势突出
一代测序的突出优势是高读长及高准确性,一次读取DNA片段长度可达1000bp,准确性可到到99.99%。然而技术原理的限制下高读长的特点反而增加了测序成本,并且测序的通量大打折扣,这就限制了一代测序的应用范围。与之相比,二代基因测序的核心提升在于牺牲了读长的前提下极大优化了成本和通量。采用大规模平行测序原理,不仅极大的降低了测序成本,同时在保证了准确性的前提下实现了高通量测序。第三代基因测序读长较长,如Pacific Biosciences公司的PACBIO RS II 的平均读长达到 10kb, 可以减少生物信息学中的拼接成本且从作用原理上避免了PCR扩增带来的出错,但是总体上单读长的错误率依然偏高,成为限制其商业应用开展的重要原因,同时其分析软件也不够丰富,在成本和通量上也没有比较优势, 短期内很难对二代测序形成替代。综上所述,在三代基因测序技术突破之前,NGS较现行技术有高通量、高准确性、成本适应当前消费端的优势,所以中短期内,NGS将成为基因测序领域的主力军。
5 生物信息学分析是测序服务的门槛,细分市场增长迅速相对活跃
数据解读是整个基因测序行业最具价值的部分,体现了测序公司的研发实力,理论上新产品的开发即是对下游应用领域的拓展,也是抢占创新应用领域制高点的关键。进一步来看,数据解读的准确度和可靠性与样本量息息相关,能否积累足够多的临床样本量,从而拥有强大的疾病/表型的基因组数据库,并通过数据平台的处理、运算和存储形成大数据的积累是临床解读的基础。这里区别于数据解读, 狭义的基于生物信息学的数据分析是将二代测序生成的原始数据通过数据处理和分析得到所需的基因分型(如SNP、CNV)、插入缺失(InDel)或结构变异等,该过程需要拥有专业背景的人员、专业的生物信息学软件以及处理器级别的计算机,其中最重要的生物信息学人才相对匮乏,对新进入企业构成一定门槛。另一方面,目前二代测序的专业分析软件已经接近标准化和流程化,更有上游设备供应商为非专业背景客户提供了诸如基于Windows系统的一键式整合软件。因此,该细分市场虽然增长迅速,但空间不够大,而且面临下一代测序技术可能省却或简化生物信息学环节的风险。
写在最后
生物信息学作为一门工具学科,其发展依赖于上游的测序技术的发展。生物信息学的定义很广泛,有开发更好更优的软件来处理海量的数据,有使用前者开发的软件进行科研的。但是一旦上游技术发生一小步的发展,下游就要重新洗牌跟上。例如开发软件的科学家们费劲力气优化再优化他们的软件以减少误差,一个三代测序技术的发展,原先的软件都不在需要了。因此,在学的过程中,重要的不是技术、软件应用本身而是相应的学习能力和合适的学习方法。