沈梦圆的博客 怕什么真理无穷, 进一寸有一寸的欢喜。

【问题汇一】宏基因组数据分析


有一个湖泊宏基因组项目耽搁了两个月,这周又重新开始处理了。我再一次重新去看拼接结果时,有个样品的contigs全长总和只有4M(个人感觉是不太好的结果)。又重新结合其他文献和教程对这个样品数据进行处理一下,但是结果还是不是特别好。在这个过程中,我思考了许多问题,罗列如下:

FastQC

  • 在FastQC的报告中,我们应该关注哪些指标?
  • 怎样的数据是好的数据,怎样的数据是坏的数据?
  • 如何判断怎样的数据可以进行下一步处理了?
  • 过滤后的数据显示还有接头会怎么样?

Trimmomatic

  • 各个参数代表的意义是什么?如何去设置参数?
  • 使用何种接头文件?
  • 不同类型的数据(RNAseq或DNA数据)的参数设置会有些不同么?
  • 软件输出的两个unpair文件是否舍弃不用?

While the assembly runs…

  • 除了看N50,还有其他指标来判断拼接的好坏么?
  • 如何看覆盖度的分布,怎样才是ok的呢?还是根据不同的实验目的覆盖度的要求不同?
  • 对于宏基组数据为什么要进行拼接呢?
  • 使用未拼接reads和使用拼接完成的contigs数据去分析微生物组成有何不同?各自有什么优缺点?
  • 宏基因组测序应该选择何种测序平台(Illumina HiSeq, Illumina MiSeq, PacBio)?
  • 如果想要去拼接宏基因组数据,应该如何去设计实验?

classification

  • 分箱的目的何在?
  • 基于序列比对和基于序列特征及标记基因的分类注释方法,两种方法的优缺点?哪种更优?

Comments

Content