Richness和Chao计算的两个基本问题

之前一直对richness和Chao的计算存在几个疑问,找老师讨论了之后茅塞顿开。这里记录一下。

1.Richness和Chao为啥不能取平均?

比如一个样方取了3个样本作为重复。在算richness和Chao的时候,很多人都是把这三个样本分开算,得到3个值,取个平均作为这个样方的richness和Chao。

但其实这样做是错误的!

正确的做法应该是这三个样本的OTU相加,得到的和再计算richness和Chao。这样结果才最接近真实值。正因为要求和,才不存在平均值,也就自然不存在误差线以及出现小数的情况。

但是在进行统计检验的时候,如两个样方每个三个样本,检验两个样方之间群落的物种数是否存在显著差异。事实上还是得3个样本分开算richness,这样才能做统计检验。

因此在计算richness和统计检验的时候,用的是两种不同的策略。

进一步外推,对于所有的alpha多样性指数,如shannon, simpson等,其实都会存在这个问题。

2. Chao也和测序深度相关,为啥Chao要用原始数据算而不用resample的数据算?

关于Chao也和测序深度相关,这里需要先挖一个坑,以后解答。

这样算是因为用原始数据得到的Chao更接近真实值。虽然原则上需要先进行resample,消除不同样本之间测序深度的差异再计算才有可比性。但是这样的结果离真实值差距更大。因此可能样本之间由于测序深度差异较大,得到的Chao差异也很大。

以上两个问题的核心都是如何计算得到的值更接近真实值。这样必然会在其他地方做出牺牲。

第一个问题在统计检验的时候会不准确,即原理上不能检验不同样方之间alpha多样性是否存在显著差异,因为检验之前按照样方内多个样本单独计算的alpha多样性就不准。

第二个问题在比较不同样本之间Chao的时候会存在错误的结果。Chao的高低可能是测序深度导致的,而不是群落本身。

PS:

土壤微生物今天又登Science!

详见:

多个全球变化因子对土壤的效应是单因子效应的加和吗?|Science述评

END