动植物基因组大小粗略比较

在知乎看到问题 为什么植物基因组比动物基因组大(为什么植物基因组似乎比脊椎动物拥有更多的基因?)? 印象里好像也不一定,因为拟南芥的基因组也才100多M,自己之前也看到过有些鱼的基因组也可以达到1G的级别。所以到NCBI网站上查了一下,找到了459个陆生植物(land Plants)植物的基因组信息,264个鱼(Fishes)418个昆虫(insects),377个哺乳动物(Mammals)的基因组信息。

我们分别看一下基因组大小的分布范围
代码语言:javascript
复制
library(ggplot2)
library(ggthemes)

landPlant<-read.csv("Genome_Size/landPlantsgenomes.csv",header=T)
landPlant$group<-"LandPlant"

fishes<-read.csv("Genome_Size/fishesgenomes.csv",header=T)
fishes$group<-"Fishes"

insects<-read.csv("Genome_Size/insectsgenomes.csv",header=T)
insects$group<-"Insects"

mammals<-read.csv("Genome_Size/mammalgenomes.csv",header=T)
mammals$group<-"Mammals"

df<-rbind(landPlant,fishes,insects,mammals)

dim(df)
colnames(df)
ggplot(df,aes(x=Size.Mb.))+
geom_density(aes(fill=group))+
facet_grid(group~.)+
theme_gdocs()+
theme(axis.text.y=element_blank())+
scale_fill_manual("Species",
values=c("#FFCC33","#FF3300",
"#990000","#0066FF"))+
labs(x="Genome Size (MB)")

image.png
总体来看还是哺乳动物的基因组更大,上图看起来不太美观,我们去掉一些极端值

代码语言:javascript
复制
ggplot(df,aes(x=Size.Mb.))+
geom_density(aes(fill=group))+
facet_grid(group~.)+
theme_gdocs()+
theme(axis.text.y=element_blank())+
scale_fill_manual("Species",
values=c("#FFCC33","#FF3300",
"#990000","#0066FF"))+
xlim(0,5000)+labs(x="Genome Size (MB)",y="")

image.png

接下来在分别看看最大和最小
代码语言:javascript
复制
library(dplyr)
df1<-df%>%
group_by(group)%>%
summarise(value=max(Size.Mb.))
ggplot(df1,aes(x=group,y=value))+
geom_col(aes(fill=group))+
labs(x="Species",y="Genome Size (MB)")+
theme_bw()
df2<-df%>%
group_by(group)%>%
summarise(value=min(Size.Mb.))
ggplot(df2,aes(x=group,y=value))+
geom_col(aes(fill=group))+
labs(x="Species",y="Genome Size (MB)")+
theme_bw()
df2

最大

image.png 最大的是

代码语言:javascript
复制
df[which(df$Size.Mb. > 27600),]

Pinus lambertiana

最小

image.png 最小基因组出现了0,应该是数据出现了问题,有时间再来检查吧