基因家族分析(7) 一键计算氨基酸序列理化信息

❝基因家族分析是生物信息学入门学习的基石，由于其对硬件要求不高个人电脑均可进行，不仅投入小、操作简单，而且产出效果显著，因此受到了广大生物信息学初学者的喜爱。虽然相关的研究文章层出不穷，但许多内容趋于雷同，缺乏创新性。为了突破这一局限，「本次在第三版的基础上进行了全面的内容优化，并引入了多个Python自动化脚本，来简化分析过程」，本节来介绍如何使用R包一键化计算蛋白理化性质 ❞

原理介绍

❝主要包括氨基酸长度、分子量、等电点、脂肪族指数、不稳定指数及疏水性指数等，以往这些内容的分析主要通过网页工具进行分析，一旦数据序列较多则费时费力。基于此类情况小编制作了一款 R 包 ggGenesfa 用于各种理化指标的计算，用此包可以很方便的计算出多种理化信息，下面来主要介绍如何使用。 ❞

本地安装R包

代码语言：javascript

复制


install.packages("ggGenesfa_1.0.tar.gz",repos = NULL)

加载包

代码语言：javascript

复制

library(seqinr)
library(Peptides) 
library(tidyverse) 
library(magrittr) 
library(ggGenesfa)
library(ggpubr)

计算理化性质

通过calculate_sequence_features函数可以很方便的计算，HvOSCA.pep.fasta为目标物种的蛋白序列文件。

代码语言：javascript

复制

calculate_sequence_features("HvOSCA.pep.fasta") %>% 
  set_colnames(c("name","Protein Length (aa)","Molecular Weight (kDa)",
                 "Grand Average of Hydropathicity",
                 "Isoelectric Point","Aliphatic index","instability index")) %>% 
  ggtexttable(rows=NULL,theme = ttheme("lBlueWhite"))+
  theme(plot.margin=unit(c(0,5,0,5),units="cm"))