生信星球 学习小组Day6笔记--学习R包 高小能

认识 R 包

R包是多个函数的集合,具有详细的说明和示例。 学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。 包的使用是一通百通的,我们以dplyr为例,讲一下R包。

安装和加载R包

1.镜像设置

为了保证我们可以自定义CRAN和Bioconductor的下载镜像,其实是可以在Rstudio中进行设置的,只需要运行这两行代码即可:

代码语言:txt
复制
# options函数就是设置R运行过程中的一些选项设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
# 当然可以换成其他地区的镜像

options()$BioC_mirror 查看镜像地址

2.安装

R包安装命令是install.packages(“包”)或者BiocManager::install(“包”)。取决于你要安装的包存在于CRAN网站还是Biocductor,存在于哪里?可以谷歌搜到。

加载

library(dplyr)

示例数据直接使用内置数据集iris的简化版:

test <- iris[c(1:2,51:52,101:102),]

dplyr五个基础函数

1.mutate(),新增列

mutate(test, new = Sepal.Length * Sepal.Width)

2.select(),按列筛选

(1)按列号筛选

(2)按列名筛选

3.filter()筛选行

4.arrange(),按某1列或某几列对整个表格进行排序

5.summarise():汇总

dplyr两个实用技能

管道操作 %>% (cmd/ctr + shift + M)

count统计某列的unique值

dplyr处理关系数据

1.內连inner_join,取交集

2.左连left_join

3.全连full_join

4.半连接:返回能够与y表匹配的x表所有记录semi_join

5.反连接:返回无法与y表匹配的x表的所记录anti_join