1. 使用dplyr包的好处

  1. 大多数时间在操作tbl_df对象,而不是data.frame(特别是含有factordata.frame)。

  2. magrittr包的管道更好地结合。

  3. 更丰富的列操作,例如mutateselectgroup_by会节省很多for循环。

1. R性能检测

直接使用profvis包即可,例如示例

2. Rcpp性能检测

2.1 安装依赖软件

Pre-requested tools
1
$ sudo dnf install gperftools-devel google-perftools graphviz ghostscript kcachegrind

本文基于参考资料1,展示RNA-Seq在评估基因表达量模型的细节。

1. 符号表示

$K$个长度为$l_i$的转录序列$t_i$,构成转录本的集合$T=\{t_1, t_2, \dots, t_K\}$。单个转录组中,每个转录序列$t_i$有$c_i$个拷贝数,全部转录序列的总拷贝数为$M$。单个转录序列的相对丰度为$\rho_k=\frac{c_k}{\sum\limits_{t \in T}c_t} = \frac{c_k}{M}$,易得$\sum\limits_{k=1}^K \rho_k=1$。

单个转录组中,全部转录片段构成集合$F=\{f_1, f_2, \dots, f_N\}$,总转录片段数目为$N=|F|$。比对到的转录序列$t_i$上的转录片段,构成集合$F_t \in F$,对应的转录片段数目为$X_t=|F_t|$。

Bray-Curtis distance(BCD)的定义为: