1. 查询

Query
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
-- 选取特定的一列或者多列
SELECT column1, column2
FROM dataset

-- 选取全部列
SELECT *
FROM dataset

-- 去除重复,选取一列或多列中唯一元素
-- 如输入多列,则去除多列组合后的重复
SELECT DISTINCT column1, column2
FROM dataset

-- 指定输出列数
-- a是输出行数,b是输出起始行(第一行计为0)
SELECT column
FROM dataset
LIMIT a OFFSET b

收集了一些使用Python过程中的小技巧或者常见错误。

1. While–if–break

适用情况:当需要执行一个循环,但是不能事先判断何时终止。 可以在循环内部加入判断,符合要求时跳出。比如,使用程序在某个目录下新建一个文件夹,如果文件名已经存在,需要重新生成文件名;否则,创建文件夹。

While–if–break
1
2
3
4
5
6
7
8
9
10
import random, os

while True:
    letter = [chr(i) for i in range(97, 123)]
    folderName = [random.choice(letter) for i in range(5)]
    fn = ''.join(folderName)
    if os.path.exists(fn) is not True:
        # get an unique name 
        os.mkdir(fn)
        break

2. 链式比较操作

Python支持一个链式的比较操作。

comparison chain
1
2
3
4
5
6
testNum = 10

# 链式比较操作
# 区别if not和if a is not None
if (not 0 < testNum < 5):
    print('It passed!')

在进行RNA-seq数据分析时,需要从UCSC Table下载各种注释信息。比如Cufflinks等要求的转录组注释信息、Cufflinks建议去除的rRNA/tRNA/线粒体组注释。

1. 基因注释信息

下载转录组Ensembl注释文件:

UCSC下载Ensembl注释