1. 使用dplyr包的好处

  1. 大多数时间在操作tbl_df对象,而不是data.frame(特别是含有factordata.frame)。

  2. magrittr包的管道更好地结合。

  3. 更丰富的列操作,例如mutateselectgroup_by会节省很多for循环。

2. 列操作

  • filter():过滤列,需要输入一个逻辑向量(注意xor(x, y):x和y并集除去交集的部分。between(x, left, right):left <= x <= right。near(x, y):x和y在一定精度下相等,比==安全)。直接使用列名操作,例如year == 2018。多列操作相当于&。受group操作影响。返回一个空的表格,只保留列名,filter(x, FALSE)

  • arrange():列排序(默认升序)。多列操作时,先排序第一个,再对第一个相等的排第二个。desc()降序排列。.by_group = FALSE控制是否需要按照group进行组内操作。

  • select():选择列,重新组合新的tbl_df。结合tidyselect的starts_with()前缀、end_with()后缀、contains()部分字符串、matches()正则匹配、num_range类似V01和x02之类、everything()(剩余)所有的列、last_col(offset = n)倒数第n+1列(默认n为0)。select(Col1 = col1)更改col1列名为Col1,并只返回Col1列。rename(Col1 = col1)返回全部列,但更改列名为Col1。不受group操作影响。

  • mutate():增加列,返回原始对象和增加列,增加列放置最后。transmute():只返回增加的列。受group操作影响。

  • summerise():聚合列,对某一列或多列进行聚合操作。比如,求均值、方差、极大/小值等。受group操作影响。

  • filter()arrange()mutate()select()transmute()summerise():有_all()_at()_if()操作,分别表示对全部列、指定列(序号1:4-1:-2)和满足条件的列操作。参数中的.funs操作是一个匿名函数,例如.funs = funs(ifelse(x, ., NA)).表示对应的列。同时,.funs可以有多个操作(同时赋值列名),比如.funs = funs(repNA = ifelse(x, ., NA), repEmp = replace_na(., ''))

  • $依然有效,可以方便取某列或者对某列赋值。

3. 行操作

  • sample_n()sample_frac():随机选择行。

  • top_n():选择前n行。可以使用负数值,表示倒数n行。

  • slice(): 根据行号选择。可以选择多行。受group操作影响。

4. 两个表的操作

  • inner_join(x, y):按照指定的列(可以多列),只返回x和y的共同内容。

  • left_join(x, y):按照指定的列(可以多列),返回x和y相同内容和剩余x内容(y中没有的用NA替代)。

  • right_join(x, y):等价于left_join(y, x)

  • full_join(x, y):全部x和y内容(没有的用NA代替)。

  • semi_join(x, y, by):按照指定的列(可以多列),返回x中与y相同的内容。制定列可以写为by = c('col1', 'col2')或者by = c('colx1' = 'coly1', 'colx2' = 'coly2')

  • anti_join(x, y)semi_join()后x剩余的内容。

  • bind_rows(x, y)bind_cols(x, y):行和列连接。

  • intersect(x, y)setdiff(x, y)union(x, y):对行判断,x和y的交集、x中的余集和并集。

  • setequal(x, y):x和y的行是否相同(与行顺序无关)。

5. 行名操作

  • rownames_to_column():把行名变成某列。

  • column_to_rownames():把某列变为行名。

参考资料

更新记录

2018年12月13日

Comments