不管你成不承認(rèn),R的文字處理不如Python好,盡管也能用。
R可以創(chuàng)建字符向量,
> character(length = )
對(duì)于字符串,我們常需要合并、取出部分、統(tǒng)計(jì)長(zhǎng)度,R中都需要函數(shù)。
# 合并
paste(x, y, sep = '')
# 統(tǒng)計(jì)長(zhǎng)度
nchar(x)
# 取子串
substr(x, start = , stop = )
正則表達(dá)式的使用套路:
m <- regexpr('/art/[0-9]*/[0-9]*/[0-9]*/art_[0-9]*_[0-9]*.html', c[j])
c[j] <- substr(c[j], m, attr(m, "match.length") - 1 + m)