爬蟲所取得的數(shù)據(jù)岑參不齊,編碼也很亂,一個(gè)數(shù)據(jù)框中有好幾個(gè)編碼。
R語言對中文支持比較差,在把數(shù)據(jù)框整個(gè)的插入MySQL中時(shí)最容易出現(xiàn)亂碼,不好調(diào)節(jié),所以最好的辦法時(shí)利用SQL語句對數(shù)據(jù)框中的數(shù)據(jù)一條一條的插入到MySQL中。如果,某一條數(shù)據(jù)出現(xiàn)亂碼,單獨(dú)對這一條進(jìn)行轉(zhuǎn)碼再插入。
strSQL <- paste(
'insert into ziti (ID,job_name,job_saray,job_space,job_ex,job_ed) values',
paste(x,ziti$job_name[i],ziti$job_saray[i],ziti$job_space[i],ziti$job_ex[i],ziti$job_ed[i]),collapse=', '),sep = ' ')
dbSendQuery(con, strSQL)