R-數(shù)據(jù)分析系列-數(shù)據(jù)去重

在進(jìn)行數(shù)據(jù)分析的過程中,我們常常會(huì)根據(jù)不同變量做去重處理,有單一變量和多變量處理兩種情況


單一變量去重

result <-rawdata[!duplicated(rawdata$Topic),]

result <-rawdata[unique(rawdata$Topic),]

使用這兩種方法,獲得的結(jié)果是一樣的,其中rawdata[XXXXX,]的作用是提取選中的行數(shù)據(jù),同理,rawdata[,XXXXX]則是提取選中的列數(shù)據(jù)

unique() 和 !duplicated() 是提取去重后的所在行的相關(guān)變量


多變量去重

按照Topic以及Sentiment進(jìn)行去重,方法如下,該方法適用于>=2以上的參數(shù)進(jìn)行去重

result<-rawdata[!duplicated(rawdata[,c('Topic','Sentiment')]),]

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,612評(píng)論 19 139
  • 國(guó)家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報(bào)批稿:20170802 前言: 排版 ...
    庭說閱讀 12,443評(píng)論 6 13
  • 按照Ubuntu wiki安裝lighttpd和php后,出現(xiàn)403 Forbidden,查看error.log,...
    SuperFrank閱讀 3,364評(píng)論 0 2
  • 太陽已下山 天空泛著的藍(lán)色 路燈的黃色 川流卻不擁堵的路上 公交巴士?jī)?nèi),昏暗的燈光,充足的冷氣,及少數(shù)的人 望著車...
    樹郎閱讀 245評(píng)論 0 0
  • 接著上次的寫。 安祿山終于見到了唐玄宗。 李隆基到底有多喜歡安祿山呢?那絕對(duì)是真愛。 三年之中,從一文不名大字不識(shí)...
    林蔚安閱讀 337評(píng)論 0 1

友情鏈接更多精彩內(nèi)容