數(shù)據(jù)挖掘中特征的處理一(實踐)

最好不要在原始列上操作,增加列

\color{#FF3366}{通常不在原始數(shù)據(jù)上進(jìn)行操作,采取增加一列的方式處理數(shù)據(jù)}

parties = {'Bachmann, Michelle': 'Republican',
           'Cain, Herman': 'Republican',
           'Gingrich, Newt': 'Republican',
           'Huntsman, Jon': 'Republican',
           'Johnson, Gary Earl': 'Republican',
           'McCotter, Thaddeus G': 'Republican',
           'Obama, Barack': 'Democrat',
           'Paul, Ron': 'Republican',
           'Pawlenty, Timothy': 'Republican',
           'Perry, Rick': 'Republican',
           "Roemer, Charles E. 'Buddy' III": 'Republican',
           'Romney, Mitt': 'Republican','Santorum, Rick': 'Republican'}

contb['party'] = contb['cand_nm'].map(parties)

下面是一個log日志字段說明,篇幅有限,提供兩行示例

id userid itemid categoryid type time
1794879 16508 550769 2440115 pv 1423230247
1551349 153760 4246496 3077776 pv 1499073872
將用戶行為類型給予不同的權(quán)重,拍腦袋設(shè)定的(也是經(jīng)驗的一部分,分享權(quán)重>收藏>評論>深度閱讀>隨意翻閱)

將文本 映射成數(shù)字的辦法

def action_type_transfer(x):
    if x == 'view':
        return 0.8
    elif x == 'deep_view':
        return 1
    elif x == 'comment':
        return 1.2
    elif x == 'collect':
        return 1.2
    elif x == 'share':
        return 1.5
    else:
        return 1
train['actiontype_weight'] = train['action_type'].apply(action_type_transfer) 
gender_map = {'F':0, 'M':1}
users['Gender'] = users['Gender'].map(gender_map)

\color{#FF3366}{如何處理時間,通常需要轉(zhuǎn)化}
以下兩個包是必不可少的

import time
import datetime
def timestamp_transfer(x):
    x = time.localtime(x)
    x = time.strftime("%Y-%m-%d %H:%M:%S", x)
    return x

train['date'] = train['action_time'].apply(timestamp_transfer)

all_news_info['date'] = pd.to_datetime(all_news_info['date']).dt.date
news_info['date'] = pd.to_datetime(news_info['date']).dt.date
news_info['sub_days'] = (datetime.date(2017, 2, 19) - news_info['date']).dt.days
all_news_info['sub_days'] = (datetime.date(2017, 2, 19) - all_news_info['date']).dt.days
train['sub_days'] = (datetime.date(2017, 2, 19) - train['date']).dt.days
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容