Python前程無(wú)憂(yōu)深圳UI設(shè)計(jì)師崗位分析

數(shù)據(jù)來(lái)源

爬蟲(chóng)抓取前程無(wú)憂(yōu)1500多條深圳UI設(shè)計(jì)師崗位發(fā)布信息.

原始數(shù)據(jù)

image.png

處理后數(shù)據(jù)

image.png

說(shuō)明:
cate是企業(yè)給的福利,text是發(fā)布信息的文本,稍后提取.
發(fā)布信息中的工資和工作經(jīng)驗(yàn)是一個(gè)范圍,本次取均值來(lái)探索。

可視化

1,經(jīng)驗(yàn)和工資正相關(guān),其中學(xué)歷越高工資基數(shù)越高(我們還可以看觀察斜率得到一些結(jié)論)

**注:職位碩士要求的樣本只有一個(gè),剔除.


image.png

2,約40%的發(fā)布只要求大專(zhuān),該職業(yè)對(duì)學(xué)歷要求不高.

image.png

3,發(fā)布地區(qū)基本在南山和福田

image.png

4,80%發(fā)布單位為民營(yíng)公司,其次為上市公司僅占5%

image.png

5,以中小企業(yè)為主

image.png

6,崗位相關(guān)行業(yè)以計(jì)算機(jī)軟件和電子商務(wù)居多,電子商務(wù)也占一小部分.

image.png

7,工資多分布在四個(gè)段人數(shù)較多分別是6k,7.5k,9k,1.2w

image.png

8,大多數(shù)不要求工作經(jīng)驗(yàn),想要你們來(lái)打雜,2-3年工作經(jīng)驗(yàn)要求最多,招來(lái)干活.

image.png

9,招一個(gè)人的占多數(shù)

image.png

文本特征提取

我們有兩部分文本,一部分是公司可以給的福利,第二部分是崗位的要求:


image.png

對(duì)公司福利直接用"|"分詞統(tǒng)計(jì),對(duì)崗位要求采用最簡(jiǎn)單的TF-IDF提取關(guān)鍵詞.

可視化

公司福利

他們最?lèi)?ài)給的就是五險(xiǎn)一金了??


image.png

公司福利關(guān)鍵字后20
這個(gè)真的是有啥說(shuō)啥


image.png

工作要求

image.png
image.png
image.png

image.png

image.png

探索影響工資的因素

image.png

關(guān)鍵字特征是由朋友挑選的.
處理后字段如下
總共90維


image.png

image.png

image.png

集成器樹(shù)回歸特征重要性

這里我使用python中sklearn的random forest,特征重要性以該特征作為分裂點(diǎn)的頻率和加入該特征給模型帶來(lái)的成本的上升來(lái)界定.
畢竟我們不是為了最小化損失函數(shù),稍微調(diào)一下超參數(shù)即可.

rf = RandomForestRegressor(n_estimators=400,max_features = 0.2,bootstrap = True,max_depth = 20)

我們的目標(biāo)值是工資,最后得到如下特征重要度排名


image.png

排名第一的是工作經(jīng)驗(yàn),對(duì)工資的多少來(lái)說(shuō)是最重要的,而第二名就是本科的學(xué)位了,有本科學(xué)位要求的公司會(huì)開(kāi)出更高的工資.
雙休這個(gè)關(guān)鍵字的出現(xiàn)也是一個(gè)影響工資的重要特征,不過(guò)樹(shù)回歸探索不到該特征對(duì)工資是正相關(guān)還是負(fù)相關(guān).我們可以畫(huà)下相關(guān)系數(shù)熱力圖來(lái)看.
維度過(guò)多了,我們提取特征重要度前20的特征


image.png

我們看最后一列
哈哈~雙休和中專(zhuān)學(xué)位都讓工資下降了,往下看帶補(bǔ)貼關(guān)鍵字的也會(huì)給少工資.其實(shí)這張圖雖然看起來(lái)好看,但是辨識(shí)起來(lái)還是不方便的,我們換個(gè)梯度的顏色來(lái)觀察


image.png

這樣就清晰多了.這種信息量會(huì)比較大,他包含特征重要性的排行和他們間的相關(guān)性大小,慢慢看會(huì)有一些有意思的點(diǎn).(比如"產(chǎn)品"和"體驗(yàn)"相關(guān)性挺高的,其實(shí)這是分詞的問(wèn)題,我們?cè)跊](méi)有添加語(yǔ)料庫(kù)的情況下,使用"貪婪"的分詞,就會(huì)把"產(chǎn)品體驗(yàn)"給分成兩個(gè)詞."交互體驗(yàn)"也是如此.)
探討到此為止了嗎?沒(méi)~
在這里有沒(méi)發(fā)現(xiàn)對(duì)工具要求對(duì)工資來(lái)說(shuō)并沒(méi)有什么用?在排行前的只有一個(gè)Illustrator,大家都要結(jié)果,管你用啥工具的意思???

進(jìn)一步探索

我們回到這張圖,我們來(lái)做一個(gè)不同經(jīng)驗(yàn)要求下哪些特征對(duì)工資影響大


image.png

1,無(wú)工作經(jīng)驗(yàn)要求

image.png

image.png

結(jié)論:
1,無(wú)經(jīng)驗(yàn)求的的發(fā)布不希望給你休息,你想雙休就得低工資。
2,在鹽田和珠海這兩個(gè)地區(qū)會(huì)給你高一些工資
3,學(xué)歷還是硬傷,中專(zhuān)就會(huì)拿少工資。

2,1年工作經(jīng)驗(yàn)要求

image.png

image.png

1,保安區(qū)和招5人的發(fā)布給低工資。

3,3年工作經(jīng)驗(yàn)要求

image.png

image.png

1,就算有了3年工作經(jīng)驗(yàn),學(xué)歷還是很重要的
2,發(fā)布要求會(huì)更強(qiáng)調(diào)"體驗(yàn)",即可以提升用戶(hù)體驗(yàn),還有"美術(shù)"、”交互“等。說(shuō)明各發(fā)布更強(qiáng)調(diào)可以達(dá)到的實(shí)際效果。

5年工作經(jīng)驗(yàn)要求

image.png

image.png

1,五年工作經(jīng)驗(yàn)的人在大企業(yè)更容易拿高薪。
2,給補(bǔ)貼的企業(yè)更愛(ài)給高薪。
3,中型(150-500)公司也愛(ài)又經(jīng)驗(yàn)的人,不過(guò)給的相對(duì)大公司來(lái)說(shuō)沒(méi)那么闊氣。
4,小公司(50-150)會(huì)給更低的薪資,注意啦。

對(duì)自己說(shuō)的

這是針對(duì)挖掘技術(shù)上的總結(jié)。
1,樣本僅限于前程無(wú)憂(yōu)深圳UI設(shè)計(jì)師,其他網(wǎng)站和地區(qū)以及職業(yè)不具代表性。
2,TF-IDF那部分還要改進(jìn)。
3,數(shù)據(jù)源的增加,可以加入智聯(lián)招聘、拉勾網(wǎng)等網(wǎng)站。
4,這個(gè)分析是針對(duì)買(mǎi)方(購(gòu)買(mǎi)勞動(dòng)力)的。
5,可以加入聚類(lèi)。
6,再做一個(gè)“數(shù)據(jù)分析師”為自變量的崗位分析作為對(duì)比,對(duì)比這個(gè)分析流程是否合理,兩個(gè)不同的崗位有什么區(qū)別。
7,能否幫助到朋友找工作和確定未來(lái)要怎么學(xué)習(xí)來(lái)加薪這兩個(gè)問(wèn)題,這篇文章可能并不能很好的回答,有點(diǎn)慚愧。
8,說(shuō)到底還是工作時(shí)間最有用,當(dāng)然這是表面上的,HR會(huì)衡量你工作時(shí)間和工作能力、作品來(lái)給你開(kāi)薪。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容