淺談 AI簡歷解析 系統(tǒng)

從事招聘行業(yè)的工作人員每天無法避免接觸的就是大量簡歷,但偏偏每個(gè)人寫的簡歷都非常不一樣從中提取需要信息并記錄歸檔是一個(gè)非常沉悶而繁重的事情。


考慮以下幾個(gè)場景:

- HR希望快速篩選出來本科以上的同學(xué),因此規(guī)定所有申請(qǐng)者必須在簡歷名稱以姓名,學(xué)校,專業(yè)的格式來命名。

- 獵頭在獲取大量簡歷后,花大量時(shí)間對(duì)其進(jìn)行歸檔和管理。

- 申請(qǐng)人在申請(qǐng)工作時(shí),花很多時(shí)間把自己簡歷里的信息對(duì)應(yīng)填寫到公司或網(wǎng)站規(guī)定的位置上



其實(shí)以上三個(gè)場景本質(zhì)上都是一個(gè)問題,就是如何將任意簡歷變成結(jié)構(gòu)化信息。試想如果有一個(gè)工具,輸入任意格式的簡歷,能夠準(zhǔn)確地讀取出里面所有的信息,如姓名,地址,教育經(jīng)歷,工作經(jīng)歷等,然后對(duì)自己想要的條件進(jìn)行百度般地搜索,一定能大大減少招聘人員的工作時(shí)間。小析智能簡歷解析擁有行業(yè)最精細(xì)準(zhǔn)確的簡歷信息提取技術(shù),一秒內(nèi)能解析并記錄5份的簡歷,能夠最大限度地節(jié)省您的錄入時(shí)間。

下面簡單介紹小析智能簡歷解析的技術(shù)優(yōu)勢(shì)。


1. 格式轉(zhuǎn)換靈活,準(zhǔn)確率不隨格式而改變

市面上大多數(shù)的簡歷解析系統(tǒng)對(duì)于各種類型的格式都是統(tǒng)一用一個(gè)標(biāo)準(zhǔn)工具將其轉(zhuǎn)化成txt(純文本)然后對(duì)內(nèi)容進(jìn)行讀取,因此不同格式的簡歷可能會(huì)因?yàn)檗D(zhuǎn)化方式單一導(dǎo)致信息的錯(cuò)漏,針對(duì)這個(gè)細(xì)節(jié),小析團(tuán)隊(duì)花了上百小時(shí)對(duì)每種常見格式進(jìn)行研究(pdf, docx, html等),對(duì)每種格式都設(shè)計(jì)了最優(yōu)的轉(zhuǎn)化方案,爭取不同格式的簡歷都能得到完整的信息。

2. 模仿人類思維,各經(jīng)歷模塊劃分更精準(zhǔn)

傳統(tǒng)的簡歷解析,需要依賴大量的段落關(guān)鍵詞,設(shè)計(jì)規(guī)則來對(duì)不同模塊進(jìn)行劃分。如簡歷某一行出現(xiàn)了教育經(jīng)歷/學(xué)習(xí)經(jīng)歷/education experience, 則說明下面的內(nèi)容屬于教育模塊。如出現(xiàn)了工作經(jīng)歷/實(shí)習(xí)經(jīng)歷/實(shí)踐經(jīng)歷則說明下面內(nèi)容屬于工作經(jīng)歷模塊。這種設(shè)計(jì)方式看似合理,實(shí)則與人類思維方式實(shí)在不同,試想如果該簡歷沒有使用模塊關(guān)鍵詞,或者使用了的詞庫沒有的模塊關(guān)鍵詞,則整個(gè)段落都漏掉了,回想下自己是怎么劃分簡歷模塊的,如果對(duì)于某一行,上文是該人的基本信息,而下面連續(xù)出現(xiàn)了多行都是學(xué)校的信息,則知道這里是基本信息和教育經(jīng)歷的劃分點(diǎn)了, 因此為了模仿人類的思維,小析簡歷解析系統(tǒng)不設(shè)定任何關(guān)鍵詞典,通過雙向長短記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)模型引入上下文的序列信息,并加入條件隨機(jī)場對(duì)模塊間跳轉(zhuǎn)概率進(jìn)行學(xué)習(xí)(如大部分簡歷是從教育經(jīng)歷跳到工作經(jīng)歷,反過來則比較少),爭取最大可能精確地劃分模塊信息

3. 注重烹飪?cè)?,使機(jī)器學(xué)習(xí)算法更有效

機(jī)器學(xué)習(xí)簡單來說,就是教機(jī)器讀懂你希望它學(xué)會(huì)的東西,教學(xué)資料越好,越多,學(xué)習(xí)的效果就越好,不同于市面大多數(shù)簡歷解析是利用標(biāo)準(zhǔn)化簡歷為學(xué)習(xí)材料,我們收集了數(shù)十萬份不同來源的簡歷作為學(xué)習(xí)材料,并對(duì)其進(jìn)行了大量標(biāo)注,以求得到最充分,最準(zhǔn)確的學(xué)習(xí)材料。有了好的材料才能有機(jī)地結(jié)合我們的算法得到更好的效果。試問如果學(xué)習(xí)的材料都是錯(cuò)的,機(jī)器的學(xué)習(xí)能力越強(qiáng),豈不是南轅北轍

4. 做到有的放矢,著力優(yōu)化關(guān)鍵字段準(zhǔn)確率

作為一個(gè)從事招聘行業(yè)的人,一個(gè)簡歷最關(guān)鍵的就是聯(lián)系方式,地點(diǎn),公司,崗位,學(xué)校,學(xué)歷等,小析數(shù)據(jù)科學(xué)家團(tuán)隊(duì)把大量的經(jīng)精力花在關(guān)鍵字段的優(yōu)化上。對(duì)于每個(gè)字段都選擇最優(yōu)的提取方式,如聯(lián)系方式,地點(diǎn)等用字段匹配的效果會(huì)更好(雖然落后),對(duì)于公司,學(xué)校的信息,站在巨人肩膀上,我們技術(shù)團(tuán)隊(duì)參考了近年各大優(yōu)秀會(huì)議的相關(guān)論文,最終決定使用Iterated Dilated CNN的網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行命名實(shí)體識(shí)別。用人話來說,就是即使簡歷里出現(xiàn)的公司是小析科技(而不是小析科技有限公司),我們也能夠根據(jù)上下文提取出來并知道這是公司名字。


非常感謝大家花時(shí)間來閱讀,如果希望親身體會(huì)一下簡歷解析的結(jié)果歡迎到小析智能簡歷解析DEMO頁面來進(jìn)行測試。非常歡迎對(duì)此有業(yè)務(wù)需求或者對(duì)技術(shù)感興趣的小伙伴與我們聯(lián)系。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 178,765評(píng)論 25 709
  • 用兩張圖告訴你,為什么你的 App 會(huì)卡頓? - Android - 掘金 Cover 有什么料? 從這篇文章中你...
    hw1212閱讀 13,913評(píng)論 2 59
  • 2017年,3月11日 雖然十點(diǎn)半才到省實(shí),但上午的班主任培訓(xùn)還是讓我收益匪淺。青年教師可能專業(yè)性很強(qiáng),感覺自己也...
    星語星愿_8d09閱讀 297評(píng)論 0 0
  • 13到21歲 13歲進(jìn)入青春期,但因?yàn)椴槐粙寢尨?,所以也就沒有什么叛逆呀,不聽話呀這些表現(xiàn)。只是想的如何乖...
    海洋奇緣閱讀 357評(píng)論 0 0
  • 篆|寸心 圖|自拍 【收藏章】 【釋文】周志權(quán)收藏金石書畫 【形制】朱文鐵線 【規(guī)格】3.0c...
    大為師道閱讀 278評(píng)論 1 12

友情鏈接更多精彩內(nèi)容