中軟杯-詳細(xì)設(shè)計(jì)說明書
一、 引言
1.1 編寫目的
本報(bào)告的目的是對(duì)智能創(chuàng)作平臺(tái)進(jìn)行詳細(xì)設(shè)計(jì)說明,以便用戶及項(xiàng)目開發(fā)人員了解產(chǎn)品詳細(xì)的設(shè)計(jì)與實(shí)現(xiàn)。為開發(fā)人員提供開發(fā)參考書。以下敘述將結(jié)合文字描述、偽代碼,圖表等來描述智能創(chuàng)作平臺(tái)的詳細(xì)設(shè)計(jì)和相關(guān)的模塊描述。
1.2 項(xiàng)目背景
項(xiàng)目名稱:楓心智創(chuàng)
任務(wù)提出者:西南大學(xué)
開發(fā)者:紅蜻蜓隊(duì)
用戶:公司,內(nèi)容編輯,政府等相關(guān)用戶。
1.3 定義
使用人工智能算法,生成契合文章主題內(nèi)容和有吸引力的優(yōu)質(zhì)標(biāo)題和摘要,并開發(fā)出一套智能創(chuàng)作WEB系統(tǒng),幫助人類提升對(duì)于簡歷分析的效率和質(zhì)量,主要涉及自然語言處理、自然語言生成、自然語言理解技術(shù)。設(shè)計(jì)程序?yàn)?em>微信小程序 ,主要操作語言是javascript,輔助語言python
1.4 參考資料
數(shù)據(jù)提取參考:文字識(shí)別OCR (baidu.com)
界面以及線程優(yōu)化參考:snooda/net-speeder: net-speeder 在高延遲不穩(wěn)定鏈路上優(yōu)化單線程下載速度 (github.com)
快速上手 - Vant Weapp (youzan.github.io)
二、 總體設(shè)計(jì)
2.1 需求概述
用戶通過手動(dòng)上傳文檔提交新聞文章至服務(wù)器進(jìn)行識(shí)別,從而的到該文章的標(biāo)題和摘要。
基本功能需求
基本功能一:簡歷信息、崗位信息錄入功能,至少支持文本、PDF格式輸入。
基本功能二:簡歷分析功能,自動(dòng)提取簡歷中的關(guān)鍵信息,支持的信息維度至少包括:姓名、年齡、最高學(xué)歷、畢業(yè)院校、工作年限。
基本功能三:簡歷信息統(tǒng)計(jì)和展示功能,提供簡歷信息的統(tǒng)計(jì)可視化以及單一簡歷的分析可視化。
基本功能四:支持DOCX、JPEG/PNG圖片格式簡歷錄入。
基本功能五:支持人才畫像構(gòu)建,畫像標(biāo)簽選手可自行定義,如“工作穩(wěn)定/變動(dòng)頻繁/人工智能/薪酬預(yù)期”等。
基本功能六:需要具備人崗匹配功能,對(duì)不同的崗位信息按不同的優(yōu)先級(jí)給出求職者的排序。
非功能性需求
1.用戶登錄。
2.人工客戶咨詢
3.軟件需求文檔查看
4.簡歷分析次數(shù)購買,支付系統(tǒng)
5.職位薪資預(yù)測(cè)
6.人物畫像
2.2 軟件結(jié)構(gòu)
[圖片上傳失敗...(image-97a18e-1686902517155)]
三、模塊描述
3.1 模塊基本信息
| 名稱 | 編號(hào) | 所在文件 | 所在包 |
|---|---|---|---|
| 主頁 | 1 | /home | /pages |
| 分析(上傳文件) | 2 | /fenxi/fenxi | /pages |
| 服務(wù) | 3 | /fuwu/fuwu | /pages |
| 我的 | 4 | /my/my | /pages |
| 分析簡歷文件 | 5 | /jldetail/jldetail | /pages |
| 活動(dòng) | 6 | /huodong/huodong | /pages |
| 企業(yè)搜索 | 7 | /searchP/searchP | /pages |
| AI/人工咨詢 | 8 | /chatC/chatC | /pages |
如表1所示,說明了各個(gè)模塊的基本信息,包括模塊名稱、編號(hào)、所在文件和所在包。
3.2 功能概述
3.2.1 登錄和注冊(cè)
如果是新用戶,可以通過點(diǎn)擊新用戶注冊(cè)進(jìn)行用戶的注冊(cè)。之后通過輸入你的郵箱,點(diǎn)擊獲取驗(yàn)證碼,輸入你郵箱獲取的驗(yàn)證碼,然后輸入密碼,實(shí)現(xiàn)用戶的注冊(cè)。完成用戶注冊(cè)之后,就能登錄,進(jìn)行簡歷分析操作。
3.2.2 分析(上傳文件/分析模式)
支持上傳你想要上傳的任何格式,以及選擇不同的分析類型,包含極速模式,普通模式以及精準(zhǔn)模式,讓你的簡歷分析更加完整且準(zhǔn)確,分析結(jié)果不僅包括簡歷內(nèi)部人員的基本信息,還包含職能分析圖,能力預(yù)測(cè)圖,還有AI智能分析的職位預(yù)測(cè)圖等,這都根據(jù)簡歷實(shí)際內(nèi)容自動(dòng)更改。
3.2.2 分析(上傳文件)
讀取文檔,經(jīng)過數(shù)據(jù)清洗后,輸入到已經(jīng)訓(xùn)練好的模型,經(jīng)過模型的計(jì)算,輸出給AI進(jìn)行智能解析,對(duì)于一些不好讀取的內(nèi)容,編寫了一定的Python代碼進(jìn)行輔助更改
3.3 算法
3.3.1 隱馬爾可夫模型HMM
隱馬爾科夫模型(Hidden Markov Model,以下簡稱HMM)是比較經(jīng)典的機(jī)器學(xué)習(xí)模型了,它在語言識(shí)別,自然語言處理,模式識(shí)別等領(lǐng)域得到廣泛的應(yīng)用。
當(dāng)然,隨著目前深度學(xué)習(xí)的崛起,尤其是RNN,LSTM等神經(jīng)網(wǎng)絡(luò)序列模型的火熱,HMM的地位有所下降。
但是作為一個(gè)經(jīng)典的模型,學(xué)習(xí)HMM的模型和對(duì)應(yīng)算法,對(duì)我們解決問題建模的能力提高以及算法思路的拓展還是很好的。
3.3.2 正則表達(dá)式
正則表達(dá)式是一種用于匹配和操作文本的強(qiáng)大工具,它是由一系列字符和特殊字符組成的模式,用于描述要匹配的文本模式。
正則表達(dá)式可以在文本中查找、替換、提取和驗(yàn)證特定的模式。
3.4 簡歷處理邏輯
下圖是新聞標(biāo)題生成和新聞?wù)赡K的流程圖,開始首先上傳文檔、數(shù)據(jù)清洗,輸入到模型后生成簡歷分析結(jié)果和能力分析模型。
[圖片上傳失敗...(image-3b246b-1686902517155)]
3.5 接口
3.5.1數(shù)據(jù)庫接口
獲取企業(yè)數(shù)據(jù),分析簡歷基礎(chǔ)
● URL:https://pacfoewk.lc-cn-n1-shared.com
● Method:GET
響應(yīng)參數(shù):
| 參數(shù)名 | 類型 | 描述 |
|---|---|---|
| appId | string | 填寫數(shù)據(jù)庫id |
| appKey | string | 數(shù)據(jù)庫密鑰 |
| serverURLs | string | 服務(wù)器地址 |
3.5.2 AI簡歷分析接口
請(qǐng)求示例
HTTP 方法:POST
請(qǐng)求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic
URL參數(shù):
| 參數(shù) | 值 |
|---|---|
| access_token | 通過API Key和Secret Key獲取的access_token,參考“Access Token獲取” |
Header如下:
| 參數(shù) | 值 |
|---|---|
| Content-Type | application/x-www-form-urlencoded |
Body中放置請(qǐng)求參數(shù),參數(shù)詳情如下:
請(qǐng)求參數(shù)
| 參數(shù) | 是否必選 | 類型 | 可選值范圍 | 說明 |
|---|---|---|---|---|
| image | 和 url/pdf_file/ofd_file 四選一 | string | - | 圖像數(shù)據(jù),base64編碼后進(jìn)行urlencode,要求base64編碼和urlencode后大小不超過10M,最短邊至少15px,最長邊最大8192px,支持jpg/jpeg/png/bmp格式 優(yōu)先級(jí):image > url > pdf_file,當(dāng)image字段存在時(shí),url、pdf_file字段失效 |
| url | 和 image/pdf_file/ofd_file 四選一 | string | - | 圖片完整url,url長度不超過1024字節(jié),url對(duì)應(yīng)的圖片base64編碼后大小不超過10M,最短邊至少15px,最長邊最大8192px,支持jpg/jpeg/png/bmp格式 優(yōu)先級(jí):image > url > pdf_file,當(dāng)image字段存在時(shí),url字段失效 請(qǐng)注意關(guān)閉URL防盜鏈 |
| pdf_file | 和 image/url/ofd_file 四選一 | string | - | PDF文件,base64編碼后進(jìn)行urlencode,要求base64編碼和urlencode后大小不超過10M,最短邊至少15px,最長邊最大8192px 優(yōu)先級(jí):image > url > pdf_file,當(dāng)image、url字段存在時(shí),pdf_file字段失效 |
| pdf_file_num | 否 | string | - | 需要識(shí)別的PDF文件的對(duì)應(yīng)頁碼,當(dāng) pdf_file 參數(shù)有效時(shí),識(shí)別傳入頁碼的對(duì)應(yīng)頁面內(nèi)容,若不傳入,則默認(rèn)識(shí)別第 1 頁 |
| ofd_file | 和 image/url/pdf_file 四選一 | string | - | OFD文件,base64編碼后進(jìn)行urlencode,要求base64編碼和urlencode后大小不超過8M,最短邊至少15px,最長邊最大8192px 優(yōu)先級(jí):image > url > pdf_file > ofd_file,當(dāng)image、url、pdf_file字段存在時(shí),ofd_file字段失效 |
| ofd_filie_num | 否 | string | - | 需要識(shí)別的OFD文件的對(duì)應(yīng)頁碼,當(dāng) ofd_file 參數(shù)有效時(shí),識(shí)別傳入頁碼的對(duì)應(yīng)頁面內(nèi)容,若不傳入,則默認(rèn)識(shí)別第 1 頁 |
| language_type | 否 | string | auto_detect CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS DAN DUT MAL SWE IND POL ROM TUR GRE HUN THA VIE ARA HIN | 識(shí)別語言類型,默認(rèn)為CHN_ENG 可選值包括: - auto_detect:自動(dòng)檢測(cè)語言,并識(shí)別 - CHN_ENG:中英文混合 - ENG:英文 - JAP:日語 - KOR:韓語 - FRE:法語 - SPA:西班牙語 - POR:葡萄牙語 - GER:德語 - ITA:意大利語 - RUS:俄語 - DAN:丹麥語 - DUT:荷蘭語 - MAL:馬來語 - SWE:瑞典語 - IND:印尼語 - POL:波蘭語 - ROM:羅馬尼亞語 - TUR:土耳其語 - GRE:希臘語 - HUN:匈牙利語 - THA:泰語 - VIE:越南語 - ARA:阿拉伯語 - HIN:印地語 |
| detect_direction | 否 | string | true/false | 是否檢測(cè)圖像朝向,默認(rèn)不檢測(cè),即:false。朝向是指輸入圖像是正常方向、逆時(shí)針旋轉(zhuǎn)90/180/270度??蛇x值包括: - true:檢測(cè)朝向; - false:不檢測(cè)朝向 |
| paragraph | 否 | string | true/false | 是否輸出段落信息 |
| probability | 否 | string | true/false | 是否返回識(shí)別結(jié)果中每一行的置信度 |
3.5.3 AI交互接口
3.5.4 用戶信息接口
用戶注冊(cè)
● URL:https://pacfoewk.lc-cn-n1-shared.com
● Method:GET
響應(yīng)參數(shù):
| 參數(shù)名 | 類型 | 描述 |
|---|---|---|
| appId | string | 填寫數(shù)據(jù)庫id |
| appKey | string | 數(shù)據(jù)庫密鑰 |
| serverURLs | string | 服務(wù)器地址 |
3.5.5 預(yù)測(cè)工資與忠誠度計(jì)算

通過對(duì)于簡歷提供的工作信息,以平均職位、行業(yè)、企業(yè)停留時(shí)長,使用簡書上提供的公式可以計(jì)算產(chǎn)品運(yùn)營第五篇:用戶忠誠度計(jì)算模型 - 簡書 (jianshu.com)

四、測(cè)試計(jì)劃
模型測(cè)試部分,主要是通過不同的解碼策略,對(duì)已經(jīng)訓(xùn)練好的模型進(jìn)行單個(gè)樣本的標(biāo)題和摘要生成。
4.1 訓(xùn)練數(shù)據(jù)集測(cè)試
用于評(píng)估訓(xùn)練數(shù)據(jù)集帶來的影響,應(yīng)包括下列內(nèi)容:
a) 數(shù)據(jù)集均衡性:指數(shù)據(jù)集包含的各種類別的樣本數(shù)量一致程度和數(shù)據(jù)集樣本分布的偏差程度;
b) 數(shù)據(jù)集規(guī)模:通常用樣本數(shù)量來衡量,大規(guī)模數(shù)據(jù)集通常具有更好的樣本多樣性;
c) 數(shù)據(jù)集標(biāo)注質(zhì)量:指數(shù)據(jù)集標(biāo)注信息是否完備并準(zhǔn)確無誤;
d) 數(shù)據(jù)集污染情況:指數(shù)據(jù)集被人為添加的惡意數(shù)據(jù)的程度。
預(yù)期結(jié)果:訓(xùn)練數(shù)據(jù)集完好,且與模型精度正相關(guān)。
4.2 對(duì)抗樣本測(cè)試
用于評(píng)估對(duì)抗性樣本對(duì)深度學(xué)習(xí)算法的影響,應(yīng)包括下列內(nèi)容:
a) 白盒方式生成的樣本:指目標(biāo)模型已知的情況下,利用梯度下降等方式生成對(duì)抗性樣本;
b) 黑盒方式生成的樣本:指目標(biāo)模型未知的情況下,利用一個(gè)替代模型進(jìn)行模型估計(jì),針對(duì)替代模型使用白盒方式生成對(duì)抗性樣本;
c) 指定目標(biāo)生成的樣本:指利用已有數(shù)據(jù)集中的樣本,通過指定樣本的方式生成對(duì)抗性樣本;
d) 不指定目標(biāo)生成的樣本:指利用已有數(shù)據(jù)集中的樣本,通過不指定樣本(或使用全部樣本)的方式生成對(duì)抗性樣本。
預(yù)期結(jié)果:在有對(duì)抗樣本的情況下也能生成較為準(zhǔn)確的標(biāo)題和摘要
五、軟件主要界面
5.1 首頁

5.2 文件上傳

5.3 我的

5.4 服務(wù)

5.5 人工、AI客服咨詢

5.6 簡歷分析結(jié)果

5.6.1 簡歷信息提取

5.6.2 智能分析數(shù)據(jù)


5.6.3 智能分析圖像

5.6.4 智能分析職員忠誠度以及預(yù)測(cè)工資
