2023-06-16

中軟杯-詳細(xì)設(shè)計(jì)說明書

一、 引言

1.1 編寫目的

本報(bào)告的目的是對(duì)智能創(chuàng)作平臺(tái)進(jìn)行詳細(xì)設(shè)計(jì)說明,以便用戶及項(xiàng)目開發(fā)人員了解產(chǎn)品詳細(xì)的設(shè)計(jì)與實(shí)現(xiàn)。為開發(fā)人員提供開發(fā)參考書。以下敘述將結(jié)合文字描述、偽代碼,圖表等來描述智能創(chuàng)作平臺(tái)的詳細(xì)設(shè)計(jì)和相關(guān)的模塊描述。

1.2 項(xiàng)目背景

項(xiàng)目名稱:楓心智創(chuàng)

任務(wù)提出者:西南大學(xué)

開發(fā)者:紅蜻蜓隊(duì)

用戶:公司,內(nèi)容編輯,政府等相關(guān)用戶。

1.3 定義

使用人工智能算法,生成契合文章主題內(nèi)容和有吸引力的優(yōu)質(zhì)標(biāo)題和摘要,并開發(fā)出一套智能創(chuàng)作WEB系統(tǒng),幫助人類提升對(duì)于簡歷分析的效率和質(zhì)量,主要涉及自然語言處理、自然語言生成、自然語言理解技術(shù)。設(shè)計(jì)程序?yàn)?em>微信小程序 ,主要操作語言是javascript,輔助語言python

1.4 參考資料

數(shù)據(jù)提取參考:文字識(shí)別OCR (baidu.com)

shouzhong/Scanner: 二維碼/條碼識(shí)別、身份證識(shí)別、銀行卡識(shí)別、車牌識(shí)別、圖片文字識(shí)別、黃圖識(shí)別、駕駛證(駕照)識(shí)別 (github.com)

界面以及線程優(yōu)化參考:snooda/net-speeder: net-speeder 在高延遲不穩(wěn)定鏈路上優(yōu)化單線程下載速度 (github.com)

快速上手 - Vant Weapp (youzan.github.io)

Apache ECharts

二、 總體設(shè)計(jì)

2.1 需求概述

用戶通過手動(dòng)上傳文檔提交新聞文章至服務(wù)器進(jìn)行識(shí)別,從而的到該文章的標(biāo)題和摘要。

基本功能需求

基本功能一:簡歷信息、崗位信息錄入功能,至少支持文本、PDF格式輸入。

基本功能二:簡歷分析功能,自動(dòng)提取簡歷中的關(guān)鍵信息,支持的信息維度至少包括:姓名、年齡、最高學(xué)歷、畢業(yè)院校、工作年限。

基本功能三:簡歷信息統(tǒng)計(jì)和展示功能,提供簡歷信息的統(tǒng)計(jì)可視化以及單一簡歷的分析可視化。

基本功能四:支持DOCX、JPEG/PNG圖片格式簡歷錄入。

基本功能五:支持人才畫像構(gòu)建,畫像標(biāo)簽選手可自行定義,如“工作穩(wěn)定/變動(dòng)頻繁/人工智能/薪酬預(yù)期”等。

基本功能六:需要具備人崗匹配功能,對(duì)不同的崗位信息按不同的優(yōu)先級(jí)給出求職者的排序。

非功能性需求

1.用戶登錄。

2.人工客戶咨詢

3.軟件需求文檔查看

4.簡歷分析次數(shù)購買,支付系統(tǒng)

5.職位薪資預(yù)測(cè)

6.人物畫像

2.2 軟件結(jié)構(gòu)

[圖片上傳失敗...(image-97a18e-1686902517155)]

三、模塊描述

3.1 模塊基本信息

名稱 編號(hào) 所在文件 所在包
主頁 1 /home /pages
分析(上傳文件) 2 /fenxi/fenxi /pages
服務(wù) 3 /fuwu/fuwu /pages
我的 4 /my/my /pages
分析簡歷文件 5 /jldetail/jldetail /pages
活動(dòng) 6 /huodong/huodong /pages
企業(yè)搜索 7 /searchP/searchP /pages
AI/人工咨詢 8 /chatC/chatC /pages

如表1所示,說明了各個(gè)模塊的基本信息,包括模塊名稱、編號(hào)、所在文件和所在包。

3.2 功能概述

3.2.1 登錄和注冊(cè)

如果是新用戶,可以通過點(diǎn)擊新用戶注冊(cè)進(jìn)行用戶的注冊(cè)。之后通過輸入你的郵箱,點(diǎn)擊獲取驗(yàn)證碼,輸入你郵箱獲取的驗(yàn)證碼,然后輸入密碼,實(shí)現(xiàn)用戶的注冊(cè)。完成用戶注冊(cè)之后,就能登錄,進(jìn)行簡歷分析操作。

3.2.2 分析(上傳文件/分析模式)

支持上傳你想要上傳的任何格式,以及選擇不同的分析類型,包含極速模式,普通模式以及精準(zhǔn)模式,讓你的簡歷分析更加完整且準(zhǔn)確,分析結(jié)果不僅包括簡歷內(nèi)部人員的基本信息,還包含職能分析圖,能力預(yù)測(cè)圖,還有AI智能分析的職位預(yù)測(cè)圖等,這都根據(jù)簡歷實(shí)際內(nèi)容自動(dòng)更改。

3.2.2 分析(上傳文件)

讀取文檔,經(jīng)過數(shù)據(jù)清洗后,輸入到已經(jīng)訓(xùn)練好的模型,經(jīng)過模型的計(jì)算,輸出給AI進(jìn)行智能解析,對(duì)于一些不好讀取的內(nèi)容,編寫了一定的Python代碼進(jìn)行輔助更改

3.3 算法

3.3.1 隱馬爾可夫模型HMM

隱馬爾科夫模型(Hidden Markov Model,以下簡稱HMM)是比較經(jīng)典的機(jī)器學(xué)習(xí)模型了,它在語言識(shí)別,自然語言處理,模式識(shí)別等領(lǐng)域得到廣泛的應(yīng)用。

當(dāng)然,隨著目前深度學(xué)習(xí)的崛起,尤其是RNN,LSTM等神經(jīng)網(wǎng)絡(luò)序列模型的火熱,HMM的地位有所下降。

但是作為一個(gè)經(jīng)典的模型,學(xué)習(xí)HMM的模型和對(duì)應(yīng)算法,對(duì)我們解決問題建模的能力提高以及算法思路的拓展還是很好的。

3.3.2 正則表達(dá)式

正則表達(dá)式是一種用于匹配和操作文本的強(qiáng)大工具,它是由一系列字符和特殊字符組成的模式,用于描述要匹配的文本模式。

正則表達(dá)式可以在文本中查找、替換、提取和驗(yàn)證特定的模式。

3.4 簡歷處理邏輯

下圖是新聞標(biāo)題生成和新聞?wù)赡K的流程圖,開始首先上傳文檔、數(shù)據(jù)清洗,輸入到模型后生成簡歷分析結(jié)果和能力分析模型。

[圖片上傳失敗...(image-3b246b-1686902517155)]

3.5 接口

3.5.1數(shù)據(jù)庫接口

獲取企業(yè)數(shù)據(jù),分析簡歷基礎(chǔ)

URLhttps://pacfoewk.lc-cn-n1-shared.com

Method:GET

響應(yīng)參數(shù):

參數(shù)名 類型 描述
appId string 填寫數(shù)據(jù)庫id
appKey string 數(shù)據(jù)庫密鑰
serverURLs string 服務(wù)器地址

3.5.2 AI簡歷分析接口

請(qǐng)求示例

HTTP 方法:POST

請(qǐng)求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic

URL參數(shù):

參數(shù)
access_token 通過API Key和Secret Key獲取的access_token,參考“Access Token獲取

Header如下:

參數(shù)
Content-Type application/x-www-form-urlencoded

Body中放置請(qǐng)求參數(shù),參數(shù)詳情如下:

請(qǐng)求參數(shù)

參數(shù) 是否必選 類型 可選值范圍 說明
image 和 url/pdf_file/ofd_file 四選一 string - 圖像數(shù)據(jù),base64編碼后進(jìn)行urlencode,要求base64編碼和urlencode后大小不超過10M,最短邊至少15px,最長邊最大8192px,支持jpg/jpeg/png/bmp格式 優(yōu)先級(jí):image > url > pdf_file,當(dāng)image字段存在時(shí),url、pdf_file字段失效
url 和 image/pdf_file/ofd_file 四選一 string - 圖片完整url,url長度不超過1024字節(jié),url對(duì)應(yīng)的圖片base64編碼后大小不超過10M,最短邊至少15px,最長邊最大8192px,支持jpg/jpeg/png/bmp格式 優(yōu)先級(jí):image > url > pdf_file,當(dāng)image字段存在時(shí),url字段失效 請(qǐng)注意關(guān)閉URL防盜鏈
pdf_file 和 image/url/ofd_file 四選一 string - PDF文件,base64編碼后進(jìn)行urlencode,要求base64編碼和urlencode后大小不超過10M,最短邊至少15px,最長邊最大8192px 優(yōu)先級(jí):image > url > pdf_file,當(dāng)image、url字段存在時(shí),pdf_file字段失效
pdf_file_num string - 需要識(shí)別的PDF文件的對(duì)應(yīng)頁碼,當(dāng) pdf_file 參數(shù)有效時(shí),識(shí)別傳入頁碼的對(duì)應(yīng)頁面內(nèi)容,若不傳入,則默認(rèn)識(shí)別第 1 頁
ofd_file 和 image/url/pdf_file 四選一 string - OFD文件,base64編碼后進(jìn)行urlencode,要求base64編碼和urlencode后大小不超過8M,最短邊至少15px,最長邊最大8192px 優(yōu)先級(jí):image > url > pdf_file > ofd_file,當(dāng)image、url、pdf_file字段存在時(shí),ofd_file字段失效
ofd_filie_num string - 需要識(shí)別的OFD文件的對(duì)應(yīng)頁碼,當(dāng) ofd_file 參數(shù)有效時(shí),識(shí)別傳入頁碼的對(duì)應(yīng)頁面內(nèi)容,若不傳入,則默認(rèn)識(shí)別第 1 頁
language_type string auto_detect CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS DAN DUT MAL SWE IND POL ROM TUR GRE HUN THA VIE ARA HIN 識(shí)別語言類型,默認(rèn)為CHN_ENG 可選值包括: - auto_detect:自動(dòng)檢測(cè)語言,并識(shí)別 - CHN_ENG:中英文混合 - ENG:英文 - JAP:日語 - KOR:韓語 - FRE:法語 - SPA:西班牙語 - POR:葡萄牙語 - GER:德語 - ITA:意大利語 - RUS:俄語 - DAN:丹麥語 - DUT:荷蘭語 - MAL:馬來語 - SWE:瑞典語 - IND:印尼語 - POL:波蘭語 - ROM:羅馬尼亞語 - TUR:土耳其語 - GRE:希臘語 - HUN:匈牙利語 - THA:泰語 - VIE:越南語 - ARA:阿拉伯語 - HIN:印地語
detect_direction string true/false 是否檢測(cè)圖像朝向,默認(rèn)不檢測(cè),即:false。朝向是指輸入圖像是正常方向、逆時(shí)針旋轉(zhuǎn)90/180/270度??蛇x值包括: - true:檢測(cè)朝向; - false:不檢測(cè)朝向
paragraph string true/false 是否輸出段落信息
probability string true/false 是否返回識(shí)別結(jié)果中每一行的置信度

3.5.3 AI交互接口

3.5.4 用戶信息接口

用戶注冊(cè)

URLhttps://pacfoewk.lc-cn-n1-shared.com

Method:GET

響應(yīng)參數(shù):

參數(shù)名 類型 描述
appId string 填寫數(shù)據(jù)庫id
appKey string 數(shù)據(jù)庫密鑰
serverURLs string 服務(wù)器地址

3.5.5 預(yù)測(cè)工資與忠誠度計(jì)算

image.png

通過對(duì)于簡歷提供的工作信息,以平均職位、行業(yè)、企業(yè)停留時(shí)長,使用簡書上提供的公式可以計(jì)算產(chǎn)品運(yùn)營第五篇:用戶忠誠度計(jì)算模型 - 簡書 (jianshu.com)

img

四、測(cè)試計(jì)劃

模型測(cè)試部分,主要是通過不同的解碼策略,對(duì)已經(jīng)訓(xùn)練好的模型進(jìn)行單個(gè)樣本的標(biāo)題和摘要生成。

4.1 訓(xùn)練數(shù)據(jù)集測(cè)試

用于評(píng)估訓(xùn)練數(shù)據(jù)集帶來的影響,應(yīng)包括下列內(nèi)容:

a) 數(shù)據(jù)集均衡性:指數(shù)據(jù)集包含的各種類別的樣本數(shù)量一致程度和數(shù)據(jù)集樣本分布的偏差程度;

b) 數(shù)據(jù)集規(guī)模:通常用樣本數(shù)量來衡量,大規(guī)模數(shù)據(jù)集通常具有更好的樣本多樣性;

c) 數(shù)據(jù)集標(biāo)注質(zhì)量:指數(shù)據(jù)集標(biāo)注信息是否完備并準(zhǔn)確無誤;

d) 數(shù)據(jù)集污染情況:指數(shù)據(jù)集被人為添加的惡意數(shù)據(jù)的程度。

預(yù)期結(jié)果:訓(xùn)練數(shù)據(jù)集完好,且與模型精度正相關(guān)。

4.2 對(duì)抗樣本測(cè)試

用于評(píng)估對(duì)抗性樣本對(duì)深度學(xué)習(xí)算法的影響,應(yīng)包括下列內(nèi)容:

a) 白盒方式生成的樣本:指目標(biāo)模型已知的情況下,利用梯度下降等方式生成對(duì)抗性樣本;

b) 黑盒方式生成的樣本:指目標(biāo)模型未知的情況下,利用一個(gè)替代模型進(jìn)行模型估計(jì),針對(duì)替代模型使用白盒方式生成對(duì)抗性樣本;

c) 指定目標(biāo)生成的樣本:指利用已有數(shù)據(jù)集中的樣本,通過指定樣本的方式生成對(duì)抗性樣本;

d) 不指定目標(biāo)生成的樣本:指利用已有數(shù)據(jù)集中的樣本,通過不指定樣本(或使用全部樣本)的方式生成對(duì)抗性樣本。

預(yù)期結(jié)果:在有對(duì)抗樣本的情況下也能生成較為準(zhǔn)確的標(biāo)題和摘要

五、軟件主要界面

5.1 首頁

image.png

5.2 文件上傳

image.png

5.3 我的

image.png

5.4 服務(wù)

image.png

5.5 人工、AI客服咨詢

image.png

5.6 簡歷分析結(jié)果

image.png

5.6.1 簡歷信息提取

image.png

5.6.2 智能分析數(shù)據(jù)

image.png

image.png

5.6.3 智能分析圖像

image.png

5.6.4 智能分析職員忠誠度以及預(yù)測(cè)工資

image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 怎樣才能建設(shè)一個(gè)標(biāo)準(zhǔn)的營養(yǎng)實(shí)訓(xùn)室?之人才培養(yǎng)目標(biāo)及規(guī)格篇 隨著國民健康意識(shí)的提高,人們?cè)絹碓阶⒅刈约旱臓I養(yǎng)健康。高...
    共榮閱讀 68評(píng)論 0 0
  • 娃已十八,我將浪跡天涯 前幾天正好看到一段描述現(xiàn)在對(duì)于媽媽級(jí)別的描述,雖然...
    Selinnayang閱讀 168評(píng)論 0 1
  • 它不是在我習(xí)慣的軟件上進(jìn)行的功能升級(jí),而是用另外一套邏輯來實(shí)現(xiàn)我想要的結(jié)果,這一套邏輯實(shí)在搞不明白。就像以前我一直...
    mwei2016閱讀 80評(píng)論 0 0
  • 又到周五,點(diǎn)開課堂記錄查看每一節(jié)課的數(shù)據(jù)情況。發(fā)現(xiàn)本周的教學(xué)設(shè)計(jì)環(huán)節(jié),基本上選擇題都是一次投票,未經(jīng)二次投票。這些...
    王歌閱讀 112評(píng)論 0 0
  • 2023年6月16日 復(fù)盤 一周時(shí)間又結(jié)束了,不知道朋友們?cè)谶@個(gè)周的收益怎么樣呢? 這個(gè)周整體的賺錢效應(yīng)在最近還算...
    劉建軍_49e5閱讀 77評(píng)論 0 0

友情鏈接更多精彩內(nèi)容