01/ 從開發(fā)者的煩惱說起
開發(fā)者在編寫代碼時(shí),需要花費(fèi)大量時(shí)間在低層次的重復(fù)編碼上,特別是針對(duì)一些語法比較冗余的開發(fā)語言。
同時(shí),開發(fā)者經(jīng)常被戲稱為面向搜索引擎編程,因?yàn)槲覀兘?jīng)常需要通過通用搜索引擎去查詢文檔資料,但是通用搜索引擎的內(nèi)容質(zhì)量參差不齊,開發(fā)者在找文檔、選文檔上都需要花費(fèi)大量時(shí)間,這會(huì)讓我們的開發(fā)過程碎片化,無法集中精力聚焦在業(yè)務(wù)邏輯的開發(fā)上。
在代碼評(píng)審階段,評(píng)審人需要費(fèi)時(shí)費(fèi)力的人工評(píng)審,特別是當(dāng)變更代碼特別多的時(shí)候,評(píng)審人很難去完成評(píng)審任務(wù),只能大致看一下,從而違背了評(píng)審的初衷。在評(píng)審過程中,傳統(tǒng)的代碼檢測工具無法發(fā)現(xiàn)深層次的潛在缺陷,也不能提供缺陷的修復(fù)方案,從而為線上故障埋下了隱患。
那么諸多的煩惱,應(yīng)該怎么解決呢?
02/ 代碼智能如何賦能日常開發(fā)
阿里云云效代碼智能團(tuán)隊(duì)通過AI技術(shù),打造了多款業(yè)界領(lǐng)先的智能編碼以及代碼檢測工具,是國內(nèi)首個(gè)將AI能力應(yīng)用到代碼評(píng)審場景的團(tuán)隊(duì)。此外,我們也通過與學(xué)術(shù)界的深入合作,通過論文和專利,保持著技術(shù)的先進(jìn)性。下面我們?cè)敿?xì)介紹。
代碼智能補(bǔ)全能力及原理
在編寫代碼時(shí),云效Codeup 能通過 WebIDE 為開發(fā)者提供智能化的編碼輔助,快速完成輕量級(jí)編碼,也能讓開發(fā)者通過語言描述快速地找到所需的代碼文檔或者代碼示例,減少編碼過程的碎片化。我們來看一個(gè)完整的代碼智能補(bǔ)全視頻演示。
https://www.bilibili.com/video/BV1Yf4y157NT/
(代碼智能補(bǔ)全完整視頻演示)
在編寫代碼時(shí),只需要輸入幾個(gè)字符,甚至一個(gè)字符,代碼智能補(bǔ)全插件就能結(jié)合代碼上下文及其語義,推薦出多個(gè)整行的代碼補(bǔ)全候選項(xiàng),前面標(biāo)注?圖標(biāo)的就是代碼智能補(bǔ)全插件提供的結(jié)果。在不同的代碼行,輸入同一個(gè)字符,比如X字符,它就能推薦出更適合當(dāng)前位置的行級(jí)代碼補(bǔ)全結(jié)果。它也能自動(dòng)地將代碼上文中出現(xiàn)的變量或參數(shù),自動(dòng)地填充到合適的代碼補(bǔ)全候選項(xiàng)中。
代碼智能補(bǔ)全能夠幫助開發(fā)者減少重復(fù)性較高的低層次編碼,大幅提升編碼效率,以視頻演示的代碼片段為例,
? 如果只是使用 IDE 內(nèi)置的代碼補(bǔ)全,需要敲擊鍵盤700次,花費(fèi)5分鐘的時(shí)間才能完成代碼的編寫;
? 使用某業(yè)界頂尖的同類產(chǎn)品,鍵盤輸入次數(shù)減少了33%,花費(fèi)的時(shí)間減少了6%。為什么鍵盤敲擊次數(shù)減少了很多,時(shí)間減少的卻很少呢?因?yàn)樗o出的代碼補(bǔ)全候選項(xiàng)過多,并且存在較多的錯(cuò)誤,需要開發(fā)者花時(shí)間去做選擇,選擇太多反而不是好事;
? 使用我們?cè)菩ё灾餮邪l(fā)的代碼智能補(bǔ)全插件,鍵盤輸入次數(shù)減少了65%,編碼耗時(shí)減少了57%,只需要2分鐘左右就能完成代碼的編寫。
那么我們是如何做到的呢?我們使用了多模型融合技術(shù),將擅長點(diǎn)各有側(cè)重的多個(gè)模型融合到一起,一個(gè)人決策可能不太準(zhǔn),多個(gè)人一起決策就能盡可能的減少誤判,其中的深度學(xué)習(xí)模型、語義模型等都能做到代碼上下文的感知,輸入同一個(gè)字符,在不同的代碼位置,會(huì)推薦不同的代碼補(bǔ)全結(jié)果,并且能將上文中出現(xiàn)的變量或參數(shù),自動(dòng)填充到補(bǔ)全的候選項(xiàng)中。
阿里巴巴內(nèi)部開發(fā)者的使用情況顯示,相比于 IDE 內(nèi)置的補(bǔ)全,代碼智能補(bǔ)全能幫助開發(fā)者平均提升20%的編碼效率。那么代碼智能補(bǔ)全的實(shí)現(xiàn)原理是怎么樣的呢?
我們會(huì)將代碼解析成抽象語法樹,并對(duì)AST進(jìn)行數(shù)據(jù)處理,我們將處理好的數(shù)據(jù)通過深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,剛開始的幾個(gè)迭代,還只能生成一些雜亂的序列,模型會(huì)將生成的序列與期望生成的序列進(jìn)行對(duì)比,計(jì)算誤差并更正模型數(shù)據(jù),在N個(gè)迭代之后,它已經(jīng)能生成符合語法的正確代碼序列。在代碼智能補(bǔ)全階段,我們將深度學(xué)習(xí)模型、語義模型、統(tǒng)計(jì)學(xué)模型等多個(gè)不同種類的模型融合在一起,去生成代碼補(bǔ)全的候選項(xiàng),然后通過語法校正,避免將不符合語法的代碼推薦給開發(fā)者。
代碼智能評(píng)審
在代碼評(píng)審中,當(dāng)開發(fā)者創(chuàng)建評(píng)審時(shí),云效Codeup 會(huì)為其推薦更合適的評(píng)審人,他可能更熟悉變更的代碼,而評(píng)審人也能在評(píng)審列表上看到每個(gè)評(píng)審的預(yù)估耗時(shí),幫助評(píng)審人充分利用碎片化時(shí)間進(jìn)行評(píng)審,同時(shí)在瀏覽評(píng)審時(shí),開發(fā)者經(jīng)常需要查看某個(gè) API 的定義或引用,而我們提供的語法跳轉(zhuǎn)服務(wù)可以讓評(píng)審人像在 IDE 中一樣,在網(wǎng)頁端進(jìn)行代碼定義和引用的跳轉(zhuǎn)。此外,我們也提供了更深層次的代碼檢測工具幫助評(píng)審人更快的發(fā)現(xiàn)隱藏缺陷,并能快速的修復(fù)缺陷。
代碼智能安全檢測
關(guān)于代碼檢測,這里主要聊一下代碼內(nèi)容安全的檢測。說到代碼安全,每年都會(huì)有非常多漏洞被發(fā)現(xiàn),并且被黑客利用。比如早些年的Struts框架上傳文件模塊的漏洞,能讓黑客遠(yuǎn)程執(zhí)行Shell命令;近期的比如Chrome的零日漏洞,它存在Use-After-Free的問題,它會(huì)允許黑客在渲染進(jìn)程中去執(zhí)行遠(yuǎn)程代碼,比如用戶如果在Chrome中打開PDF文件,黑客就能通過遠(yuǎn)程命令獲取相關(guān)的用戶數(shù)據(jù)。
為此,云效Codeup為開發(fā)者提供了依賴包漏洞檢測、源碼漏洞檢測等代碼內(nèi)容安全檢測工具。
依賴包漏洞檢測
依賴包漏洞檢測能幫助開發(fā)者發(fā)現(xiàn)三方包中存在的漏洞隱患,三方包大部分是開源軟件,而開源軟件很少進(jìn)行安全測試,并且黑客也更愿意去發(fā)現(xiàn)開源軟件的漏洞,因?yàn)榇a是開源的,比較容易發(fā)現(xiàn)安全漏洞,而且一旦發(fā)現(xiàn)了安全漏洞,那么它的影響面會(huì)很大,絕大部分引用了存在安全漏洞三方包的應(yīng)用,都會(huì)受到黑客攻擊的威脅。
云效Codeup 的依賴包漏洞檢測工具會(huì)先將代碼進(jìn)行編譯構(gòu)建,并采集代碼所有的依賴包,然后通過漏洞匹配算法從漏洞庫中查詢準(zhǔn)確的漏洞信息,為了讓漏洞庫覆蓋更全面,我們集成了多個(gè)外部漏洞庫以及阿里集團(tuán)安全團(tuán)隊(duì)自建的漏洞庫。開發(fā)者獲取到的漏洞信息會(huì)包含建議升級(jí)的版本范圍,為了減少依賴包版本升級(jí)后對(duì)應(yīng)用穩(wěn)定性產(chǎn)生的影響,我們會(huì)對(duì)每個(gè)依賴包版本進(jìn)行有效性以及兼容性分析,然后會(huì)為開發(fā)者推薦建議升級(jí)的版本號(hào),并且提供通過一鍵創(chuàng)建代碼評(píng)審修復(fù)依賴包漏洞的快捷入口。
源碼漏洞檢測
在代碼內(nèi)容安全檢測領(lǐng)域,除了剛才提到的依賴包漏洞檢測,我們也提供了對(duì)代碼庫自身的源碼漏洞檢測工具。
云效Codeup 基于源傘檢測引擎,將代碼中的數(shù)據(jù)流和控制流轉(zhuǎn)換成數(shù)學(xué)語言,然后對(duì)數(shù)學(xué)語言進(jìn)行定理證明,能夠更準(zhǔn)確的推導(dǎo)代碼中的路徑條件,減少誤報(bào)。同時(shí),它具備跨函數(shù)的全文分析能力,比如有多層的函數(shù)調(diào)用關(guān)系,如果最底層的函數(shù)存在一些代碼安全風(fēng)險(xiǎn),并且會(huì)影響最上層的業(yè)務(wù)代碼,它也能通過將代碼的數(shù)據(jù)流以及函數(shù)調(diào)用關(guān)系,解析為圖結(jié)構(gòu),通過對(duì)代碼圖譜的分析,能夠快速的發(fā)現(xiàn)潛在的安全風(fēng)險(xiǎn)。此外,我們對(duì)檢測出來的漏洞信息也會(huì)給與詳細(xì)的解釋,告訴開發(fā)者每個(gè)漏洞在代碼中是怎么一步步帶來影響的。我們一起看一個(gè)視頻。
https://www.bilibili.com/video/BV1Ew411R7Vp/
(云效Codeup 代碼檢測視頻)
當(dāng)我們提交完代碼后,云效Codeup 能自動(dòng)執(zhí)行已開啟的代碼檢測,比如視頻中已開啟的依賴包漏洞檢測,我們也可以手動(dòng)開啟源碼漏洞檢測。
依賴包漏洞檢測能發(fā)現(xiàn)眾多三方包漏洞,會(huì)在詳細(xì)信息中展示疑似的CVE漏洞信息;源碼漏洞檢測能發(fā)現(xiàn)代碼注入、遠(yuǎn)程命令執(zhí)行、緩沖區(qū)溢出等安全漏洞,并且會(huì)在詳細(xì)信息的右側(cè)展示漏洞在代碼中的影響路徑。
我們可以在依賴包漏洞的詳細(xì)信息中,通過一鍵創(chuàng)建代碼評(píng)審,幫助我們快速的生成修復(fù)指定漏洞的代碼變更及其合并請(qǐng)求,評(píng)審描述中會(huì)提供漏洞的解釋信息以及升級(jí)包的兼容性分析。
03/ 代碼智能技術(shù)的不斷探索
除了上面介紹的已經(jīng)落地到云效的智能化能力,我們與浙江大學(xué)、莫納什大學(xué)、南洋理工大學(xué)等高校在代碼生成、代碼搜索、智能評(píng)審等領(lǐng)域進(jìn)行了深入的合作,在多個(gè)領(lǐng)域產(chǎn)出了論文和專利。
比如,我們與南洋理工大學(xué)合作的代碼摘要生成項(xiàng)目,很多時(shí)候開發(fā)者不太喜歡寫注釋,或者不知道怎么寫注釋,導(dǎo)致代碼的可維護(hù)性不高,為了幫助開發(fā)者更好的理解代碼,我們期望通過對(duì)代碼邏輯的學(xué)習(xí)和理解,自動(dòng)生成出代碼片段的摘要注釋。我們會(huì)先從代碼大數(shù)據(jù)中挖掘出一批代碼的片段及其注釋,構(gòu)建代碼片段檢索庫,然后從檢索庫中找到與目標(biāo)代碼相似的代碼片段,并且將目標(biāo)代碼和相似的代碼片段都解析成CPG圖結(jié)構(gòu),我們會(huì)基于注意力機(jī)制通過融合算法將兩個(gè)圖結(jié)構(gòu)融合在一起,然后經(jīng)過圖權(quán)重的靜態(tài)計(jì)算及動(dòng)態(tài)計(jì)算,并通過模型獲得對(duì)圖信息的編碼數(shù)據(jù),最后,將相似代碼片段的摘要注釋進(jìn)行編碼后,與圖結(jié)構(gòu)的編碼信息聚合在一起,通過解碼器就能生成目標(biāo)代碼的摘要注釋。相關(guān)論文《RETRIEVAL-AUGMENTED GENERATION FOR CODE SUMMARIZATION VIA HYBRID GNN》。
開發(fā)者花費(fèi)時(shí)間比較多的地方除了寫代碼,就是調(diào)試代碼,我們期望通過代碼缺陷定位去輔助開發(fā)者排查缺陷。代碼缺陷定位會(huì)先從代碼變更數(shù)據(jù)中,挖掘出有效的缺陷代碼作為訓(xùn)練集,并且將缺陷代碼解析成抽象語法樹,然后將抽象語法樹按代碼行進(jìn)行拆解,每一行代碼對(duì)應(yīng)一個(gè)子語法樹,將子語法樹從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)編碼成多條子路徑,最后,將每行代碼關(guān)聯(lián)的子路徑放到基于注意力機(jī)制的深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練。當(dāng)需要代碼缺陷定位時(shí),開發(fā)者提交代碼后,我們會(huì)從代碼變更中抽取出變更代碼行的子路徑,通過模型推理,我們就能得到每行代碼的缺陷概率,從而輔助開發(fā)者排查缺陷。
除了上面提到的兩個(gè)合作項(xiàng)目,我們與各個(gè)高校在多個(gè)領(lǐng)域進(jìn)行了廣泛的合作。我們期望在不久的將來,開發(fā)者能在云效的智能化研發(fā)平臺(tái)上,只需要提供文字描述或需求文檔,我們就能為其生成出大部分基礎(chǔ)代碼及其依賴項(xiàng),并能通過智能編碼輔助快速的完成代碼填充,代碼缺陷也將無處遁形,期望大家可以保持對(duì)云效產(chǎn)品動(dòng)態(tài)的關(guān)注。
本文由博客一文多發(fā)平臺(tái) OpenWrite 發(fā)布!