
隨著大數(shù)據(jù)在各個行業(yè)領域應用的不斷深入,數(shù)據(jù)作為基礎性戰(zhàn)略資源的地位日益凸顯,如何構建更有利于大數(shù)據(jù)產(chǎn)業(yè)健康有序發(fā)展的良好環(huán)境成為業(yè)界關注的焦點,數(shù)據(jù)治理也隨之成為大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的新熱點。
與此同時,在政策、技術、需求等多重因素的推動下,以自動駕駛、智能客服、語音識別為代表的人工智能應用快速興起,AI已經(jīng)成為全球科技巨頭的布局重點。如百度李彥宏公開表示:“百度公司將不再是互聯(lián)網(wǎng)公司,而是一家人工智能公司”。中國移動也高度重視人工智能,于2017年發(fā)布了“九天”人工智能平臺,努力將人工智能技術應用在網(wǎng)絡、市場、服務、安全、管理和衍生業(yè)務等多個領域。
那么,當數(shù)據(jù)治理遇上人工智能,將碰撞出怎樣的火花?
確保數(shù)據(jù)質(zhì)量和安全是發(fā)展AI的前提
今天,企業(yè)對全面數(shù)據(jù)治理的需求從未如此強烈。監(jiān)管機構希望企業(yè)能更加清晰地了解數(shù)據(jù),對它進行有效的管控;企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn),降低數(shù)據(jù)應用的復雜性,對企業(yè)進行更高效的管理;企業(yè)員工也開始認識到數(shù)據(jù)的重要性,更多地采用數(shù)據(jù)驅(qū)動的方式來開展工作。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略,只有做好數(shù)據(jù)治理,讓數(shù)據(jù)更加準確完整,并且安全合規(guī),才能釋放出數(shù)據(jù)的無限潛能,挖掘出更多有價值的數(shù)據(jù)應用。
在人工智能技術在應用和實踐中,確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎的底層保障。由于人工智能的落地應用效果會受到數(shù)據(jù)質(zhì)量和安全的影響,更多的企業(yè)開始反思并轉(zhuǎn)而去推動數(shù)據(jù)質(zhì)量和安全的提升,提供數(shù)據(jù)質(zhì)量和安全評測工具,建立好的數(shù)據(jù)環(huán)境,再進行人工智能應用的同步研發(fā)。
大數(shù)據(jù)是人工智能技術研發(fā)、訓練的關鍵,是人工智能長期發(fā)展的重要保障。只有當人工智能系統(tǒng)能夠獲取更為準確、及時、一致的高質(zhì)量數(shù)據(jù),才能提供更有效、有用、精準性高的智能化服務。根據(jù)埃森哲在2018年4月的一份調(diào)研發(fā)現(xiàn),中國制造企業(yè)在運用人工智能技術時面臨一系列挑戰(zhàn)。其中,52%的受訪中國企業(yè)將數(shù)據(jù)質(zhì)量列為突出挑戰(zhàn),數(shù)據(jù)安全與網(wǎng)絡安全緊隨其后(47%)。在2017年4月的一次研討會上,圍繞人工智能話題, 華為任正非提出:“高質(zhì)量的數(shù)據(jù)是人工智能的前提和基礎”。當前,不管是人工智能技術的研發(fā),還是人工智能應用領域的發(fā)展,“數(shù)據(jù)質(zhì)量”都是一個不可或缺、位于重中之重的要素。
人工智能發(fā)展的另一個重點保障就是數(shù)據(jù)安全,人工智能系統(tǒng)的基礎是大數(shù)據(jù),要對外提供服務,就會涉及數(shù)據(jù)的安全保護,在這個過程中,一系列的數(shù)據(jù)安全防護手段是必不可少的,如數(shù)據(jù)脫敏管理,對敏感信息的風險評估、使用監(jiān)控,對數(shù)據(jù)的泄露檢測,數(shù)據(jù)庫保密檢查等。人工智能需要海量的數(shù)據(jù),人工智能技術的進步取決于各種來源數(shù)據(jù)的可用性,如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)質(zhì)量之外又一個重要問題。同時,通過對業(yè)務數(shù)據(jù)應用語義計算、數(shù)據(jù)挖掘、機器學習、知識圖譜、認知計算等人工智能技術,也可以促進企業(yè)數(shù)據(jù)安全保障體系完善。因此,數(shù)據(jù)安全和人工智能兩種技術起到了相互促進、相互完善的作用。
智能化數(shù)據(jù)治理悄然興起
經(jīng)過多年的理論更新、技術演進和應用實踐,與前些年前相比,如今的數(shù)據(jù)治理從概念到技術已經(jīng)發(fā)生了很多變化。特別是隨著這一波人工智能浪潮的重新興起,數(shù)據(jù)治理技術和人工智能技術在一些方面也開始有了結合使用,應用了人工智能技術的新一代數(shù)據(jù)治理可以稱之為“智能化數(shù)據(jù)治理”。
數(shù)據(jù)治理工作中,可以通過對大數(shù)據(jù)應用機器學習技術,作數(shù)據(jù)挖掘和分析,從而識別哪些是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常,一旦數(shù)據(jù)特征被確認,打上標簽,未來再做數(shù)據(jù)管理時,就可以使用元數(shù)據(jù)管理的方法機制,對外提供服務。比如當碰到涉及的某特殊標記數(shù)據(jù),就會有相應的流程啟動,或在相關的數(shù)據(jù)對外服務提供過程中,一旦數(shù)據(jù)涉及個人隱私,則一定要小心處理,以避免引起政策方面的風險。通過上述應用,可以增強大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。
另外,也可以在針對大數(shù)據(jù)開展數(shù)據(jù)質(zhì)量核查過程中,配合傳統(tǒng)根據(jù)預置的質(zhì)量核查規(guī)則進行核查的方式,僅針對少量核心核查規(guī)則,從大數(shù)據(jù)中選取訓練數(shù)據(jù)樣本,經(jīng)過預處理,利用機器學習算法進行深度分析,提取公共特征和模型,可以用來定位數(shù)據(jù)質(zhì)量原因,做數(shù)據(jù)質(zhì)量問題的預測,并進一步形成知識庫。這樣就可以更進一步增強大數(shù)據(jù)系統(tǒng)數(shù)據(jù)質(zhì)量管理的能力。
對于數(shù)據(jù)模型的管理,機器學習技術可用來分析數(shù)據(jù)庫中數(shù)據(jù)實體的引用熱度,通過聚類算法自動識別數(shù)據(jù)模型間的內(nèi)在關系,還可以用于數(shù)據(jù)模型質(zhì)量的檢測和評估。對于非結構化數(shù)據(jù)的管理,像文檔內(nèi)容,圖像,音頻,視頻,更是可以充分利用人工智能中的自然語言處理、圖像識別、語音識別、視頻處理等技術。
大數(shù)據(jù)治理+AI
大數(shù)據(jù)治理,顧名思義,即基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù),一般指符合4V特征的數(shù)據(jù),包括社交數(shù)據(jù),機器數(shù)據(jù)等,大數(shù)據(jù)對傳統(tǒng)數(shù)據(jù)治理工作帶來很多的擴展。在政策和流程上,大數(shù)據(jù)治理應覆蓋大數(shù)據(jù)的獲取、處理、存儲、安全等環(huán)節(jié);在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲、保留、歸檔、處置時,要考慮大數(shù)據(jù)保存時間與存儲空間的平衡;大數(shù)據(jù)量大,因此應識別對業(yè)務有關鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量;大數(shù)據(jù)還需要定義與其內(nèi)容相關的元數(shù)據(jù),需與傳統(tǒng)數(shù)據(jù)定義標準保持一致,術語字典應包含大數(shù)據(jù)的術語,需要為非結構化數(shù)據(jù)提供分類、語義支持,Hadoop、NoSQL數(shù)據(jù)庫的技術元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲庫管理;此外,在隱私方面,應考慮社交數(shù)據(jù)的隱私保護需求,制定相應政策,還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風險管控需求建立聯(lián)系。
數(shù)字化時代,大數(shù)據(jù)治理應該如何和人工智能技術深度結合,人工智能技術在大數(shù)據(jù)治理領域能有哪些應用?
? ??數(shù)據(jù)安全管理
當前已經(jīng)有許多行業(yè)信息安全解決方案都開始使用機器學習算法來識別潛在的系統(tǒng)攻擊,通過機器學習可以建立用于檢測異常情況的正常行為的基線,一切不符合基線標準的異常情況都能及時得到預警和處理。
? ??元數(shù)據(jù)管理
互聯(lián)網(wǎng)企業(yè)使用機器學習,分析用戶點擊過哪些鏈接,為用戶生成畫像,打上特定的標簽,來做商品、內(nèi)容的推薦和優(yōu)化用戶搜索結果。這些描述用戶消費形為、興趣偏好特征的元數(shù)據(jù)信息,已經(jīng)成為互聯(lián)網(wǎng)企業(yè)得以生存發(fā)展的核心數(shù)據(jù)資產(chǎn)。
? ??數(shù)據(jù)質(zhì)量管理
金融行業(yè)中,銀行信用卡發(fā)卡部門很早就開始利用機器學習技術,來識別不合規(guī)的申請人、虛假申請信息以及可能存在欺詐性的交易行為。此外,既然機器學習可以識別信息系統(tǒng)中的異常數(shù)據(jù),那它也可以檢測工業(yè)制成品中的異常情況。企業(yè)可以通過將實體物品生產(chǎn)過程數(shù)字化,然后使用經(jīng)過訓練的機器學習系統(tǒng)來識別不符合標準或規(guī)格的產(chǎn)品數(shù)據(jù),挑出異常數(shù)據(jù),從而部分替代人類檢測員的工作。
? ??非結構化數(shù)據(jù)管理
近年來,利用機器學習的人臉識別系統(tǒng)能力一直在提高,已經(jīng)大量應用在識別已知的犯罪分子、員工上班考勤、或者識別公共場所中超出規(guī)范或違反法律的行為或活動。而醫(yī)療行業(yè),則可以利用機器學習工具,通過對大量紙質(zhì)和圖像病例資料的訓練學習,構建醫(yī)療知識庫,輔助專業(yè)醫(yī)護人員,診斷疾病并提出最有效的治療策略。
各類社交網(wǎng)站每天都在產(chǎn)生著大量非結構化數(shù)據(jù),企業(yè)可以利用機器學習技術來實時發(fā)現(xiàn)和識別潛在的問題,手寫識別、語音轉(zhuǎn)寫、自然語言處理技術也在不同場景中大量應用,可以提高人們識別、理解和處理非結構化數(shù)據(jù)的能力。
? ??數(shù)據(jù)共享開放
企業(yè)可以充分利用人工智能技術,以信息化、自動化方式,共享和開放一部分數(shù)據(jù)或數(shù)據(jù)加工結果,對外提供服務,提升企業(yè)競爭力。最典型的就是現(xiàn)在各種客戶服務機器人,可以使用自然語言處理技術處理回答客戶提出的常見問題,并隨著時間的推移提高答案的質(zhì)量。據(jù)悉,中國移動客戶服務系統(tǒng)中機器服務的比例已經(jīng)超過10%。
另外一個常見的應用領域就是營銷推薦,在大多數(shù)商業(yè)環(huán)境中,將適合的產(chǎn)品投放給恰當?shù)氖鼙妼Υ龠M商業(yè)成功至關重要。機器學習系統(tǒng)可以使用企業(yè)收集的用戶數(shù)據(jù),根據(jù)用戶過去的購物習慣預測可能喜歡的物品,再將預測結果數(shù)據(jù)向企業(yè)電商系統(tǒng)或銷售決策系統(tǒng)開放。Facebook前科學家Jeffrey Hammerbacher曾感嘆道:“我們這一代最聰明的大腦,沒有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎么讓人們點擊更多廣告…”。???
? ??數(shù)據(jù)資產(chǎn)分析
物聯(lián)網(wǎng)的大發(fā)展提供了許多潛在的機器學習使用場景,其中就包括預測性維護,企業(yè)可以使用歷史設備數(shù)據(jù)開展預測分析,推斷機器可能發(fā)生故障的時間,使其能夠在影響業(yè)務運行之前主動進行維修或安裝更換部件。對于物流企業(yè)來說,設置時間表和路線是一件復雜而費時的工作,機器學習系統(tǒng)可以通過對交通數(shù)據(jù)的分析和監(jiān)控,幫助企業(yè)規(guī)劃貨物運輸路線及計劃,提出最有效和最具低成本高效益的方法。
另外,在金融市場交易中,每個交易者都希望在市場上找到能讓他們低買高賣的模式,大的金融機構更是花費重金,使用人工智能技術針對金融交易數(shù)據(jù)做深度的分析挖掘,打造自己的量化交易系統(tǒng),以期望能在變幻莫測的市場風云中更早一步識別潛在的風險和機會。
數(shù)據(jù)治理政策研究重要性凸顯
2018年5月,在中國國際大數(shù)據(jù)博覽會上,中國科學院院士梅宏發(fā)表演講中表示,大數(shù)據(jù)治理體系建設是我們國家實施大數(shù)據(jù)戰(zhàn)略的重要保障,是發(fā)揮大數(shù)據(jù)作用,做大做強大數(shù)據(jù)產(chǎn)業(yè)的重要因素,也是關鍵基礎。當下,做人工智能的企業(yè)很多,人工智能的基礎就是大數(shù)據(jù),數(shù)據(jù)首先要能標準化、共享、開放,如果數(shù)據(jù)標準不一致,質(zhì)量不高,就很難做分析、建模,更談不上預測的準確性。開展數(shù)據(jù)治理則能為企業(yè)提供一個高質(zhì)量的數(shù)據(jù)工作環(huán)境,促進人工智能技術的研究和實踐??傊瑪?shù)據(jù)治理是人工智能的基礎,想做人工智能,需要先把數(shù)據(jù)治理這個基礎打好。
對大型科技企業(yè)來說,面對日益激烈的競爭環(huán)境,企業(yè)亟需進行數(shù)字化轉(zhuǎn)型,一方面要做好數(shù)據(jù)治理,另一方面,數(shù)據(jù)治理政策也對人工智能發(fā)展發(fā)揮著重要的影響。
號稱歐盟“史上最嚴”的數(shù)據(jù)保護法規(guī),備受關注的《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效。GDPR適用地域范圍不僅限于歐盟境內(nèi),也適用于提供業(yè)務給歐盟境內(nèi)個人的境外組織機構;同時,GDPR在全面加強個人信息保護、強調(diào)用戶知情權、訪問權和被遺忘權的同時,對相關組織機構提出更為嚴格的合規(guī)要求,違反者會被處以最高罰沒其全球營業(yè)額的4%或2千萬歐元。根據(jù)GDPR條例,個人消費者可以享有更多個人數(shù)據(jù)隱私權力。同時,GDPR也會對國內(nèi)互聯(lián)網(wǎng)及商業(yè)科技公司會產(chǎn)生長遠的影響??梢詳喽ǎ珿DPR對基于個人信息搜集和隱私驅(qū)動的國內(nèi)互聯(lián)網(wǎng)產(chǎn)業(yè)收入模式必將產(chǎn)生重大甚至可能是顛覆性的影響。
此外,我國對個人信息保護方面,《信息安全技術個人信息安全規(guī)范》于2018年5月1日的正式實施,已經(jīng)對我國科技公司產(chǎn)生了實質(zhì)性的影響。過去這些年,我國大型科技企業(yè)在人工智能領域取得了突飛猛進的發(fā)展,這些企業(yè)通過使用消費者數(shù)據(jù),提供了智能化服務便利性的同時,在保護消費者數(shù)據(jù)隱私權方面做得還很不到位。
未來,以歐盟為代表的個人數(shù)據(jù)隱私權監(jiān)管機構,根據(jù)GDPR等數(shù)據(jù)保護法規(guī),隨時可能對違規(guī)企業(yè)進行處罰。在這種環(huán)境下,開展數(shù)據(jù)治理,以及對數(shù)據(jù)治理的政策研究和應對,將成為企業(yè)人工智能技術應用過程中亟待解決的重大問題。
*??? *???*
隨著數(shù)字時代的到來,數(shù)據(jù)治理和人工智能研究研發(fā)的關系日漸緊密。近年來,一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術紅利的同時,存在數(shù)據(jù)認知不清、數(shù)據(jù)治理不當、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象,出現(xiàn)了不少負面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控,應該從人工智能的源頭——大數(shù)據(jù)上開始建立科學的數(shù)據(jù)治理體系,包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策、管理流程、職責定位和技術管控工具。數(shù)據(jù)治理體系是對商業(yè)價值和用戶隱私,以及企業(yè)長期利益和短期利益選擇的基礎,建立數(shù)據(jù)治理體系是一個長期的過程,對于大型科技企業(yè),都應當在數(shù)據(jù)治理的規(guī)范和約束下應用大數(shù)據(jù),挖掘數(shù)據(jù)資產(chǎn)價值,提供人工智能服務。
數(shù)據(jù)治理是人工智能的基礎,數(shù)據(jù)治理的目的是在業(yè)務價值驅(qū)動下提供高質(zhì)量的大數(shù)據(jù),而人工智能本身是大數(shù)據(jù)應用的一種商業(yè)模式,數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分,兩者的有機結合驅(qū)動兩大行業(yè)的升級,助力我們邁入一個更加美好的數(shù)字化時代。
來源:中國信息產(chǎn)業(yè)網(wǎng)