2016年,AlphaGo 擊敗了圍棋世界冠軍、職業(yè)九段棋手李世石,以機器學習、深度學習為核心的人工智能技術,勢不可擋地進入了大眾視野。然而,在經(jīng)歷了之前幾年的高速發(fā)展后,無論學術屆還是工業(yè)界,無論基礎理論還是實際應用,人工智能技術似乎都遇到了瓶頸,進展相對緩慢。
造成這個現(xiàn)象的本質原因,是當前機器學習技術與通用人工智能(Artificial general intelligence,AGI)之間還存在著巨大的鴻溝。一方面機器學習模型自身存在泛化能力和穩(wěn)定性差的問題,并且過度依賴數(shù)據(jù)擬合,缺乏可解釋性;另一方面人工智能的目標是實現(xiàn)“決策”,而當前機器學習技術只能實現(xiàn)“預測”。前者需要提供指導性的分析,例如企業(yè)想實現(xiàn)銷售增長、用戶數(shù)量增加的目標,應該如何去做;而后者目前只能根據(jù)歷史數(shù)據(jù)進行預測,告知企業(yè)未來會發(fā)生什么?,F(xiàn)在數(shù)智化的企業(yè)更需要的,是自動化的“決策”而不僅僅是對未來的“預測”。以相關性為基礎進行預測的機器學習,在面對需要因果關系為前提的決策性問題時就顯得力不從心。
正因為如此,2011年圖靈獎得主 Judea Pearl 提到,“機器缺乏對因果關系的理解可能是給它們提供人類水平智能的最大障礙”,2019 年圖靈獎得主 Yoshua Bengio 也說“因果關系對于機器學習的下一步進展非常重要”。因果推斷(Causal Inference)開始被認為是人工智能領域的一次范式革命,成為近年來的研究熱點之一。
從古希臘到2022年,因果推斷正在成為 AI 領域熱點研究方向
因果推斷(Causal Inference),是關于因果關系的推斷,研究如何更加科學地識別變量間的因果關系。
因果問題是一個非常古老的問題,當人們意識到某些事物的變化會導致另一些事物產(chǎn)生時,便有了對因果的直覺性思考。古希臘時期,亞里士多德提出了四因說,開啟了對因果的哲學性思辯。18世紀,英國哲學家大衛(wèi)·休謨提出了三大難以解決的問題,對因果關系的普遍性和必然性進行了反思。20 世紀初,美國數(shù)學家 Jerzy Neyman 提出了用于因果推斷的“潛在結果”(potential outcomes)數(shù)學模型,把因果推斷從一個哲學思考變成一個科學問題,成為因果推斷發(fā)展過程中奠基性的突破。
20世紀 70 年代,哈佛大學著名統(tǒng)計學家 Donald Rubin 在 Neyman 的研究基礎上進行了進一步延伸,將其從完全隨機實驗的領域擴展為在觀察性和實驗性研究中思考因果關系的一般框架,也就是魯賓因果模型Rubin Causal Model (RCM)。差不多同一時期,另一位著名科學家,圖靈獎得主、“貝葉斯網(wǎng)絡之父”Judea Pearl,利用結構因果圖以及 do-操作、反事實分析等概念,創(chuàng)建了結構因果模型Structural Causal Model(SCM)?,F(xiàn)代有關因果推斷的理論研究就主要基于以上兩個基本理論框架。
因果推斷主要解決因果發(fā)現(xiàn)(Causal Discovery)、因果量識別(Identification of Causal Quantities)、因果效應評估(Causal Effect Estimation)、反事實預測(Counterfactual Inference)和策略學習(Policy Learning)五大類的問題。
國內(nèi)外的一些大型企業(yè),近些年都在逐步加大對因果推斷領域的投入和應用。UBER、滴滴等共享汽車的平臺,在彈性定價上高度依賴因果分析模型來提高整體收益率,騰訊等視頻平臺則使用基于因果分析模型的廣告投放工具來幫助提升用戶 ROI。

目前國際上關于因果推斷的產(chǎn)品和工具也有很多,例如CausaLML、EconML、CausaLearn、DoWhy 等等。不同產(chǎn)品和工具的側重點都有所不同,例如 CausaLML 由 UBER 開源,定位是一個 uplift 建模專用的工具,主要解決因果效應評估類問題。EconML 由微軟研究院開源,重點也是圍繞因果效應評估類問題。還有 Causal-learn,專注于解決因果發(fā)現(xiàn)類問題??梢园l(fā)現(xiàn),市面上的工具包各自解決了因果推斷中的部分問題,缺少系統(tǒng)、完整的、綜合性、端到端的因果學習工具包。
YLearn:全球首款一站式處理因果學習完整流程的開源算法工具包
九章云極DataCanvas是國內(nèi)一家專注于人工智能、機器學習與數(shù)據(jù)智能基礎軟件的公司,2020年公司就看到了因果推斷對人工智能未來發(fā)展的重要性,并將因果推斷作為重要的研發(fā)與突破方向,2021 年 6 月正式啟動了 YLearn 因果學習開源項目(https://github.com/DataCanvasIO/YLearn)。
YLearn 因果學習開源項目(以下簡稱“YLearn”),是全球首款能夠一站式處理因果推斷完整流程的開源工具包,它幾乎包含并解決了因果推斷領域中所有的核心問題,包括因果發(fā)現(xiàn)、因果量識別、因果效應估計、反事實預測、策略學習等,同時提供了面向用戶的基礎API。YLearn 還提供了重要模塊的可視化輸出,如因果圖、因果效應解釋、決策樹等,幫助用戶更直觀地理解數(shù)據(jù)、調整策略、實現(xiàn)預期。

我們能看到,與上述其他產(chǎn)品和工具相比最大的不同,是YLearn具有一站式、新而全、用途廣等特點。
首先,YLearn一站式地支持從數(shù)據(jù)中發(fā)現(xiàn)因果結構、對因果結構建立因果模型、使用因果模型進行因果識別、對因果效應進行估計等一系列功能,使用戶能以最低的學習成本使用與部署。
其次,YLearn實現(xiàn)了多個在因果推斷領域中發(fā)展出的算法,例如 Meta-Learner、Double Machine Learning 等,也將一直緊跟前沿進展,保持因果識別與估計模型的先進和全面。
最后,YLearn還支持對因果效應進行解釋、根據(jù)因果效應在各種方案中選取收益最大的方案并可視化決策過程等功能。除此之外,YLearn 也支持將因果結構中識別出的因果效應的概率分布表達式以 LaTex 的形式輸出等小功能,幫助用戶將因果學習與其他方向的研究進行交叉融合。

據(jù)介紹,YLearn的應用目前主要集中在兩個領域,一個是用于彌補機器學習理論上的缺陷。在機器學習模型中加入因果機制,利用因果關系的穩(wěn)定性和可解釋性,優(yōu)化模型、提升效率;另一個是幫助實現(xiàn)用戶需求從預測到?jīng)Q策的遷移,例如使用基于因果推斷的推薦算法幫助企業(yè)進行客戶增長和智能營銷等。
目前九章云極DataCanvas已正式對外發(fā)布了第一個版本,后期也會持續(xù)進行版本的迭代。
九章云極DataCanvas的主任架構師楊健對CSDN透露,接下來,YLearn 將做大量落地實踐和驗證的工作,并結合DataCanvas?APS自動機器學習平臺、DataCanvas?RT實施決策中心等平臺級產(chǎn)品,進一步實現(xiàn)客戶在決策任務上的需求。同時結合客戶實際場景,沿著幫助企業(yè)建立決策圖譜、解決因果學習的自動調參和優(yōu)化問題、實現(xiàn)高效的特征發(fā)現(xiàn)和特征工程,提高機器學習的泛化能力、解釋性等不同路線進行演進。最終,就像機器學習中的scikit-learn一樣,九章云極DataCanvas希望YLearn能夠成為因果推斷領域的基礎算法包和必選項。
人工智能發(fā)展到今天,業(yè)界涌現(xiàn)了層出不窮的機器學習和深度學習技術,都是希望幫助人們更準確的分析問題,甚至預測未來?,F(xiàn)在,因果推斷能夠幫助AI模型賦予因果關系,彌補機器學習理論的缺陷,正在解決從“是什么”到“為什么”的問題,也因此,因果推斷將是進一步發(fā)展人工智能技術的必經(jīng)之路。又或許,因果推斷將成為 AI 能否像人類一樣思考、強人工智能是否能夠實現(xiàn)的關鍵。
前沿技術的演進道路從來都是未知而迷人的,也希望中國有更多人工智能技術的研究人員和愛好者,能夠進入因果推斷這個充滿機遇和挑戰(zhàn)的領域,充分發(fā)揮自己的聰明才智,為人工智能技術帶來跨越式的發(fā)展。CSDN將持續(xù)關注與報道因果推斷與九章云極DataCanvas?YLearn因果學習開源項目的發(fā)展。