文章來自Ricequant實(shí)習(xí)生江嘉健,轉(zhuǎn)載需授權(quán)
最近一段時(shí)間,我們米筐科技量化策略研究團(tuán)隊(duì)在自己的策略研究平臺(tái)上,做了一些量化分析方面的特征工程和特征選擇研究。關(guān)于它們在量化交易中的應(yīng)用,我可以分享一下我們團(tuán)隊(duì)的經(jīng)驗(yàn)。
首先,追本溯源,為什么特征工程和特征選擇值得討論?在實(shí)際的數(shù)據(jù)分析和建模中,我們通常要面對兩種情況:1 數(shù)據(jù)集中已有的特征變量不夠多,或者已有的特征變量不足以充分表征數(shù)據(jù)的特點(diǎn);2 我們擁有大量的特征,需要判斷出哪些是相關(guān)特征,哪些是不相關(guān)特征。特征工程解決的是第一個(gè)問題,而特征選擇解決的是第二個(gè)問題。
對于特征工程來說,它的的難點(diǎn)在于找到好的思路,來產(chǎn)生能夠表征數(shù)據(jù)特點(diǎn)的新特征變量;而特征選擇的難點(diǎn)則在于,其本質(zhì)是一個(gè)復(fù)雜的組合優(yōu)化問題(combinatorial optimization)。例如,如果有 30 個(gè)特征變量,當(dāng)我們進(jìn)行建模的時(shí)候,每個(gè)特征變量有兩種可能的狀態(tài):“保留”和“被剔除”。那么,這組特征維度的狀態(tài)集合中的元素個(gè)數(shù)就是2的30次方。更一般地,如果我們有 N 個(gè)特征變量,則特征變量的狀態(tài)集合中的元素個(gè)數(shù)就是2的N次方。因此,從算法角度講,通過窮舉的方式進(jìn)行求解的時(shí)間復(fù)雜度是指數(shù)級(jí)的。當(dāng) N 足夠大時(shí),特征篩選將會(huì)耗費(fèi)大量的時(shí)間和計(jì)算資源(圖1)。在實(shí)際應(yīng)用中,為了減少運(yùn)算量,目前特征子集的搜索策略大都采用貪心算法(greedyalgorithm),其核心思想是在每一步選擇中,都采納當(dāng)前條件下最好的選擇,從而獲得組合優(yōu)化問題的近似最優(yōu)解。

圖1:通過窮舉法求解特征選擇問題的二叉樹表示。狀態(tài)集合中元素的個(gè)數(shù)隨特征變量數(shù)目增加而呈現(xiàn)指數(shù)增長。
目前很多流行的機(jī)器學(xué)習(xí)的材料,都未能給出特征工程和特征選擇的詳細(xì)論述。其主要原因是,大部分機(jī)器學(xué)習(xí)算法有標(biāo)準(zhǔn)的推導(dǎo)過程,因而易于講解。但是在很多實(shí)際問題中,尋找和篩選特征變量并沒有普適的方法。 然而,特征工程和特征選擇對于分析結(jié)果的影響,往往比之后的機(jī)器學(xué)習(xí)模型的選擇更為重要。斯坦福大學(xué)教授,Coursera上著名的機(jī)器學(xué)習(xí)課程主講老師Andrew Ng就曾經(jīng)表示:“基本上,所謂機(jī)器學(xué)習(xí)應(yīng)用,就是進(jìn)行特征工程?!?/p>
在特征工程和特征選擇的在量化交易的應(yīng)用方面,我們試圖回答以下兩個(gè)問題:
1 如何對滬深300指數(shù)進(jìn)行特征工程?
2如何盡可能減少數(shù)據(jù),以及算法本身的局限性給特征選擇帶來的負(fù)面影響?
接下來,就以上兩個(gè)問題,不揣淺陋,我分享一些我們團(tuán)隊(duì)的經(jīng)驗(yàn)和思考。
1滬深300指數(shù)的特征工程
在量化分析中,常見的因子大致可以分為四類:
(1)量價(jià)因子,例如成交量,收盤價(jià)等;
(2)基本面因子,例如市盈率,所屬行業(yè)等;
(3)技術(shù)分析因子,例如MACD, DIF等;
(4)宏觀經(jīng)濟(jì)因子(或稱外部響應(yīng)因子),例如利率,各個(gè)季度的經(jīng)濟(jì)數(shù)據(jù)等。
1970年,尤金法馬(Eugene Fama)提出了有效市場理論,認(rèn)為證券資產(chǎn)價(jià)格包含一切的市場信息。這就是量價(jià)因子能夠反映市場特征的根本依據(jù)。對于一個(gè)非有效市場而言,我們認(rèn)為,量價(jià)因子甚至可能更為重要:任何人根據(jù)非公開信息進(jìn)行交易,其交易信息仍然會(huì)反映在量價(jià)因子中。類似的觀點(diǎn)更接近于有效市場理論的強(qiáng)假設(shè)版本:市場上一切公開或非公開的信息,都會(huì)反映在資產(chǎn)的價(jià)格中。
基于這個(gè)思路,在四類因子中,我們首先嘗試對量價(jià)因子實(shí)現(xiàn)特征工程。2015年,在一篇名為《WorldQuant Formulaic 101 Alphas》的研究報(bào)告中,以數(shù)據(jù)挖掘能力而聞名業(yè)界的對沖基金WorldQuant LLC給出了他們的 101 個(gè)阿爾法的數(shù)學(xué)表達(dá)式。在報(bào)告中,這些阿爾法表達(dá)式被分為了趨勢追隨,均值回歸和混合型三種。既然這 101 個(gè)阿爾法表達(dá)式在實(shí)踐中被證明行之有效,且對應(yīng)明確的市場意義(趨勢,反轉(zhuǎn)和混合),在特征工程研究中,我們使用報(bào)告中的變換方法和阿爾法表達(dá)式為基礎(chǔ),構(gòu)造了60 個(gè)特征變量,用于下一步的機(jī)器學(xué)習(xí)建模。這 60 個(gè)特征變量的構(gòu)建過程,可參看我們第二份報(bào)告的附錄2。
2集成特征打分器 (Ensemble Feature Grader, EFG)
如上所述,特征選擇的本質(zhì)上是求解一個(gè)計(jì)算量隨特征變量個(gè)數(shù)呈指數(shù)增長的組合優(yōu)化問題?;诓煌淖蛹阉骱驮u(píng)價(jià)標(biāo)準(zhǔn),不同的方法給出的都只是一個(gè)近似最優(yōu)解,而解的合理性也將受方法本身的局限性所影響。因此,為了系統(tǒng)化地進(jìn)行特征選擇,獲得更為合理的相關(guān)特征變量子集,在這里我們借鑒機(jī)器學(xué)習(xí)里面的集成學(xué)習(xí)(ensemble learning)的思想,提出一個(gè)集成特征打分器(以下稱EFG)。在這個(gè)打分器中,我們使用了八種方法(Pearson 相關(guān)系數(shù),距離相關(guān)系數(shù),簡單線性回歸,基于AIC的Lasso回歸,基于BIC的Lasso回歸,隨機(jī)森林,循環(huán)特征剔除和嶺回歸)對特征變量分別進(jìn)行打分,并進(jìn)而計(jì)算其總得分,以盡量減少數(shù)據(jù)和單一特征選擇方法引起的問題,進(jìn)而改善特征選擇的效果。
我們進(jìn)一步使用了 Frideman 訓(xùn)練集對 EFG 進(jìn)行測試。這個(gè)訓(xùn)練集中包含非線性相關(guān)項(xiàng),噪音項(xiàng),權(quán)重不同的線性相關(guān)項(xiàng)和引起多重共線性的項(xiàng),基本上囊括了實(shí)際數(shù)據(jù)處理中可能出現(xiàn)的主要問題,而 EFG 的測試表現(xiàn)令人滿意。有興趣的朋友,可以參看我們第二份研究報(bào)告附錄1,了解詳細(xì)的測試過程和結(jié)果。
在實(shí)際建模中,我們使用 EFG 對上一步獲得的 60 個(gè)特征變量進(jìn)行打分,篩選出 14 個(gè)得分較高的特征變量,并以此進(jìn)行了聚類分析。我們發(fā)現(xiàn)兩個(gè)聚類所對應(yīng)的不同收益率分布,其中第一個(gè)聚類所包含的交易日,其下一個(gè)交易日的收益率的均值明顯高于第二個(gè)聚類所對應(yīng)的均值?;谶@個(gè)結(jié)果,我們實(shí)現(xiàn)了一個(gè)基準(zhǔn)擇時(shí)策略。其思路是,如果一個(gè)交易日和聚類1的距離較近,我們就進(jìn)行買入;離聚類2較近,則不進(jìn)行交易。下午為該策略的累計(jì)收益率(圖2),其表現(xiàn)明顯好于長期持有滬深300指數(shù)相關(guān)的資產(chǎn)。

圖2:使用 EFG 進(jìn)行特征選擇后累積收益率曲線計(jì)算:(a)滬深300指數(shù);(b) 在聚類1包含的交易日進(jìn)行交易;(c) 在聚類2包含的交易日進(jìn)行交易
以上就是我們在利用機(jī)器學(xué)習(xí)算法進(jìn)行金融量化分析中的經(jīng)驗(yàn)和嘗試。關(guān)于下筆為文,古人有一句真知灼見:“結(jié)字因時(shí)而變,運(yùn)筆千秋不易?!?對于數(shù)據(jù)分析和建模來說,道理也不外如是。計(jì)算機(jī)理論和機(jī)器學(xué)習(xí)算法的發(fā)展,使得數(shù)據(jù)分析和建模成為了這個(gè)時(shí)代的顯學(xué)。目前,用
R 或者 Python 等高級(jí)編程語言實(shí)現(xiàn)一個(gè)復(fù)雜的模型,所需的可能就是區(qū)區(qū)幾十行代碼。但是自問自心,我們是否能夠真的對于數(shù)據(jù)和模型做得了如指掌?是否能保證當(dāng)模型出現(xiàn)問題時(shí),我們能知其所以然?在一個(gè)足夠長的時(shí)間維度內(nèi),我們認(rèn)為,在數(shù)據(jù)建模和量化交易中能夠出類拔萃的人,始終應(yīng)該保持著對數(shù)據(jù)和算法全面,準(zhǔn)確,深刻的理解和思考。
概而言之,撥開數(shù)據(jù)的重重迷霧,理解和預(yù)測復(fù)雜多變的金融市場,即使不考慮其物質(zhì)回報(bào),其過程本身也令人著迷。我們走上了這條荊棘叢生,又有壯麗風(fēng)光的旅途,樂于體認(rèn)這個(gè)過程中一切的艱辛和甘甜。希望我們這里所敘述的經(jīng)驗(yàn)和思考,也對你有所啟發(fā)。
研究報(bào)告鏈接:
https://zhuanlan.zhihu.com/p/21337419
https://zhuanlan.zhihu.com/p/21406355
枕書達(dá)旦,以爭朝夕,與君共勉。
