亚洲一二精品视频导航,在线天堂99,男人资源网av在线

文章來自Ricequant實(shí)習(xí)生江嘉健，轉(zhuǎn)載需授權(quán)

最近一段時(shí)間，我們米筐科技量化策略研究團(tuán)隊(duì)在自己的策略研究平臺(tái)上，做了一些量化分析方面的特征工程和特征選擇研究。關(guān)于它們在量化交易中的應(yīng)用，我可以分享一下我們團(tuán)隊(duì)的經(jīng)驗(yàn)。

首先，追本溯源，為什么特征工程和特征選擇值得討論？在實(shí)際的數(shù)據(jù)分析和建模中，我們通常要面對兩種情況：1 數(shù)據(jù)集中已有的特征變量不夠多，或者已有的特征變量不足以充分表征數(shù)據(jù)的特點(diǎn)；2 我們擁有大量的特征，需要判斷出哪些是相關(guān)特征，哪些是不相關(guān)特征。特征工程解決的是第一個(gè)問題，而特征選擇解決的是第二個(gè)問題。

對于特征工程來說，它的的難點(diǎn)在于找到好的思路，來產(chǎn)生能夠表征數(shù)據(jù)特點(diǎn)的新特征變量；而特征選擇的難點(diǎn)則在于，其本質(zhì)是一個(gè)復(fù)雜的組合優(yōu)化問題（combinatorial optimization）。例如，如果有 30 個(gè)特征變量，當(dāng)我們進(jìn)行建模的時(shí)候，每個(gè)特征變量有兩種可能的狀態(tài)：“保留”和“被剔除”。那么，這組特征維度的狀態(tài)集合中的元素個(gè)數(shù)就是2的30次方。更一般地，如果我們有 N 個(gè)特征變量，則特征變量的狀態(tài)集合中的元素個(gè)數(shù)就是2的N次方。因此，從算法角度講，通過窮舉的方式進(jìn)行求解的時(shí)間復(fù)雜度是指數(shù)級(jí)的。當(dāng) N 足夠大時(shí)，特征篩選將會(huì)耗費(fèi)大量的時(shí)間和計(jì)算資源（圖1）。在實(shí)際應(yīng)用中，為了減少運(yùn)算量，目前特征子集的搜索策略大都采用貪心算法（greedyalgorithm），其核心思想是在每一步選擇中，都采納當(dāng)前條件下最好的選擇，從而獲得組合優(yōu)化問題的近似最優(yōu)解。

圖1：通過窮舉法求解特征選擇問題的二叉樹表示。狀態(tài)集合中元素的個(gè)數(shù)隨特征變量數(shù)目增加而呈現(xiàn)指數(shù)增長。

目前很多流行的機(jī)器學(xué)習(xí)的材料，都未能給出特征工程和特征選擇的詳細(xì)論述。其主要原因是，大部分機(jī)器學(xué)習(xí)算法有標(biāo)準(zhǔn)的推導(dǎo)過程，因而易于講解。但是在很多實(shí)際問題中，尋找和篩選特征變量并沒有普適的方法。然而，特征工程和特征選擇對于分析結(jié)果的影響，往往比之后的機(jī)器學(xué)習(xí)模型的選擇更為重要。斯坦福大學(xué)教授，Coursera上著名的機(jī)器學(xué)習(xí)課程主講老師Andrew Ng就曾經(jīng)表示：“基本上，所謂機(jī)器學(xué)習(xí)應(yīng)用，就是進(jìn)行特征工程?！?/p>

在特征工程和特征選擇的在量化交易的應(yīng)用方面，我們試圖回答以下兩個(gè)問題：

1 如何對滬深300指數(shù)進(jìn)行特征工程？

2如何盡可能減少數(shù)據(jù)，以及算法本身的局限性給特征選擇帶來的負(fù)面影響？

接下來，就以上兩個(gè)問題，不揣淺陋，我分享一些我們團(tuán)隊(duì)的經(jīng)驗(yàn)和思考。

1滬深300指數(shù)的特征工程

在量化分析中，常見的因子大致可以分為四類：

（1）量價(jià)因子，例如成交量，收盤價(jià)等；

（2）基本面因子，例如市盈率，所屬行業(yè)等；

（3）技術(shù)分析因子，例如MACD, DIF等；

（4）宏觀經(jīng)濟(jì)因子（或稱外部響應(yīng)因子），例如利率，各個(gè)季度的經(jīng)濟(jì)數(shù)據(jù)等。

1970年，尤金法馬（Eugene Fama）提出了有效市場理論，認(rèn)為證券資產(chǎn)價(jià)格包含一切的市場信息。這就是量價(jià)因子能夠反映市場特征的根本依據(jù)。對于一個(gè)非有效市場而言，我們認(rèn)為，量價(jià)因子甚至可能更為重要：任何人根據(jù)非公開信息進(jìn)行交易，其交易信息仍然會(huì)反映在量價(jià)因子中。類似的觀點(diǎn)更接近于有效市場理論的強(qiáng)假設(shè)版本：市場上一切公開或非公開的信息，都會(huì)反映在資產(chǎn)的價(jià)格中。

基于這個(gè)思路，在四類因子中，我們首先嘗試對量價(jià)因子實(shí)現(xiàn)特征工程。2015年，在一篇名為《WorldQuant Formulaic 101 Alphas》的研究報(bào)告中，以數(shù)據(jù)挖掘能力而聞名業(yè)界的對沖基金WorldQuant LLC給出了他們的 101 個(gè)阿爾法的數(shù)學(xué)表達(dá)式。在報(bào)告中，這些阿爾法表達(dá)式被分為了趨勢追隨，均值回歸和混合型三種。既然這 101 個(gè)阿爾法表達(dá)式在實(shí)踐中被證明行之有效，且對應(yīng)明確的市場意義（趨勢，反轉(zhuǎn)和混合），在特征工程研究中，我們使用報(bào)告中的變換方法和阿爾法表達(dá)式為基礎(chǔ)，構(gòu)造了60 個(gè)特征變量，用于下一步的機(jī)器學(xué)習(xí)建模。這 60 個(gè)特征變量的構(gòu)建過程，可參看我們第二份報(bào)告的附錄2。

2集成特征打分器 (Ensemble Feature Grader, EFG)

如上所述，特征選擇的本質(zhì)上是求解一個(gè)計(jì)算量隨特征變量個(gè)數(shù)呈指數(shù)增長的組合優(yōu)化問題?；诓煌淖蛹阉骱驮u(píng)價(jià)標(biāo)準(zhǔn)，不同的方法給出的都只是一個(gè)近似最優(yōu)解，而解的合理性也將受方法本身的局限性所影響。因此，為了系統(tǒng)化地進(jìn)行特征選擇，獲得更為合理的相關(guān)特征變量子集，在這里我們借鑒機(jī)器學(xué)習(xí)里面的集成學(xué)習(xí)（ensemble learning）的思想，提出一個(gè)集成特征打分器（以下稱EFG)。在這個(gè)打分器中，我們使用了八種方法（Pearson 相關(guān)系數(shù)，距離相關(guān)系數(shù)，簡單線性回歸，基于AIC的Lasso回歸，基于BIC的Lasso回歸，隨機(jī)森林，循環(huán)特征剔除和嶺回歸）對特征變量分別進(jìn)行打分，并進(jìn)而計(jì)算其總得分，以盡量減少數(shù)據(jù)和單一特征選擇方法引起的問題，進(jìn)而改善特征選擇的效果。

我們進(jìn)一步使用了 Frideman 訓(xùn)練集對 EFG 進(jìn)行測試。這個(gè)訓(xùn)練集中包含非線性相關(guān)項(xiàng)，噪音項(xiàng)，權(quán)重不同的線性相關(guān)項(xiàng)和引起多重共線性的項(xiàng)，基本上囊括了實(shí)際數(shù)據(jù)處理中可能出現(xiàn)的主要問題，而 EFG 的測試表現(xiàn)令人滿意。有興趣的朋友，可以參看我們第二份研究報(bào)告附錄1，了解詳細(xì)的測試過程和結(jié)果。

在實(shí)際建模中，我們使用 EFG 對上一步獲得的 60 個(gè)特征變量進(jìn)行打分，篩選出 14 個(gè)得分較高的特征變量，并以此進(jìn)行了聚類分析。我們發(fā)現(xiàn)兩個(gè)聚類所對應(yīng)的不同收益率分布，其中第一個(gè)聚類所包含的交易日，其下一個(gè)交易日的收益率的均值明顯高于第二個(gè)聚類所對應(yīng)的均值?；谶@個(gè)結(jié)果，我們實(shí)現(xiàn)了一個(gè)基準(zhǔn)擇時(shí)策略。其思路是，如果一個(gè)交易日和聚類1的距離較近，我們就進(jìn)行買入；離聚類2較近，則不進(jìn)行交易。下午為該策略的累計(jì)收益率（圖2），其表現(xiàn)明顯好于長期持有滬深300指數(shù)相關(guān)的資產(chǎn)。

圖2：使用 EFG 進(jìn)行特征選擇后累積收益率曲線計(jì)算：(a)滬深300指數(shù)；(b) 在聚類1包含的交易日進(jìn)行交易；(c) 在聚類2包含的交易日進(jìn)行交易

以上就是我們在利用機(jī)器學(xué)習(xí)算法進(jìn)行金融量化分析中的經(jīng)驗(yàn)和嘗試。關(guān)于下筆為文，古人有一句真知灼見：“結(jié)字因時(shí)而變，運(yùn)筆千秋不易?！?對于數(shù)據(jù)分析和建模來說，道理也不外如是。計(jì)算機(jī)理論和機(jī)器學(xué)習(xí)算法的發(fā)展，使得數(shù)據(jù)分析和建模成為了這個(gè)時(shí)代的顯學(xué)。目前，用

R 或者 Python 等高級(jí)編程語言實(shí)現(xiàn)一個(gè)復(fù)雜的模型，所需的可能就是區(qū)區(qū)幾十行代碼。但是自問自心，我們是否能夠真的對于數(shù)據(jù)和模型做得了如指掌？是否能保證當(dāng)模型出現(xiàn)問題時(shí)，我們能知其所以然？在一個(gè)足夠長的時(shí)間維度內(nèi)，我們認(rèn)為，在數(shù)據(jù)建模和量化交易中能夠出類拔萃的人，始終應(yīng)該保持著對數(shù)據(jù)和算法全面，準(zhǔn)確，深刻的理解和思考。

概而言之，撥開數(shù)據(jù)的重重迷霧，理解和預(yù)測復(fù)雜多變的金融市場，即使不考慮其物質(zhì)回報(bào)，其過程本身也令人著迷。我們走上了這條荊棘叢生，又有壯麗風(fēng)光的旅途，樂于體認(rèn)這個(gè)過程中一切的艱辛和甘甜。希望我們這里所敘述的經(jīng)驗(yàn)和思考，也對你有所啟發(fā)。

研究報(bào)告鏈接：

https://zhuanlan.zhihu.com/p/21337419

https://zhuanlan.zhihu.com/p/21406355

枕書達(dá)旦，以爭朝夕，與君共勉。