存儲的數(shù)據(jù),首先要進(jìn)行包含完整性,是否有錯誤等,需要進(jìn)行數(shù)據(jù)質(zhì)量的檢查,而且還會根據(jù)自身策略的運算規(guī)則需要進(jìn)行特定數(shù)據(jù)的運算合成,比如某個時間級別如30秒鐘,1分鐘,等等級別數(shù)據(jù)的合成。也包含某些特色數(shù)據(jù)的合成,如因子類數(shù)據(jù),
其實量化交易最難的一部分也在這里,如果你不了解就會很難,
而且,量化交易的數(shù)據(jù)使用是有兩個層面的。
一個是研究層面,
這個部分一般采用歷史行情數(shù)據(jù)就可以了,除去TICK級、秒級、分鐘、小時、日線等級別基礎(chǔ)數(shù)據(jù)之外,一些數(shù)據(jù)服務(wù)商還提供特別數(shù)據(jù),比如因子數(shù)據(jù),輿情類數(shù)據(jù)、還有一些特別用處的場外數(shù)據(jù)等等,還有一些盤口訂單流類型的策略需求較為特珠的歷史逐筆行情數(shù)據(jù)等等,
研究層面的數(shù)據(jù)大多可以通過一些免費API或者向數(shù)據(jù)服務(wù)商進(jìn)行付費獲取,我甚至有在某寶看到售賣,但不知質(zhì)量如何,想來如果僅僅是做研究之用,歷史部分的數(shù)據(jù)應(yīng)該不會差到哪里去,實在不行可以多買幾份不同服務(wù)商的數(shù)據(jù)進(jìn)行校對。
另一個是實盤層面,
這個層面的數(shù)據(jù)指的是實時行情數(shù)據(jù),包含標(biāo)的的實時價格、成交量、盤口訂單委托方向、數(shù)量等等。實盤層面的行情數(shù)據(jù)獲取,幾乎已經(jīng)被國內(nèi)有行情分發(fā)資質(zhì)的一些數(shù)據(jù)服務(wù)商給壟斷了,如WIND,通聯(lián),Choise等等。這種數(shù)據(jù)比較在乎質(zhì)量以及響應(yīng)速度,因為模型的最終指令信號是會過由這部分?jǐn)?shù)據(jù)進(jìn)行計算判定的。所以容不得失誤。
本質(zhì)上來說,數(shù)據(jù)質(zhì)量的好壞,在于你獲取數(shù)據(jù)來源的是否更靠近交易所一手?jǐn)?shù)據(jù)來源,因為所有的數(shù)據(jù),不論是實時行情部分還是歷史行情部分,最初都是由交易所進(jìn)行發(fā)布的,當(dāng)然一些數(shù)據(jù)服務(wù)商比較用心,將這部分?jǐn)?shù)據(jù)進(jìn)行了存儲加工了,在得到交易所和監(jiān)管部門授權(quán)的背景下,再進(jìn)行了售賣與行情分發(fā)。
劃重點講,如果你比較關(guān)注在意數(shù)據(jù)的質(zhì)量,那就應(yīng)該盡量向高一級分發(fā)資質(zhì)的數(shù)據(jù)服務(wù)商進(jìn)行購買,如果不是挺在意,那獲取的渠道就是多種多樣了,知乎上很多的數(shù)據(jù)服務(wù)部商喜歡打廣告,有很多的傳送門的,只需要一搜便出現(xiàn)了。但不一定是你想用的,不要急著繳納他們昂貴的年費,認(rèn)真的停下來思考下,我的策略是否已經(jīng)定型了,獲取的數(shù)據(jù)層面是否還需要有大的變動,再去決定是否購買,畢竟數(shù)萬每年的價格,也不少。
交易所行情數(shù)據(jù)的分發(fā),也是公開對外報價的,我記得不錯的話,以股票行情舉例,上交所和深交所的價格,5年前大致是在100萬/每年,不知時今的報價如何。
所以建議還是根據(jù)自身策略的需要,進(jìn)行數(shù)據(jù)的獲取收集與存儲,
其實我們進(jìn)行量化交易,不外乎會通過兩種形式進(jìn)行研究、實盤交易。
第一種,采用三方量化平臺,一般是使用三方量化平臺封裝的數(shù)據(jù)API,通過獲取數(shù)據(jù)的函數(shù)直接進(jìn)行數(shù)據(jù)的調(diào)用,當(dāng)然各個三方量化平臺的數(shù)據(jù)質(zhì)量參差不齊,推薦老牌量化平臺機(jī)構(gòu),股票可以推薦恒生,迅投系列的券商PB量化軟件。期貨可以采用文化與交易開拓者或者金字塔之類的三方量化軟件服務(wù)商,當(dāng)然新生代的聚寬之類的web端的量化平臺也是不錯的,
第二種,使用python語言環(huán)境或其它語言進(jìn)行開發(fā)研究。這種的話,相對來說就比較麻煩一些,所有的數(shù)據(jù)首先要到處尋找可用的API進(jìn)行數(shù)據(jù)的實時接收,不論是通過規(guī)范的API接口,或是通過爬蟲(不建議)技術(shù)進(jìn)行獲取,獲取到數(shù)據(jù)的第一時間,一般都會對該部分?jǐn)?shù)據(jù)進(jìn)行格式調(diào)整或是本地化存儲的。
雖然之后的使用會更靈活,但無形之中會加大量化交易研究或交易環(huán)節(jié)過程中的人員以及精力支出。如果是較為高頻一點的策略,我建議關(guān)注的點首先是數(shù)據(jù)質(zhì)量上,比如精準(zhǔn)度,響應(yīng)延時,其次才是策略本身的算法之類,研究的過程是有先后的。
兩種形式相比較,前者更適用于個人研究,不具備時間、精力、金錢的個人玩家,后者更適用于團(tuán)隊分工合作形式的專業(yè)機(jī)構(gòu),如果拿開店舉例,前者類似于開一家加盟店,優(yōu)點是什么基本該有東西都有人給你準(zhǔn)備好了,缺點就是不靈活,不生動。后者就是個體商鋪,更煩心,但優(yōu)點就是更自由,更有施展你天馬行空想法的可能性。
順帶說一句,不論哪種數(shù)據(jù)獲取形式,你扎實的程序、數(shù)據(jù)庫知識,以及對金融證券交易基礎(chǔ)知識是必備的。不要想著我以前就是一程序員,立馬轉(zhuǎn)型成量化交易員是否具備這種可能性,我認(rèn)為是很難的。
最后講一下,一些其它市場的數(shù)據(jù)獲取,
比如美股,美股市場的量化交易數(shù)據(jù),其實國外放得比較開,很多數(shù)據(jù)也是免費的,你所在的券商一般者會提供相應(yīng)的數(shù)據(jù)API,比如盈透、老虎證券這種美股券商都是有的,如果你只是用來做個研究什么的,也可以找新浪要去(新浪是初學(xué)者大多愛好在這里BA),但精細(xì)化的數(shù)據(jù)加工成本確實挺多的,一般也會收費,具體多少你可以咨詢一下你所在的券商客戶MM。
期權(quán)數(shù)據(jù),這種也是由交易所原初提供的,軟件與行情數(shù)據(jù)服務(wù)商進(jìn)行分發(fā),像上面提到的的WIND這些一定是有的,一些三方期權(quán)平臺也是有可能會打包售賣的,比如真格量化平臺。
總的來說,數(shù)據(jù)的獲取來源多種多樣,大神有實力的一般自己動手豐衣足食,努力學(xué)習(xí)期的朋友一般喜歡借用力量,不管選擇哪種方式,都得先參考自已的量化交易策略,需要用到什么,考慮清楚后,再決定用什么,總有一款適合你。