香港人熱愛足球。七月份世界杯的賽果,固然令球迷又喜又悲,更成城中熱話;法國贏得世界杯還記憶猶新,英國超級足球聯賽(英超)月初也開鑼了。
英超是現今最受歡迎的體育比賽之一,全球前二十名最有錢的球隊,一半在英超,單去年球季轉播費收入,已高達25億美元,遠超西甲或德甲等聯賽,英超的影響力,可想而知。
隨著球賽的普及,英超博彩活動及投注額,每年在上升。據澳洲悉尼郵報的估計,2015年運動類賭博收入市場收入,接近達5千億美元。隨著互聯網發展,網上投注越來越方便,每年以百份之10至20複式增長。如此龐大市場推動下,各色各樣的比賽預測工具,亦應運而生。
如前所述,機器學習(ML)可解決以往電腦程式的不少難題,包括作出預測,當然不少人亦試來用於預測賽果。足球比賽涉及大量人為和難以預測的因素,ML是否可以幫上忙?
2014年世界杯比賽期間,微軟的Bing Predicts 預測工具,便以ML運算程式,使用了社交平台上數據,以流行的搜尋詞彙,準確預測決賽15場比賽勝負,打響了名堂。後來更在不同電視歌唱比賽,預測勝出冠軍,甚至美國洲際大選,揀選出高勝算的候選人。有趣的是,Bing並不是使用球隊的比賽往績,反而以社交平台上的用戶交流的數據,從球迷或球評家的集體智慧,反而作出相當準確的分析,可見社交媒體所言,也不一定是「山埃貼士」,沙裡淘金之餘,也有不少真知灼見。
中國人常說集思廣益,從社交媒體的數據,以AI適當利用,除了作為市場調查,也有不同其他價值。
以ML推測英超賽事的勝負,其實也並非特別艱鉅任務,當然魔鬼全在細節,透過不同演算法,所推算出成功率高低,才是成敗的關鍵。一般建立運算的過程,包括以下各個步驟:1. 先收集英超比賽的數據,2.去蕪存菁,有用相關數值留下;3, 選擇合適演算法;先做數據訓練;4. 最後模擬比賽預測結果,微調演算方案,令成功率再上一層樓。
網上以ML預測英超賽果的教材,其實已經不少。Medium網站內,己有不少關於ML的文章,Youtube亦有不少有趣示範;AI網絡達人Siraj Raval在Youtube頻道,曾介紹如何使用網上英超球隊公開數據,開發Python程式預測比賽,成功率高達75%!Raval所使用開發軟件、ML模塊、Python程式庫,都可免費下載,簡單推算得到如此成績,已令人鼓舞。
耶魯大學畢業生Tuan Doan Nguygen ,則另闢蹊徑,使用統計學的泊松分佈法 (Poisson Distribution),基於過往兩隊英超足球隊對賽入球率,以免費的R統計工具,編寫預測對賽兩隊入球及勝負成績,今年第一周成功率達百份之70。雖然成績未能達Siraj Raval成績,但所編工具卻更簡單易明。有興趣的讀者,可在Medium 找到他的文章及程式。
最後筆者鄭重聲明,無意推動任何博彩活動,以上介紹的機器程式,只在純粹探索AI程式的各種使用範疇,當然不能作為參與賭博的藉口。結果不論是輸贏,或讀者有任何金錢損失,本人恕不負責了。
作者:梁定康,現任網絡工程師,負責研究IT保安及網絡設計