Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

追蹤疫情公開源碼 統計分析集思廣益

[ 眾創時代 ] [新冠肺炎]

美國賓夕法尼亞州醫學院開發的醫療預測團隊開發的Covid-19傳染病醫院影響模型CHIME,源碼已上載至GitHub,協助醫院及公共衛生決策人員預測染疫人數

眾創時代

新冠肺炎Covid-19蔓延,GitHub湧現公開源碼專案,針對抗疫情作多項分析。上述專案內容五花八門,從採用的開發工具,JavaScript和Python已經成為主流,也側見開發人員以GitHub協作,加速開發各種分析工具。

不少工具被多次下載,其中包括賓夕法尼亞州醫學院開發的醫療預測團隊開發的Covid-19傳染病醫院影響模型CHIME,協助醫院及公共衛生決策人員預測染病人數,以及評估醫院的承受能力。CHIME通過統一輸入數據,預測每日染病人數,推算住院人數、加護病房入住率、吸呼機需求等。

預測模型根據凖標傳染病學SIR(懷疑感染個案、受感染個案、康復個案)模型推算,獲數位美國傳染學者驗證,包括賓夕法尼亞州大學美國佩雷爾曼醫學院傳染學者Michael Z. Levy教授,模型可從社交隔離措施,預測傳染率R0數值,以及估計傳染人數倍翻所需的日數。

另一開源專案由Locale.ai開發,以實時更新數據打造視覺化分析,顯示全球感染人數的covid19-live-visualization,亦以JavaScript打造應用介面。

Locale.ai採用了尤雨溪開發Vue.js的JavaScript前端框架,以簡單語法寫出亮麗介面,實時呈現全球統計數據。

全球數據供分析

Locale.ai主要從約翰.霍普金斯大學(John Hopkins)開發全球疫情統計網站,通過API介面取得數據,再通過視覺化分析呈現。John Hopkins 大學感染人數統計圖表,已成主流媒體消息來源,計算全球各地Covid-19數據統一出口(Data repository),GitHub已獲17萬以上星星讚許。

https://github.com/CSSEGISandData/COVID-19

理論上,用戶可通過Tableau或者PowerBI建立視像化介面,Locale.ai採用了尤雨溪開發Vue.js的JavaScript前端框架,以簡單語法寫出亮麗介面。

美國《紐約時報》亦開放了數據接口,以便下載美國Covid-19蔓延各項實時數據,可以查看每個州及縣的染病及死亡人數。1月份,《紐約時報》已經推出實時的統計,後台數據就是來自相同的API介面,公眾可以從GitHub開放源碼,可下載美國病情發展的實時數據。

https://github.com/nytimes/covid-19-data

中國疫情數據

近年以來,有關網絡抓取(Web scraping,亦稱「網絡爬蟲」Crawler)的技術,應用到不同價格比較和商品情報網站,可快速抓取其他網頁內字,包括是文字、圖片、表格,並作不同數據分析,甚至是價格服務比較。Web scraping工具亦如雨後春筍,成為公開源碼計畫最受歡迎工具。

中國疫情統計網站之中,以「丁香園」(DXY.cn)網站獲最多的引用,以上提及的約翰.霍普金斯大學網站也是使用丁香園提供數據,香港大學開發人員BlankerL在GitHub上載了2019新型冠狀病毒疫情即時爬蟲及API(DXY-COVID-19-Crawler),BlankerL爬蟲每分鐘訪問,並爬取一次數據,儲存MongoDB中,保存所有歷史資料更新,希望能夠未來回溯病情時有幫助。BlankerL的源碼已獲得超過1萬4千夥星星。BlankerL以Python語言開發,透過開源工具Beautiful Soup抓取工具,快速從網站抓取各項數據。

不過為避免爬蟲的氾濫,佔用丁香園過多的流量,導致其他用戶無法獲取數據。BlankerL也開放另一介面,可直接查看並以API下載有關數據;包括病毒研究情況以及全國疫情概覽、國家、省份、地區或直轄市統計、疫情有關新聞資訊、疫情謠言以及丁香園闢謠聲明。

上述各項開發工具可供下載,並作各種不同分析,甚至加入到不同的專案,以助更多人認識疫情的發展,以及蔓延趨勢,甚至作出預測性分析。

Leave a Reply

Your email address will not be published. Required fields are marked *