版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生堡亟隨醫(yī)堂苤志2 Q 1 5 生§旦筮塑鲞筮§期£叢Ⅱ』£翌! 叢趟:』! ! 12 Q ! 』,y ! ! :塑,盟! :魚谷歌流感預(yù)測——大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的嘗試鄒曉輝朱聞斐楊磊舒躍龍【摘要】谷歌流感預(yù)測( G o o g l eF l uT r e n d s ,G F v r ) 是大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的首次嘗試,自2 0 0 9年上線以來,受到了各方的廣泛關(guān)注。上線初期,G 丌預(yù)測結(jié)果與美國c D c
2、數(shù)據(jù)高度相關(guān),但隨后G F T 未能預(yù)測到2 0 0 9 年甲流大流行,并在2 叭2 —2 0 1 4 年季度持續(xù)高估了美國流感的流行態(tài)勢。自2 0 0 9 年以來,G ?!P徒?jīng)過3 次升級,其預(yù)測偏差得到了有效糾正。本文綜述了G f v r 模型預(yù)測流感的原理,模型升級的策略,及其對公共衛(wèi)生的意義?!娟P(guān)鍵詞】公共衛(wèi)生;預(yù)測;大數(shù)據(jù);谷歌流感預(yù)測G o o g l eF l uT r e n d s —t h e i I I i t
3、i a I a p p n ∞t i o no fb i gd a t a i np u b I i ch e a l t h Z b u 尉o o ^ u i ,2 h “耽咖i ,y n 幾g k i ,.s 危u №f o 昭.A k £i o 眥f 脅謝£u 把如r Ⅵr n Z D 厶e n s e C o 凡f r o f o n d 尸n 移e n 砌幾,m i 聊s e &凡£e r 加rD 如e 0 5 ec o 凡£
4、r o f 帆d P r e 口帆渤凡,B e 咖增J D 2 2 0 6 ,C ^ i mC o r ,_ e 印o n d 西增。M £危o rJ s ^ “l(fā) ,u e f o ,l 為—E } ,孔Ⅱi ! ? ,博^ “@ c 凡i c .o ,侈c 凡【A b s t r a c t 】 G o 0 9 1 e F l uT r e n d s ( G F T ) w a st h ef i r s t a p p l i
5、c a t i o no f b i gd a t ai n t h ep u b l i c h e a l t hf i e l d .G F T w a s o p e n o n l i n ei n2 0 0 9a n d a t t r a c t e dw o r l d w i d ea t t e n t i o n i m m e d i a t e l y .H o w e v e r ,G F Tf a i l
6、e dc a t c h i n gt h e2 0 0 9p a n d e m i cH 1 N 1a n dk e p to v e r e s t i m a t i n gt h ei n t e n s i t vo f i n n u e n z a —l i k ei 1 1 n e s si nt h e 2 0 1 2 —2 0 1 4s e a s o ni nt h eU n i t e dS t a t e s
7、 .G I 叮m o d e lh a sb e e nu p d a t e df b rt h r e et i m e ss i n c e2 0 0 9 ,m a k i n gi t s p r e d i c t i o nb i a s c o n t r o l l e d .H e r e ,w es u m m a r i z e dt h em e c h a n i s mG I 叩w o r k e d ,t
8、h es t r a t e g yG F T u s e dt ou p d a t e ,a n di t si n n u e n c e o np u b l i ch e a l t h .【K e yw o r d s 】 P u b l i ch e a l I h ; F o r e c a s t i n g ; B i gd a t a ; G o o g l eF 1 uT r e n d s2 l 世紀(jì)是大數(shù)據(jù)的
9、時(shí)代,大數(shù)據(jù)也稱巨量數(shù)據(jù),指利用常規(guī)工具無法獲得、儲存、處理和分析的數(shù)據(jù)集合,常常需要一系列的技術(shù)和手段整合才能挖掘其內(nèi)部價(jià)值,具有多樣性、復(fù)雜性和數(shù)據(jù)量龐大的特點(diǎn)?。這種定義非常主觀,因?yàn)槟銦o法定義數(shù)據(jù)量超過多少即為大數(shù)據(jù)。我們只能確定,隨著技術(shù)的進(jìn)步,大數(shù)據(jù)包含的內(nèi)容也會不斷擴(kuò)大。大數(shù)據(jù)無疑是下一輪創(chuàng)新、競爭和生產(chǎn)力進(jìn)步的前沿陣地。在亞馬遜、沃爾瑪、特斯科等巨頭相繼通過實(shí)例證明了大數(shù)據(jù)的威力后?,作為互聯(lián)網(wǎng)時(shí)代王者的谷歌公司當(dāng)然不甘
10、落后,在2 0 0 8 年1 1 月上線了“谷歌流感預(yù)測( G 0 0 9 l eF 1 uT r e n d s ,G F ’r r ) ”。谷歌公司關(guān)于G F T 的論文發(fā)表在國際著名期刊《自然》( №£u 旭) 上,迄今為止該論文已被引用了l 0 0 0 多次Ⅲ。一、G F T 的原理G F T 的運(yùn)行原理很簡單:如果一個(gè)人患了流感,那么他很可能上網(wǎng)搜索流感相關(guān)信息。通過監(jiān)測一個(gè)地區(qū)某些與流感相關(guān)檢索詞的數(shù)量,就有可能估計(jì)出該地區(qū)
11、流感流行的情況。當(dāng)然,并不是每個(gè)檢索流感的人都會患流感,但是將制所D O I :1 0 .3 7 6 0 /c m a .j .i s s n .0 2 5 3 —9 6 2 4 .2 0 1 5 .0 6 .0 2 6基金項(xiàng)目:國家科技重大專項(xiàng)( 2 0 1 4 Z X l 0 0 0 4 0 0 2 )作者單位:1 0 2 2 0 6 北京,中國疾病預(yù)防控制中心病毒病預(yù)防控通信作者:舒躍龍,E m a i l :y s h u @
12、c n i c ?g .c n· 5 8 1·.綜述.所有的流感相關(guān)的檢索詞匯總后,就會發(fā)現(xiàn)有一些詞匯在流感流行的高峰期檢索總數(shù)目明顯升高,通過計(jì)算這些詞匯被檢索的頻率,就有可能獲得該地區(qū)流感流行的趨勢”l 。G F T r 據(jù)此建立了模型來預(yù)測某個(gè)地區(qū)居民流感樣病例( I n n u e n z a —l i k e i l l n e s s ,I L I ) 相關(guān)的就診比例,即I L I 相關(guān)的就診比例。自變量
13、為相同地區(qū)I L I 相關(guān)的檢索詞被檢索的頻率,對該地區(qū)I L I 就診概率與I L I 相關(guān)檢索詞的檢索率取對數(shù)并擬合出一個(gè)線性模型”l 。以美國c D c 流感監(jiān)測網(wǎng)絡(luò)數(shù)據(jù)作為模型中因變量,谷歌對其數(shù)據(jù)庫中的50 0 0 萬個(gè)常用檢索詞分別進(jìn)行擬合,并根據(jù)擬合的效果打分,然后由一種自動(dòng)選擇程序根據(jù)檢索詞得分的高低自動(dòng)排序。為了確定哪些檢索詞應(yīng)該被G 丌模型所采納和作為其評估I L I 流行的依據(jù),谷歌依次取前Ⅳ個(gè)打分最高的檢索詞的搜
14、索次數(shù)的總和來評估模型預(yù)測I L I 流行的能力,將預(yù)測的結(jié)果與美國C D C 2 0 0 3 至2 0 0 7 年監(jiān)測到結(jié)果相比較,結(jié)果發(fā)現(xiàn)Ⅳ= 4 5時(shí),模型預(yù)測結(jié)果與美國c D c I L I 監(jiān)測結(jié)果最為相似。因此,谷歌將這4 5 個(gè)檢索詞作為G f Y r 模型監(jiān)測的對象,并依據(jù)他們的檢索量來預(yù)測I L I 的流行趨勢( 圖1 ) 。依據(jù)該預(yù)測模型,G F T r 可以在1d 之后給出每周的流感流行報(bào)告,這比美國C D C 的
15、I L I 官方報(bào)告早了1 0 ~1 4 d 。二、G F T 預(yù)測I L I 的準(zhǔn)確性G 丌模型在2 0 0 8 年季度預(yù)測的結(jié)果與美國C D CI L I 監(jiān)測結(jié)果高度相關(guān),其相關(guān)系數(shù)達(dá)到了0 .9 7 | z - 。因此,谷歌在2 0 0 8 年1 1 月正式上線了G 丌( G f Y r1 .0 ) ,在開始運(yùn)行的幾個(gè)萬方數(shù)據(jù)生堡亟隨醫(yī)堂基盍2 Q 1 5 生§月笙壘! 鲞箜§期£h i ! 』£塑! 叢!
16、d :』g n l 2 Q 1 5 ,y Q ! :塑,盥! :§過美國C D CI L I 監(jiān)測結(jié)果來評估的。有證據(jù)顯示,在甲型H l N l 流感流行的第一波,門診病例I L l 的比例( 6 1 %) 高于第二波( 4 3 %) ,這可能與在疫情初期人們更加敏感,有輕微癥狀時(shí)也會去就診,這有可能造成C D C I L I 數(shù)據(jù)比實(shí)際I L I發(fā)生率偏高,進(jìn)而造成G 盯預(yù)測結(jié)果的偏低”4 ?!?。第三,在一個(gè)新型流感流行的初
17、期,一些“非常規(guī)”的與疫情相關(guān)的詞匯有可能得到大量檢索。如甲型H l N l 流感流行期間,“豬流感”等詞匯被大量檢索,但這類詞匯的檢索趨勢與先前季節(jié)性流感流行的趨勢并不相關(guān),因而并未計(jì)入G f Y I ’1 .0模型,導(dǎo)致了G 丌預(yù)測結(jié)果的偏差。認(rèn)識到G 丌1 .0 存在的問題后,谷歌分別在2 0 0 9 年9 月( G F T l l2 .0 ) 和2 0 1 3 年1 0 月( G F v r3 .0 ) 對G F v r 進(jìn)行了
18、升級。但G F v r 2 .0 和G F T3 .0 持續(xù)高估了近兩年美國流感流行程度,盡管G 丌3 .0 預(yù)測偏差較G F 1 r 1 1 2 .0 低。有研究認(rèn)為2 0 1 2 —2 0 1 3 年媒體對流感的高漲報(bào)道是造成G F T 預(yù)測過高的原因,包括2 0 1 3 年1 月紐約州因流感活動(dòng)加強(qiáng)而宣布進(jìn)入公共衛(wèi)生緊急狀態(tài)等事件,促使大量未患流感的人檢索流感相關(guān)詞匯u “。媒體報(bào)道會影響G F T 預(yù)測結(jié)果,但媒體在2 0 0
19、5 —2 0 0 6 年對H 5 N 1 禽流感和在2 0 0 9 年對甲型H l N l 流感的報(bào)道程度更甚于2 0 1 2 —2 0 1 3 年,而G f v r 預(yù)測結(jié)果并未偏高。因此,造成G f v l l 預(yù)測過高另有其他原因。造成G 丌2 .0 及G ?!? .0 預(yù)測過高最有可能原因是谷歌搜索算法本身一l 。谷歌掌握著互聯(lián)網(wǎng)領(lǐng)域最先進(jìn)的搜索技術(shù),其算法并不是一成不變的。谷歌的T 程師不斷修正其算法以提供更好的商業(yè)服務(wù)。谷歌
20、的商業(yè)模式包括兩部分,一方面為用戶快速提供有用的信息,另一方面,獲得更多的廣告收入,谷歌的搜索算法也是根據(jù)這兩個(gè)目的進(jìn)行改進(jìn),而這勢必會影響到某些檢索詞“自發(fā)的”檢索量。如谷歌的“推薦搜索”,是根據(jù)其他人的搜索記錄推薦用戶某些檢索詞,這種“推薦搜索”的服務(wù)會增加某些檢索詞非自發(fā)的檢索量增加,對G 丌預(yù)測產(chǎn)生不利影響。谷歌在第二次模型升級后將關(guān)鍵詞數(shù)目提高到了1 6 0 個(gè),加之谷歌的關(guān)鍵詞提示搜索,會引導(dǎo)人們使用相似的檢索詞,導(dǎo)致某些檢
21、索詞的搜索次數(shù)呈指數(shù)升高,從而導(dǎo)致預(yù)測結(jié)果偏高。六、G F T 對公共衛(wèi)生的啟示G F T 是大數(shù)據(jù)應(yīng)用領(lǐng)域的一次耀眼嘗試,使大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域真正從理論走向?qū)嶋H,因而從上線之日起就獲得了巨大關(guān)注。盡管在最近兩年其預(yù)測結(jié)果_ } f { 現(xiàn)偏差,但總體預(yù)測結(jié)果與美國c D c IL I 監(jiān)測結(jié)果相關(guān)。隨著模型的不斷升級,G 盯預(yù)測偏差得到了明屁的控制,因此在大數(shù)據(jù)時(shí)代,技術(shù)的進(jìn)步總會不斷地解決層_ 【f { 不窮的問題。G 丌預(yù)測流感
22、的成就也促使其他信息巨頭嘗試?yán)米约赫莆盏臄?shù)據(jù)來預(yù)測流感,如T w i I I e r 通過監(jiān)測患者抱怨疾病的信息來預(yù)測疾病的發(fā)生情況,其對流感的預(yù)測結(jié)果與傳統(tǒng)方法監(jiān)測到結(jié)果高度相關(guān)”7 l ;又如維基百科通過監(jiān)測流感相關(guān)網(wǎng)頁每天瀏覽的比率來預(yù)測美國I L I 流行水平,該模型在媒體熱點(diǎn)時(shí)期和季節(jié)性流感嚴(yán)重流行期均表現(xiàn)良好”?。此外,在移動(dòng)互聯(lián)網(wǎng)上,谷歌也有新的動(dòng)作,在2 0 1 4 年6 月· 5 8 3的谷歌開發(fā)者年度會議
23、上,谷歌發(fā)布了G o o g l e F i t 應(yīng)用平臺”,。該平臺可使手機(jī)上的A P P 具備監(jiān)測用戶的健康數(shù)據(jù)的能力,甚至根據(jù)監(jiān)測結(jié)果給用戶提f { { 針對性的建議。作為谷歌公司的老對手,蘋果公司在早些時(shí)候宣布擴(kuò)展其H e a l t h K i t 健康平臺,該平臺能將用戶的健康和身體數(shù)據(jù)直接傳送至醫(yī)療中心的數(shù)據(jù)庫,利用大數(shù)據(jù)評估用戶的健康指標(biāo)”?。大數(shù)據(jù)時(shí)代有可能將徹底改變我們的傳染病監(jiān)測模式,例如當(dāng)某種傳染病開始暴發(fā)時(shí),及
24、早發(fā)現(xiàn)并采取干預(yù)措施非常重要,傳統(tǒng)的監(jiān)測網(wǎng)絡(luò)依靠報(bào)告和匯總,其速度遠(yuǎn)遠(yuǎn)不能滿足快速反應(yīng)的需要;而大數(shù)據(jù)網(wǎng)絡(luò)對疾病的監(jiān)測幾乎是實(shí)時(shí)的,像G 丌這類監(jiān)測T - 具能在一天后評估某地區(qū)疾病流行情況,因此這種全面快速的監(jiān)測方式將使公共衛(wèi)生監(jiān)控的變得更加靈敏。又比如傳統(tǒng)的監(jiān)測方法僅能覆蓋一個(gè)國家或者一個(gè)地區(qū)的若干國家,而類似G 盯這樣的公共衛(wèi)生監(jiān)測T 具能監(jiān)測到全球大部分地區(qū),為全球防控提供數(shù)據(jù)。如大數(shù)據(jù)收集和分析系統(tǒng)H e a l t h m
25、a p ,通過收集媒體、政府部門、學(xué)術(shù)期刊、智能手機(jī)應(yīng)用上面的傳染病信息來監(jiān)測和顯示全球的傳染病暴發(fā)情況。H e a l t h m a p 在2 0 1 4年3 月便監(jiān)測到關(guān)于西非出血熱的報(bào)道,隨后被w H 0 鑒定為埃博拉m 血熱”?。當(dāng)然,大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的應(yīng)用還需要解決很多關(guān)鍵問題,首先是“大數(shù)據(jù)傲慢”問題一l 。“大數(shù)據(jù)傲慢”指潛意識里認(rèn)為大數(shù)據(jù)可以替代,而不是補(bǔ)充,傳統(tǒng)的數(shù)據(jù)收集和分析方法?!按髷?shù)據(jù)傲慢”是一種錯(cuò)誤的思維
26、方式,誤認(rèn)為大數(shù)據(jù)模式算m 的“統(tǒng)計(jì)學(xué)相關(guān)性”能直接取代事物之間真實(shí)的因果和聯(lián)系,從而過度應(yīng)用和相信這種技術(shù)。換言之,即認(rèn)為大數(shù)據(jù)可以解決一切數(shù)據(jù)收集和分析的問題,傳統(tǒng)的方法已落后、過時(shí),應(yīng)該予以摒棄。然而事實(shí)上,數(shù)據(jù)量上的大并不意味著可以忽略數(shù)據(jù)測量的基礎(chǔ)問題,以及數(shù)據(jù)的有效性、可靠性和獨(dú)立性。另外越是大數(shù)據(jù)時(shí)代,越是有可能帶來壟斷,因?yàn)橹挥心切┨貏e強(qiáng)大的公司才會在大數(shù)據(jù)時(shí)代有所作為,但這帶來的直接后果就是公眾一直擔(dān)心這些大數(shù)據(jù)及分析
27、方法掌握在大公司手上是否合適。此外,這些公司對個(gè)人數(shù)據(jù)的收集、使用及存儲的法律依據(jù),是否侵犯了個(gè)人隱私、數(shù)據(jù)所有權(quán)等依然存在爭議。谷歌公司一直拒絕公布G 門所采納的檢索詞,也未說明G 丌數(shù)據(jù)是如何收集和采用的,因此其他科學(xué)家也無法重復(fù)G 丌預(yù)測結(jié)果”o 】。G 胛數(shù)據(jù)上的不透明也是谷歌公司最受詬病的地方,正如《哈佛商業(yè)評論》所說的那樣,“如果一個(gè)公司想?yún)⑴c科學(xué)事業(yè),那么他應(yīng)該表現(xiàn)的像個(gè)科學(xué)家”””。但是大數(shù)據(jù)無疑是未來發(fā)展的趨勢,大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用探討_周光華.pdf
- 公共衛(wèi)生領(lǐng)域調(diào)查問卷的無紙化信息采集在Android平臺的解決方案.pdf
- 醫(yī)療衛(wèi)生領(lǐng)域公共部門的職能
- 我國公共衛(wèi)生領(lǐng)域系統(tǒng)評價(jià)的計(jì)量學(xué)分析及質(zhì)量評價(jià).pdf
- 美國公共衛(wèi)生領(lǐng)域公私合作伙伴關(guān)系研究(1987-2008).pdf
- 物聯(lián)網(wǎng)在醫(yī)療衛(wèi)生領(lǐng)域中的應(yīng)用
- 公私合作伙伴關(guān)系在衛(wèi)生領(lǐng)域的應(yīng)用與探索
- 面向衛(wèi)生領(lǐng)域的區(qū)域信息資源規(guī)劃研究.pdf
- 公共衛(wèi)生服務(wù)
- 基本公共衛(wèi)生
- 醫(yī)療衛(wèi)生領(lǐng)域貪賄犯罪的懲防研究
- 大數(shù)據(jù)在健康醫(yī)療領(lǐng)域的應(yīng)用現(xiàn)狀
- 公共衛(wèi)生培訓(xùn)
- 公共衛(wèi)生考試
- 公共衛(wèi)生概述
- 2016年級公共衛(wèi)生基本公共衛(wèi)生專項(xiàng)
- 公共衛(wèi)生學(xué)院2011級公共衛(wèi)生碩士mph
- 2018流感防治培訓(xùn)測試試題及答案-(公共衛(wèi)生科 )
- 加強(qiáng)醫(yī)療衛(wèi)生領(lǐng)域廉潔風(fēng)險(xiǎn)防控工作的思考
- gis基于ehr在公共衛(wèi)生中的應(yīng)用
評論
0/150
提交評論