由阿里數據委員會和阿里研究院主辦的“2014西湖品學”大數據峰會于3月7日在杭州舉行。會上,中國氣象局紀曉峰發表了《氣象大數據的商業服務與研究》的演講。紀曉峰表示,在過去服務中,氣象局提供天氣預報,不知道行業怎么用,行業拿了天氣預報也不知道應該怎么用,這困擾了氣象系統十幾年,現在大數據時代來了,終于看到了這個問題改變的希望。
以下為紀曉峰的演講整理:
今天非常高興有機會在這里和大家分享一些我們的服務經驗和一些美好愿景。我來自中國氣象局,中國改革開放以來經濟不斷發展,各種極端天氣現象和天氣災害越來越多,社會各界越來越關注天氣服務,過去很長一段時間我們為能源、交通、媒體、風險、商品銷售提供中長期的監測和報道。但是在過去服務中發現一個問題,我們提供了天氣預報,不知道行業怎么用,行業拿了我們的天氣預報也不知道應該怎么用,這困擾了氣象系統十幾年,現在大數據時代來了,我覺得自己生有逢時,看到了這件事改變的希望。
氣象數據是什么?
大家看到的每天網上或者是電視上看到的天氣預報,后面其實有非常大的數據級,包括每天有2000多個地面站、120多個高空探測站、440多個雷達站、6顆在軌衛星、5萬多個自動監測站、600多個農業監測站、300多個雷達站、90多個酸雨監測站……這些數據逐天逐小時甚至到逐分鐘掃描著中國發生的各種各樣的天氣數據,中國海陸空的天氣情況幾乎可以建成一張虛擬數字網絡,我們做氣象的每天看到這樣的數據覺得非??蓯?。
每日監測數據能做什么?
我們拿到這些每天監測的數據要做什么呢?比如說我們拿到雷達,會把雷達繪制成圖片,用它來觀測臺風和霧霾的范圍;雷達的一些氣象還可以變成地面的溫度、濕度形式;通過一些算法模型能夠預測大量農作物的長勢,比如說每天掃全球的時候關注到南美的大豆、北美的小麥和玉米,觀測到烏克蘭的玉米和小麥的產量,預測未來一年整個糧食形勢——這是一個宏觀數據。
為了拿到雷達數據,我們要從500米到幾千米的高空不斷掃描,看空氣中的水汽含量,這些數據是6分鐘一次,可以預測風電的發電情況,可以為航空提供負責細致的服務。
這幾年,國家不斷提供了建設,在密集地面通過一些差值算法我們組成了中國1公里*1公里知道地面的數據,可以知道哪些地方是大雨等等。另外,國際氣象數據交換,通過一些國際數據可以了解到中國的小氣候環境和全球大環境,進行數據優化。
在過去,拿到這些數據以后,我們用數據的方法就是統計。比如說像剛才主持人說的陰雨綿綿,我們可以知道全國多少天降水分布在什么地方,形成了五年積累數據的氣侯分布。在過去的氣象大數據里面,我們拿到剛才說的數據統計,把這些數據統計成我們需要的模式,然后人工經驗和模擬,把結果帶到模型里面,天天做天氣預報其實就是數數,就是玩數字游戲,建立數字模型。
在新時代里,我們看到了國外一直在傳說的大數據服務,國外一些走得比較前面的氣象服務公司給了我們很好的建議,傳說大數據在國外是價值連城,很多公司會把所有地區和商品的銷量和天氣做對比分析,尋找他們的正相關和負相關,發現他們最暢銷的是藍莓烤面包。比如說一方面是天氣發生的時候,商場里面沒有水或者是其他的東西,也許這個東西真的賣得很好,但是季節分布很明顯,可以提前有備貨。我們了解到一個案例是美國一個EMC的保險公司,它在國外做冰雹的保險,發現冰雹造成的災害很多,他們統計了很多數據發現這個地區的冰雹災害不斷降低,通過這個發現很多數據,是用這樣的方式不斷避免不必要的騙保,在美國也有很多電子公司也關注氣象數據。
氣象數據的大作用
在諸多案例里面,氣象大數據也就是氣象數據加上行業數據等于事情能夠發生的變化規律和對未來的一些預測,氣象數據能做這樣的事情是因為客觀、穩定,而且量非常大。而且氣象數據和各行各業的相關性非常高,氣象對環境造成的影響是70%,過去說預測就是觀天象,一個是看天,還有就是氣象。
在現代一些系統內的學者和社會上的學者研究,我們發現氣象通過大數據的應用有非常大的應用,比如說能源,可以觀測到電力負荷歷史,加上氣象條件進行用電量估算,農業也是一樣,建筑行業也是,通過工期歷史加上歷史天氣就可以知道工期預測;還有交通,航班準點率歷史加上機場歷史天氣,就可以航班延誤預測,準確性非常高;還有公共衛生,通過門診量和藥品銷量加上氣象歷史就可以知道發病率預測;在飲品方面,通過銷量和溫度就可以知道銷量預測;在生產方面,通過經濟數據加上氣象條件可以知道中國宏觀經濟判斷條件,這是技術性比較成熟;還有旅游,我們通過有客對旅游景區的評價和評價條件可以知道什么樣的景區適合什么天氣旅游。
氣象數據的應用案例
通過對之前的研究,我們也做了一些小小的實踐,因為實踐時間比較短,經驗不太成熟,希望大家批評指正。去年我們和安聯進行了“賞月險”的研究,安聯的保險沒有進行精算,因為沒有這個城市陰天或者影響賞月天氣的概率,所以不知道賠多少錢,所以只能是拍腦袋算。同時,他們通過天氣網站來進行判責,這個判責是不準備的。另外,我們做了喜陽陽的產品,就是用30年的歷史數據和安聯精算部門進行了合作,通過降水概率知道哪些城市在春節期間降水可以,得出賠償。未來我們構想,保險服務很有可能是做保險理賠數據和天氣數據進行對比,能夠實時得出到底是什么樣的天氣造成了什么樣的理賠,這樣還是相對比較有價值的。
還有就是對藥品,西安楊森有一款息斯敏的藥,他們和我們合作,可以通過天氣歷史數據預測這個地區的過敏源,得出的結果是非常理想。比如說在北京三四月份的時候連續幾天溫度低溫,馬上就會造成非常嚴重的過敏問題。
雙十一,過去我們和阿里巴巴進行了嘗試,比如說去年雙十一的時候,我們把天氣對道路交通的影響,分為三個等級和快遞到達時間得出了結論分析。
氣象數據分析目前存在的難度
過去我們發現大數據在商業應用的問題,比如說數據壁壘,我們需要建立雙方的環境進行數據融合,也許各個行業的數據都需要分析。氣象數據的相關性也比較難找,也許是單一的,也許是多樣的,分析到底是什么原因造成的需要非常大量的數據不斷優化、不斷完善,我們也設想找一個中心線,把氣象數據進行主觀分類,比如說到底什么是熱天,在過去沒有明確的定義,我們嘗試和SNS合作,看什么樣的形成網友發狀態說“熱”,就把它定義為“熱”。
相關閱讀