數博會開幕:你真的了解大數據嗎?_新華廣播_新華網
https://vodpub1.v.news.cn/original/20210526/a71011c000a74b54821acd6201b10a41.mp3

數博會開幕:你真的了解大數據嗎?

2021-05-26 14:04:02

    自從2011年大數據在中國受到關注以來,每年與此相關的會議和講座接連不斷,大家也都事事必談大數據。2015年11月,黨的十八屆五中全會公報提出要實施“國家大數據戰略”,開啟了我國大數據建設的新篇章。可是怎樣有效使用數據,如何讓數據産生價值,如何在數據領域獲得投入産出,這些雖事關國運,卻是很多人都講不明白的事。

    聚焦2021數博會|數博會歡迎你(視頻來源于數博會組委會)

    上個世紀80年代出現了個人電腦,軟件開發變得熱門;90年代互聯網開始興起,數據庫在企業中被廣泛使用,辦公實現自動化。新世紀CRM,ERP流行,互聯網應用得到了爆炸式的增長,電子商務、社交媒體和移動互聯網也隨之出現,所有這些技術進步、業務發展都帶來一個同樣的結果,就是數據無法控制地大量增加。現在人們的一切行為幾乎都會留下數據痕跡,比如使用手機軟件消費、出行等等,我們生活在了一個大數據時代。

    數據記錄了很多事情發生的過程和狀態。而一件事情的發生會受到很多因素的影響,這些因素的內在聯繫是什麼,如何影響到了事情的發展,都可以用數據記錄下來。人們就是希望通過對數據的分析,找到事情發生的來龍去脈,以便預測將來的發展。為此,人們找到了很多的方法研究數據,像統計分析的方法、計量經濟學和時間序列、運籌學、概率論和機器學習的方法、可視化技術,還有各種輔助的電腦技術和演算法。數據分析可以在各行各業得到具體的應用,還可以作為一種主要方法進行科學研究,也能開辟新的應用建立新的行業。

      2021數博會圍繞年度主題“數智變物致新”,組織“一會、一展、一發布、大賽及係列活動”。圖為2021數博會工業APP融合創新大賽總決賽在貴陽開賽。(圖片來源于2021數博會官網)

    大數據和電腦技術、互聯網一樣,具有普適性和通用性,各行各業都需要,不但傳統行業需要,而且是新興行業的依托。大數據技術的出現,使得物聯網、雲計算、人工智慧得以落地變成現實。所以,大數據是真正自電腦時代、互聯網時代後,能夠撐得起一個時代的技術。

    大數據技術確實是給各行各業帶來了實實在在的利益。但是,是不是每個人都能夠理解大數據的一些實質性的問題呢?

    舉這樣一個例子:一年中,當人們游泳的次數增加的時候,吃冰棍的數量也會增加;游泳次數減少的時候,吃冰棍的數量也會減少。那麼,這兩件事情是否有關係,誰引起了誰的變化?其實游泳與吃冰棍沒有任何因果關係,它們之間是相關性關係。它們同時變化的原因是天氣的變化,這是人們的常識。大數據中,很多變數之間的關係都是這種相關關係(不知道是什麼原因引起的),而不是因果關係,因此,不能簡單下結論誰引起了誰的變化。這是大數據對人們思維方式的影響。

    英國統計學家辛普森在1951年提出了一個悖論,即在某個條件下的兩組數據,各自研判時,都具有某種傾向性,而合並研判,卻可能得出相反的結論。比如,兩個院係都有女生錄取比例高的問題,但是把兩個院係的所有學生合並以後,再計算卻是男生的錄取比例高。如果是比較兩個産品的銷售情況,就不能僅僅看單一地區的銷售比例,而是要看總體的比例。要全面考慮問題,不可輕易下結論。

    數字化是企業升級換代的基礎,對數據的利用是實現智能化的前提。(圖片由本文作者提供)

    1936年美國民主黨總統富蘭克林-羅斯福任滿一屆,參加下一屆的總統大選,當時共和黨的候選人是阿爾佛雷德-蘭登。著名的《文學文摘》通過對240萬人的民意測驗,預測共和黨的候選人蘭登將當選。而一家由喬治-蓋洛普新成立的輿論研究所,只對5000人進行了問卷調查,卻準確地預測了民主黨的羅斯福會勝出。為什麼大的數據沒有得出正確的判斷?因為這240萬都是富人,他們的意見不具有普遍性,而5000個數據卻是來自社會各個階層,具有普遍性。《文學文摘》使用了錯誤的數據。

    谷歌流感趨勢GFT是谷歌從2008年推出預測流感的項目。谷歌的依據是特定關鍵詞的相對搜索量和特定事件之間存在相關性。GFT利用這些搜索數據可以近乎實時地對全球當前的流感疫情進行估測。大數據為研究人類行為和人與人之間大規模的互動提供了新的方式。然而,由于大數據的搜集做不到像經過嚴謹科學試驗得到的“小數據”那樣精確,因此分析解讀大數據是一件十分復雜的事。

    2013年2月,《自然》雜志發文指出,GFT預測的流感樣病例門診數超過了美國疾病預防控制中心CDC根據全美各實驗室監測報告得出的預測結果的兩倍,偏差太大。因此,用戶的搜索行為並不僅僅受外部事件影響,它還受到很多其他因素的影響。做數據分析不是數據量越大越好,模型科學地選擇變數很重要。

    大數據利用好了,是收益;利用錯了,就會做出錯誤的判斷。除了要具備對大數據本身的認知,也要走出大數據項目建設的一些誤區。

    電腦和互聯網世界將我們帶到了數據世界,數據世界的未來就是智能化世界。(圖片由本文作者提供)

    一種是認為投資大數據來錢慢,不掙錢,安于現狀,不思進取;另外一種是做大數據急功近利,不尊重科學,搞形式主義、政績工程。

    有人看不到大數據投資帶來的利益,缺乏長遠的眼光,因此,遲遲不在這個領域下功夫,不投資基礎設置,不投資人才,不做規劃。企業數字化是大數據的基礎,企業數字化可以提高自動化效率,積累數據,為智能化做準備。

    2017年,華為接受數字化轉型的建議,構建了與消費者和渠道互通的數字化平臺,使得華為能夠應對外部環境的變化,經受住了各種打擊。日本上個世紀八、九十年代的輝煌是制造業的輝煌,當時日本的GDP最高能夠達到美國GDP的69.6%多。後來,除了美國的打壓外,日本對互聯網産業關注不夠,使得日本錯過了互聯網時代,也使得中國這個後來者今天達到了日本GDP的3倍多。這是一個深刻的教訓,中國是萬萬不可錯過大數據時代的。

    大數據是通往智能化的必由之路。沒有大數據,就沒有人工智慧,就沒有物聯網,就沒有智能制造,就沒有傳統行業的升級換代,沒有現代生物制藥、基因工程的研究等等,也就沒有中國現代化的未來。因此,我們一定要通過各種方式普及大數據知識,推進大數據的建設。

作者:劉政

配音:鄭琬

終審:劉君

 校對:曹書娟