2014年3月本校榮獲教育部頂尖中心計畫補助成立「大數據與數位匯流創新研究中心,補助經費為新台幣六千萬元,執行期間2年9個月(2014年4月至2016年12月),乃是全國第一個以大數據及數位匯流創新為研究重點的頂尖研究中心。該項尖中心計畫共分為七項分計畫,其中第一項分計畫為「數位匯流政策,法規與創新服務」,由本院負責推動,丘昌泰、劉宜君、陳勁甫、李俊豪等教授都是小組成員。本研究團隊主要研究重點:數位匯流政策與法規研究:各國數位匯流之比較研究、我國數位匯流法規政策研究、電子商務法規政策研究等,配合校方整體計畫,推動不少學術會議、政策諮詢、教育訓練與學術研究,扮演一定重要角色。
你所不知道的大數據
近年來,大數據被產業界視為第五波科技革命後的明星產業,未來人類社會將出現以資料為驅動力的經濟型態(data-driven economy)。根據國際數據公司 (International Data Corporation, IDC)的調查:大數據科技與服務市場是一個快速成長、產值高達數百億美元的全球新興產業,每年成長率約為27%, 2017年預估產值將高達324億美元,約等於過去資訊通訊科技總產值的六倍之譜。McAfee & Brynjolfsson (2012)指出:大數據正在掀起管理革命,企業首先必須設法改變傳統決策制訂文化—從“我們想些什麼”(What do we think?)轉變為“我們知道些什麼”(What do we know?),企業必須充分利用大量的客戶資訊,客觀地瞭解大量數據所呈現的意義與價值,然後做出妥適的企業決策,快速地提升企業的營運效益 。大數據不僅被應用於私領域,公部門也快速地加以引用,Robertson(2012)指出:以健康產業為例,美國每年大約創造30億元產值,大數據已成為「大商機」。事實上,大數據存在於各個領域,包括醫療健康、食品安全、氣候氣象、能源與環保、智慧交通等,在不違反個資隱私保護前提下,如何妥善利用這些巨量資料,挖掘有價值的決策資訊並形成決策知識,已成為當前政府必須面對的一項「大挑戰 」。
本文旨在探討為因應大數據時代的來臨,主計機關應該如何運用大數據概念,以提升主計政策的品質、強化行政效率?本文首先檢視大數據的基本概念,其次探討行政院運用大數據分析的背景與內涵,最後呼籲公務員應該順應此一趨勢,設法挖掘主計資料之金礦。
大數據概念的釐清
大數據,或稱海量資料、巨量資料,乃近年來學術界與實務界熱烈討論的新課題。Viktor Mayer-Schönberger and Kenneth Cukier(2013)於2013年出版「大數據 」一書,很快地名列亞馬遜書店暢銷書排行榜之一,執教於英國牛津大學,專研網路治理與管制(Internet Governance and Regulation)的Viktor Mayer-Schönberger及經濟學人(The Economist)資深編輯Kenneth Cukier指出:今天人類社會從科學到醫療保健、從銀行到網路,涵蓋的行業各式各樣,講的都是同一件事—世界上的資料正在迅速增長,不僅超過電腦機器處理的容量,甚至遠超過我們的想像;Google每天得處理超過24PB的資料(1 petabyte等於1,000 terabyte),約等於美國國會圖書館所有紙本資料量的數千倍。YouTube服務的用戶數達八億用戶,每秒上傳的影片長度超過一小時。臉書每小時上傳一千萬張新照片,按讚或留言者至少超過三十億次,資料量之大難以想像。
何謂大數據?根據美國白宮總統辦公室(Executive Office of the President, the White House)公佈的大數據報告 (The Big Data Report):大數據的概念需視你是何種專家而定,多數的定義都顯示:由於當前雲端科技的發達足以快速地擷取、累積、利用與處理個人資料,以致於出現數量大、速度快與種類雜的資料型態,無論是政府與企業都應該加以利用,以提升決策品質。基此,甚至有學者說:大數據是二十一世紀人類所發現的「新石油」。
大數據與傳統的數據是不相同的,有人以3V 來表示其應具的特徵(McAfee & Erik, 2012):
一、資料量相當龐大(Volume):透過各種蒐集資料的新科技工具,如感應器、數位相機、GPS與其他觀察人類行為的資通訊科技,使得當前資訊社會蒐集、儲存與處理資料的成本愈來愈低,因此我們正處在一個資料幾乎無時無刻被蒐集資料的世界。據統計,2012年世界每天產生的資料量約為2.5 exabyte(EB),這個數字大約每40個月左右就會增加一倍。
二、資料產生速度極快(Velocity):網際網路每秒流傳的資料量,比二十年前網際網路儲存的資料快了太多。目前人類藉著網路驅動的工具、可攜式行動裝置到現代化的感應器,可以完整的追蹤人們所遺留的「數據足跡」,而且速度甚快;例如,當人們上線瀏覽網頁或按讚已被完整的記錄下來,網站經營者能夠準確地追蹤每位使用者的線上活動與行為;或當人們以行動裝置使用GPS時,其位置已被確實地掌握住;甚至人們在社群網站上的留言,都被完整地記錄下來。
三、資料類型相當多元(Variety):根據美國總統科技顧問委員會(the President’s Council of Advisors of Science & Technology, 2014: 4)的報告,大數據資料可以分為兩大類:一是原生數位資料(born digital data),這是指透過電子郵件、網路瀏覽、GPS定位系統或其他電腦資料處理系統,直接從有形世界中轉化為數位化的資料。二是感應資料(sensors’ data),這是透過錄影機、手機、照相機或無線感應器等所接收的資料。若能針對這兩類數據進行數據融合(data fusion),產生有價值的資訊,將對人類社會產生莫大的影響。從資料的次序性而言,大數據可以分為結構化與非結構化資料(structured and unstructured data),前者係指有規則可循,可以用統計或數學演算方式加以處理的大量資料,後者則指毫無規則可循的、隨機的資料類型,如社群媒體資料。基此,如何整合該兩大資料類型,並加以分析,以得到有用的資訊將成為人類社會最大的挑戰。