1.資料收集&基礎建設

設計資料收集自動化工具,可透過組織內部的資料收集排程工具或是網際網路的網頁爬蟲工具收集。

案例

藉由資料收集自動化,之後的巨量資料的儲存亦將是一大挑戰,GIS.FCU曾於2011-2012年間與日本獨立行政法人產業技術總合研究所(AIST)合作利用三台電腦建立Hadoop計算叢集協助SELENE月球衛星高達410億筆觀測資料之分散式儲存環境;若資料過於龐大將考慮與國家高速網路與計算中心合作使用其Hadoop叢集。目前也開發可以自動化收集ptt、Mobile01、Facebook論壇資料到HDFS中,透過最新的Apache Spark SQL、Spark MLlib做快速資料查詢與機器學習分析。電腦自動蒐集具時間概念所累計之資訊,將會是海量的資訊,且有些資料會因為某些人為無法再次收集到,因此資料的可靠性就非常重要,在這一方面,建議可採用Apache的叢集HDFS架構,提供相當完善的機制,可以避免資料遺失情況的發生。

2.資料過濾及轉換

此步驟需分析組織外部非結構化資料,過濾雜訊,針對組織內部的結構化資料已進行統計分析,因此需藉由領域專家的協助。

案例

在Hadoop之上,GIS.FCU提出基於OGC的WCS、WMS及WPS標準框架於雲端平台上,其中檔案儲存於HDFS上,並且提出一個MapReduce程式框架,來處理無人空中載具(UAV)影像轉換,並執行建物、道路、植樹等分群計算。

3.運算處理

將資料放入資源池後,接著必須進行資料處理,而資料結構化之豐富程度,這將會影響了統計分析之準確性,亦即,給定資料集是否儲存了足夠豐富的資料,提供分析者找出某個現象的事實,是很容易受到挑戰的;再者,有時依變項與自變項究竟成何種函數關係才能將其關係描述的最好,也必須靠分析者的經驗,這些經驗要變成電腦能夠運用的知識,此步驟需要資料工程師的適當參與,我們利用R統計軟體,實作分析核心引擎,並提供Web Service讓前端系統介接。

案例

GIS.FCU協助水保局進行工程管考資料分析,分析工程生命週期施工階段的「進度管理」與「品質管理」,導入「工程進度預警模型」與「廠商與工程品質關聯性分析模型」,透過「工程進度預警模型」對於進度不符之計畫或工程預先提出警訊,以可適時採取補救措施或策略調整,並經由「廠商與工程品質關聯性分析模型」,由歷史資料推估各監造與施工廠商的施作品質,作為工程品質管控參考。

4.預測及資料視覺化

資料視覺化是一種有趣的技術,透過特殊的運算模式、演算法將各種數據、文字、資料轉換為各種圖表、影像,使得資料可以比較容易為人所理解,因此不同類型的資料就有不同呈現方式,此時需要資料分析專家的參與;上述的角色是企業應指派相關人員,才能讓整個數據導入企業成功。資料分析專家會依據資料的特性,分為數值資料(numerical data)或數量資料(quantitative data)、類別資料(categorical data)或定義資料(qualitative data),藉此完成資料類型的分類,再來將資料對應到視覺屬性(也就是資料編碼),決定哪一種視覺屬性來表達資料類型是最有效率的,包含2D與3D的圖形化資料呈現、即時性的報表產生工具、動態儀表板、資料視覺化動畫模擬等工作。

案例

天眼衛星科技股份有限公司的車隊管理系統,其收集了不同車況資料(各種感測器資料),針對不同時間點的位置、車速,將時間與車速的資料以折線圖呈現,再以時間和位置在地圖上呈現出行駛路徑,進行視覺化呈現。

大數據專家

林峰正 副研究員

francis@gis.tw