雲端運算-超大資料的處理與分析

技術簡介

地理資訊泛指跟空間有關的所有事物,可以想像它有多麼龐大。而有些地理資訊需要長時間觀測其變化與現象,因此累積了令人無法想像的巨量資料。傳統的關聯式資料庫已經無法負荷這種動輒數百億筆的資料,更遑論能夠提供研究者或決策者高品質的分析服務。雲端運算中的分散式處理,就是為了解決超大資料的處理與分析,簡單地說,就是充分利用網路連結發揮眾多電腦的運算能力來協助特定主題進行儲存、分析、運算的一種技術。

應用領域

  • 觀測站之研究機構、政府單位(如:美國國家航空及太空總署(NASA)、美國海洋暨大氣總署(NOAA)、我國國家太空中心(NSPO)、日本宇宙航空探測機構等(JAXA))
  • 歷史悠久之政府組織或民間機構(如:水利署、紐約時報)
  • 遙測影像分析(如本中心與日本社團法人產業技術總合研究所(AIST)及泰國亞洲理工學院(AIT)合作進行的探月衛星(SELENE)多光譜影像研究)

應用效益

  • 協助防救災觀測系統之超大資料儲存、管理與分析
  • 進行衛星影像或其他設備之資料儲存、管理並加速其分析
  • 有效管理政府及企業文件

聯絡窗口

電話:04-24516669#301 | 聯絡人:呂小姐

分散資料處理技術首推MapReduce技術,MapReduce是Google所提出的分散式平行運算模型(Dean, 2004),很適用在巨量資料的處理工作。MapReduce 的整個架構是由對映(Map)以及重組(Reduce)兩個步驟所組成,運作時系統會將資料進行切割,並分配給不同的運算主機進行處理,因此這些被切割出的資料就可以在不同主機上平行進行處理,而通常使用每一個分割的大小是16~64MB。 在執行Map過程中,系統讀入一組鍵/值(key/value)後,透過Map程序產生多組中間運算鍵值(intermediate key/value),最後經由重組程序合併具有相同 key 的中間運算序列,產生最後的結果。使用MapReduce有幾個特點:平行與分散式運算、具備容錯能力、執行狀態監控,這使得運算工作執行時可獲得高度可靠性。

MapReduce概念圖

在 2006 年 Google 發表 Bigtable 論文(Chang, 2006),揭露 Google 針對在雲端上所設計的資料庫架構,Bigtable大量使用在Google相關的雲端服務上,例如:Google Earth、Google Analytics及Google Crawl上,Google用實例證明了 Bigtable在雲端運算的高度可用性。HBase則是OpenSource版的Bigtable,由Apache基金會所提出的 Hadoop 專案中的一個子專案,HBase 實作了 Bigtable 所提出的方法,提供一個彈性及支援儲存巨量資料的分散式資料庫系統。HBase 與 Bigtable 具有相同架構,採用的是行導向(Column-Oriented)資料庫架構,其資料模型採用的是 key-value 模型,具有查詢速度快及壓縮率高的優點。HBase 資料的儲存是由鍵值所構成的一個多維稀疏矩陣,其鍵值格式為:

    • Value = (rowkey, column key, timestamp)

HBase 資料模型

HBase 每一個資料儲存單位,都具備版本的特性,經由 timestamp 可以用來識別這些不同的資料版本。HBase 透過 rowkey、column key 及 timestamp 組成索引鍵,進行資料的存取動作。每一筆 row 可以擁有不同數量的資料欄,透過 column family 將一群相關資料欄群組化,這樣做的優點在於會將資料記錄於同一個儲存單元內,增加讀取時的效率。

  • 合作客戶:日本獨立行政法人產業技術總合研究所/泰國亞洲理工學院
  • 專案實績:日本KAGUYA(SELENE)探月衛星光譜資料處理

KAGUYA(SELENE)

SELENE衛星於2007年發射升空,主要蒐集月球表面之地形以及光譜反應,以分析月球地質並嘗試尋找月球表面水分存在的證據。KAGUYA總共繞行月球七千次,累計產生超過1千億筆探測資料,總資料量約達2TB,已無法使用傳統商用關聯式資料庫儲存管理。

SELENE探測資料展示平台

本平台以GOOGLE EARTH 展示超過1千億筆月球光譜資料,使得一般研究太空地質的專家亦可以在大眾的平台上瀏覽。

使用Hadoop雲端平台以及HBase分散式資料庫進行SELENE資料雲之建置

  • 合作客戶:台塑貨運公司
  • 專案實績:台塑貨運公司客戶管理系統

天眼運輸管理系統

台塑貨運公司自2001年啟用天眼運輸管理系統,已累積數百億筆行車紀錄資料,堪稱全國最大之行車資料庫。惟因傳統商用關聯式資料庫已無法承載每天上千萬筆之資料量,超過三個月以上的行車紀錄必須以磁性媒體另外保存,使得客戶調度三個月或更久之前的行車紀錄較為不便,也降低了客戶服務品質。

Hadoop雲端資料平台及HBase分散式資料庫儲存管理行車資料

目前台塑貨運使用此平台匯入了約一百億筆歷史行車資料,在非常少的硬體投資下獲得極高的成效,線上查詢任何一筆歷史行車紀錄的時間均少於1秒,較過去人工作業效能提升了廿六萬倍,而這些歷史的行車軌跡更能夠作為路段旅行時間推估的參考。