來自麻省理工學院電子工程和電腦科學系的特別嘉賓Devavrat Shah教授在專訪中談到, 數據科學家若是想要在龐大資訊中, 提取出最有價值的部分,便需要接受的訓練類型。
(Shah教授是MIT專業教育課程《數據科學:從數據到洞悉》的教學主任,MIT統計學和數據科學中心(SDSC)的主任,同時也是數據、系統和社會研究所(IDSS)的核心成員,另外還是MIT訊息及決策系統實驗室(LIDS)和運籌學中心(ORC)的成員。)

 

各種不同的機構都對能夠從龐大數據中洞悉資訊以便有效運行、增加收益或是提升業務的方式非常感興趣。
但是這些洞悉能力並不是憑空就能得到的,必須靠接受過訓練的數據科學家運用所學才能得到最好的結果。

 

關鍵就在於「受訓」,雖然說統計學、解析學、資料探勘、型態辨識和其他領域並不是什麼新的概念,但是數據科學本身的理念是利用這些知識挖掘有價值的資訊。
有效率的應用方式並不是工程師們光靠自學得到一點毛皮就能學會的,他們需要的是適當的訓練。

 

為了讓訓練有實質效用,其內容必須涉及各種領域的知識,像是工程學、社會科學、數學和統計學。
在理想的狀態下,訓練課程需要包含以下主題:

 

結構鬆散的數據:
資料探勘工具長久以來都被用於能在資料庫中找到的那種結構化的數據上,但是現在有很多龐大的數據都是未事先結構化的。
例如文字檔、報告、社群媒體提供的資訊、畫面或是其他資源,而資料探勘工具在這類數據資源中搜索的效能並不高,因為探勘工具大多是為了已知的結構設計的。
但在經過有效的訓練,學會如何使用最新科技後,數據科學家便能藉由各種先進的機器學習演算法整理龐大的數據,在其中找出先前不明確的邏輯與架構。

 

迴歸和預測:
整理龐大的數據需要在變量中尋找關聯的能力,而且通常要整理的變量甚至不只一組。
這代表數據科學家必須接受迴歸技巧的訓練,其中包括了雙變量(兩組變量)和多變量(兩組以上的變量)的迴歸流程。
在提到這個部分時,迴歸樹、提升樹和隨機森林一類專有名詞應該是大家所熟悉的。
同樣的,對於現代預測方法來說,能夠藉由對其的熟悉度利用驗證樣本和交叉驗證的方式達到預測成效是很重要的。

 

數據分類和假設測試:
數據科學家必須擁有多種技能和熟知數據分類的辦法才能有效的分析數據。
同時,他們還需要學會如何測試假設和偵測像是詐騙以及其他惡意行為的反常數據。
數據科學家也需要了解各種方法的極限和誤用可能帶來的危險。

 

推薦系統:
我們都對推薦系統有一定的認識,因為它是亞馬遜、Netflix、LinkedIn和YouTube等公司的主要線上構成。
有一些推薦系統運作能力超群,能依照過去的行為模式預測出訪客可能想要的資訊,但是設計和架構一套好用的推薦系統需要對運作原理和背後的演算法有詳盡的了解。

 

圖表範例和網路:
圖表範例對理解複雜的資訊和推動數據計算有極大的幫助,讓我們能揭露網路資訊中存在的既有模式、功能和行為,這種辦法不管是應用在基因管理網路或是社群網路都是一樣的。
數據科學家必須學會分析這種網路環境的辦法,首先是學習如何用圖表說明他們的系統,再來是向心性量測、影響最大化和藉由干涉得到對不同圖表範例的分析。
數據科學家用這種方式找到了各地的互動模式,而這正是企業最在乎的大規模網路影響指標。

 

為了追求最好的效果,訓練課程中應該要包含案例研究,才能讓學員了解各種概念的實際用途。
這邊提到的案例研究可延伸到不同領域,例如實施不同類型的回歸、將性別造成的薪資差異具象化、玩味深度神經網路和了解它們如何做出決策。
這樣的案例研究對數據科學家是相當珍貴的,因為那可以幫助他們了解如何在自己的組織系統中應用所學。

 

近年來,Gartner調查發現只有41%的IT專員認為他們的公司已經準備好面對兩年後數位產業的需求,意指59%的專員承認他們毫無防備。
別讓您的員工成為沒有準備的那一半,現在就替他們安排一些實用的數據科學訓練,讓他們有能力迎接大數據時代的需求。