我們正處於數位革命的時代,企業中所產生的資料量是十分驚人的,各界皆努力因應這種大規模的資料湧入。雖然大數據的美好展望依然存在,但最大的挑戰是如何將大量的資訊轉換為可用於商務決策的洞察分析。

資料科學家和資料分析師這樣的角色,是準備來兌現大數據的未來美好展望的,透過讓組織單位能夠利用大數據並用它來產生各種機會和創新,引領著進行數位化轉型(Digital transformation)。但首先他們將被要求要提高他們的技能和了解當代的工具,並且學習現在各種可用的方法和技術。關於IT專業人士如何能夠在新的數位化世界中獲得成功和擁有競爭力,Devavrat Shah 教授在這邊分享了他的想法。

問: 數位化轉型正推動著巨大變化,然而什麼是從事資料科學相關的專業人員即將會遇到的最大挑戰呢?

答: 從事資料科學相關的專業人員所面臨到的最大挑戰,是無法轉變為有效率的“資料科學機器”。從最近一項來自於IT研究公司Gartner的調查顯示,59%的IT專業人士認為他們的組織單位在過去的日子裡,並沒有準備好為帶來數位化業務的方式做必要的改變,而其中所面臨到的最緊迫問題則是技術能力的不足。

雖然它很容易在周圍都是大數據和資料分析的宣傳炒作中趕上,但現實的情況是,如果要將大量湧至的數據轉化為有意義的商務洞察,就會面臨到一些挑戰,也就是需要改進在資料科學上的技能,否則大數據將僅僅變得太大、太快、或是太難,以致於無法處理和分析並進而轉換成為洞察。

專業人員必須準備要超越在實現基礎架構的細節上,進一步開始關注如何將資料轉化為決策。我們構建了可儲存和處理大量資料的基礎架構,但仍然缺乏關鍵的能力來將所有各式各樣的資料片段無縫地拼湊起來,然後用來作精準的預測以引領著那些有高度影響力的決策。這是這個時代的關鍵性挑戰之一,但從事資料科學相關的專業人員中,若誰能有效處理這樣的問題,無疑地將會在他們的職業生涯中體驗極大的成功。

問:從事資料科學相關的專業人員該如何才能確保他們擁有合適的技能,而且不僅在我們新的大數據時代中獲得成功更能表現突出?

答: 在我看來,從事資料科學相關的專業人員如果要成功,他必需要成為一個訓練有素且有能力的資料科學家,這裡提到的能力,是指能夠在大規模的資料中進行資料處理和計算。而為了實現這一目標,專業人員必須透過相關機構,持續地投入時間在有工程、數學科學、社會科學等元素的跨學科課程教育中。一個能夠將大數據轉換成為有意義資訊的人,將會是一個有跨學科教育經歷,既是資料科學家也是統計學家的熟練專業人員。

問:在各式各樣新的技術和科技發展當中,專業人員如何決定該聚焦關注的優先順序?

答: 一個有效的方法是研究目前的技術實踐狀態,了解在像Amazon、Google和Netflix等頂級的公司中所發生的事。當企業能夠大規模處理數據以擷取出有意義且能帶來成功的資訊時,這對現代消費者生活上會有什麼樣的改變?

看看你的產業或是專業之外的領域,其它人採取的策略和技術是否存在著某些發展趨勢?像Python這樣的程式語言,已經在科學計算以及像物理這種高度量化的領域中,成功地使用超過十年了。它用在改善太空梭的任務設計,並且協助許多Google內部關於基礎架構的建設。在各種規模的公司中,商務分析師和資料科學家如何能夠在大數據和資料分析中藉由Python獲益呢?

這個關鍵不是在知道任何一種技術、模型或是實踐的本身上,而是專業人員應當精通於各種工具、觀點和方法,以使得他們能夠識別哪些方法和模式,最適合在特定的使用案例上。

問: 什麼是大數據分析中常常容易犯的錯誤,而專業人員又該如何避免呢?

答: 其中一種在組織單位中最常犯的錯誤,是沒有辦法收集到正確的資料來幫助做出正確的決策。例如,企業如果會根據大量的負面評論來做極端的策略性改變,那麼當消費者相對於平常比較容易在他們不高興的當下積極反饋意見時,企業會很容易被這樣的情境給誤導,因此能夠了解整個情況的全貌是很重要的。

資料科學是所有與擁有你需要的資料有關的事。但隨著資訊量的不斷飆升,資料的種類和生成速度也將同時成長。從事資料科學相關的專業人員會面對到的一個基本挑戰,是什麼樣的資料需要收集和保存。隨著更多的資料被收集起來,要從這些資料中萃取出價值只會變得更加複雜。資料科學家和資料分析師將需要仰賴統計和機器學習等方法,以自動萃取出資料中的資訊。而為了在正確的時點將洞察結果提供給正確的決策者,機器學習變得至關重要。

問:資料科學家的未來在何方?

答: 在接下來的5年中,資料科學家將會發展出能夠即時利用所有各式資料的能力。這將會在未來各種應用燃起新的資料科學典範的緊急需求下,滿足大規模作複雜預測和計算的需要。

有越來越多的資料將被用來驅動關鍵的商務決策,並且將會開啟一些像“深度學習”的創新,以達到更準確的預測和決策。此外,現代的應用面已經帶來了嶄新的統計典範,像是扮演許多現代商務推手的推薦系統,被應用在像是媒體入口網站、電子商務網站或是社交互動平台之中。

無論事情如何演變,有一件事情是明確的,熟練的資料科學家、統計學家和商務分析師,將是解開大數據無限可能性的關鍵角色。

 

受訪人介紹:

Devavrat Shah,是一名麻省理工學院電機資訊學系的教授,SDSC的主任,和IDSS的核心教師成員。他同時也是麻省理工學院資訊和決策系統實驗室(Laboratory for Information and Decision Systems (LIDS)),以及運營研究中心(Operations Research Center (ORC))的成員, 他將擔任 Data Science: Data to Insights”這門線上課程的協同主持人.

 

原文出處: http://blog.edx.org/future-data-science-qa-mit-professional-educations-devavrat-shah?track=blog