臺大新聞E論壇

大數據無往不利?重點在問題意識

大數據無往不利?重點在問題意識

記者 邱方廷 報導  2017/12/31

許多學子對大數據工作具有高度興趣。攝/台大經濟系系學會

報導/邱方廷

近年來,產業界最為發燒的話題之一,非「大數據」(big data)莫屬,各方都在搶大數據人才,試圖將龐大的資料量轉化成行銷的營運的工具。以蘋果為例,相關職缺年薪高達美金20萬。

大數據人才非專業數學家

何為大數據人才?在發展最初,是所謂的「資料科學家」們在資料清理之後,藉由分析與建立模型的過程,將資料進一步轉換為可用的資訊。此類工作涉及到資料分析軟體的運用,專業則涵括的統計學、電腦科學與數學等領域。

而如果再往下細分,大數據的相關工作可依階段的不同有以下不同種類,「產品經理」負責定義產品問題,並進一步聚焦為資料可解決的形式;再來是「工程師」負責以程式來清理資料,使其能夠被進一步使用;第三階段則是「分析師」在建模後來分析資料,找出資料之間的關聯性;最後則是「資料視覺化設計師」將數據變成友善閱讀的圖表。

目前在台灣,工作項目則多有所重疊,在台大經濟系學會所舉辦的職涯講座中,現於優邑資訊擔任「商業分析師」的黃韻如表示,自己的工作內容就包含了「產品經理」、「商業顧問」、「專案經理」等,不僅要具備數據的分析能力,更要能夠用資料來幫助企業的銷售成長,並負責公司相關產品的營運。

而在同場講座中,KKBOX資料分析師陳代榕則認為,進入大數據這一行,並非都是數學天才,也無法樣樣都精通。「最重要的還是解析數據的過程。就像我們不問『這部韓劇會紅嗎』?而是要問『什麼數據或指標可以有效的預測影集熱門程度』?」其認為最重要的還是了解數據,並定義精準的問題,這樣的邏輯能力才是比單純數學運用更有價值之處。

從兩者的回答中,可見一個好的數據科學家應具備的條件,不是等客戶幫自己把問題定義好,然後單純運用數學運算能力來解答問題,而是應該自己要知道問題的原因在哪裡、什麼問題才是核心的。除此之外,黃韻茹也提醒專業知識的培養也是珍貴之處,否則在沒有背景知識的支持下,往往會流於被工具操控,而無法貫徹邏輯的判斷。

廣告下單依賴大數據

大數據工作者的成果目前展現最多的層面為行銷領域,如Google、Facebook 等數位廣告,已經能做到針對使用者行為的分析後,找到目標客群後再精準投放廣告。因為使用者在網路上的搜索行為、造訪網站、點擊頁面等都會在網海中留下足跡,等待其他適當的時機,數位廣告再次出現在使用者所瀏覽的網頁上。

國內的線上音樂網KKBOX也跟著這股潮流,成立了自己的研究中心,以及和臺大、政大、中央研究院產學合作,積極在大數據的基礎上,來推出個人化的音樂推薦機制。陳代榕的工作就是透過收集、清洗、分析大量用戶資料,如客戶的使用頻率、時段、關注的藝人等,來預測用戶的可能喜好,以便投放更個人化的音樂。

但如KKBOX這樣有能力成立大數據團隊的公司仍屬少數,許多企業仍對網路使用者有各種疑問:不同客群的使用者有什麼特殊之處?要如何提高入站的流量?什麼才是精準行銷的廣告?在電商擔任網路行銷專員的陳一青最近就注意到廣告技術公司電豹,日前發表了「AotterTrek」大數據管理平台,看準並非每個公司都有招募大數據分析人才,所以AotterTrek成了替代的角色,只要在網站上輸入關鍵字,資料庫就能幫你找出就能找到相關使用者的使用特徵。

大數據成了企業行銷的利器。攝/KKBOX

但陳一青也坦言這種仰賴第三方的方式仍有其限制,因為要梳理出更細緻的答案,往往仍需要大數據人才的洞見,來對資料做出更全面的解讀。只有「人」才能讓大數據走入現實中,來解決更多的現世問題。

正如《紐約時報》的報導,介紹了微軟、史丹佛和哥倫比亞大學的研究者們,利用各大搜尋引擎的大數據資料,找出處方藥物潛在的副作用,發現paroxetine和pravastatin會造成患者血糖升高。研究者們利用自身的專業背景,在大數據資料中打造出各種可能。

人的問題意識掌握大數據

陳一青也在受訪時表示,初學大數據的工作者,往往會疑惑是否擁有的數據越龐大,對於問題的答案會更加精準。各方數字的代表性往往讓大數據工作者陷在盲點裡而不自知。

目前在約翰霍普金斯大學攻讀管理碩士學位的徐正憲,也分享了自己在NGO 「Save the Children US」的實習經驗,他曾在專案效益評估中面臨了「要用哪一組統計結論」的問題。第一個選項是用誇大但不顯著的資料,能夠幫助21% 的兒童,另一選項則是建立在渺小的差異上,僅能幫助到計劃內 4% 的兒童,因為這還牽涉到贊助方的成果展現,要使用何組數據分析讓他傷透腦筋。

Nate Silver則在《精準預測》(The Signal and the Noise)一書中,對大數據的預測客觀性,抱持著否定的態度。其認為即使數據看似都從外部環境得來,但採用的模型和解讀,因為分析者仍是從「人」的判斷出發,在立場的不同抉擇上,預測都必然會帶有主觀的成分。

陳一青表示太多單位都理所當然把「大數據」的分析結果捧上神壇,誤以為只需要在大量的數據上,就能夠馬上解決所有的問題。卻忽略了大數據從不同角度採納及評量,得出的意義也有所不同。

陳一青也提醒,大數據工作最重要的不是「搜集海量資料」,而是定位問題的能力。邏輯的思辨才能夠爬過層層問題,讓數據不只停留在表面的統計上,而更能精準地找到問題的根源,並選擇出最合適的分析結果。

記者 e論壇
記者 e論壇