Lye Kong-wei是Grab數據部門的負責人。在新加坡,他的團隊負責機器學習、市場、優化、模擬、預測以及架構。不久前,在TechiInAsia舉辦的AMA(Ask me anything)活動中,他針對Grab這樣大公司數據部門的職責和需求,給出了自己獨特的描述。

成為一名數據科學家需要什麼?
數據工程師需要處理資料庫、構建通道並確保可用性。不僅要洞悉當前的前沿技術,他們還必須不斷考慮採用更新的大數據技術進一步拓展。
另一方面,數據科學家要善於發現現在公司業務中的隱患,針對性地提出問題,找出相關數據,建立模型/算法來解決問題,並驗證解決方案。而解決方案和結果往往因人而異,也許大相逕庭。
在Grab中,數據科學、數據分析和商業智能意味著什麼,它們是如何被使用的?
數據科學小組負責構建算法和模型,通常將研究(現有的和新的)轉化為適用的產品特徵。因此,從乘客打開Grab應用程式的那一刻到車輛到達的時候,數據科學為最有效的路線、旅行時間和價格點的思考和決策提供了動力。
數據分析查看來自多個來源的數據,以發現趨勢和模式——這些洞察可以轉化為業務決策。
商業智能會大量查看我們的內部運營數據,以找到改進我們的業務流程、運營和決策的方法。
作為一名非科技人員,在數據科學業務部門工作需要具備哪些最低能力?我應該從哪裡開始學習?
建議把重點放在基本面上,比如統計學。這是數據科學的基本要求,要學會去理解數據,知道它試圖告訴你什麼。此外,還要找到可以作可視化數據的工具,尤其是當它們是高維數據時。建立數據模型,考察其與真實系統是否足夠接近。
你是否覺得東南亞的數據人才短缺,尤其是數據工程師?你如何為Grab數據團隊找到合適的人?
我認為數據專業人員普遍短缺,不僅僅是數據工程師。在Grab,我們在尋找優秀的數據工程師、數據分析師和數據科學家方面也面臨著類似的困難,所以我們與學術界合作,擴大人才庫。
新加坡很小,數據科學職業的未來前景如何?
新加坡很小但它是一個高度數字化的經濟體,也是一個國際商業中心,許多公司在這裡設立分公司,確實看到公司僱傭越來越多的數據科學家,這個行業的未來是光明的!
在您團隊的日常工作中,你們如何1 )數據清理和2 )更普遍的數據治理以確保數據安全,以及數據以正確的方式用於預測/推薦?
數據清理可以自動完成,也可以手動完成。這是最耗時的任務之一,但卻是絕對必要的工作。除非數據收集得到完美控制。
在Grab,我們對訪問和使用數據的權限有非常嚴格的規定。就以「正確的方式」使用數據而言,我認為這可能需要圍繞隱私、道德等展開更大的討論。在開始構建這些特性之前,我們通常會在客戶內部和與客戶廣泛協商。
除了速度,你認為在學術界工作和在Grab工作之間有什麼更顯著的區別?
這主要是理論和實踐。學術界的任務主要是教育和形成理論,所以他們的重點不是為現實世界製造產品。在Grab,我們的任務是識別客戶面臨的困擾,並給予解決。按照數據科學理論,我們應用數據技能來創建模型和算法的,並通過模型和算法解決問題,並且相當完美。
你的團隊有沒有建立一個模型,最初看起來不錯,但在大規模部署時卻不可行?對於這種情況,選擇尋找替代方案還是投入更多資源?
不僅僅是一兩個,在早期的幾個案例中,我們很難在相互衝突的設計目標之間進行權衡,尤其是當我們必須大規模部署時。作為概念的東西不一定能順利成為真正的產品。通常,我們在最優性和計算時間之間進行權衡,「分而治之」 的策略在我們這邊已經已經很常見了。
Grab的數據團隊中主要使用哪種程式語言?
也許不足為奇,但是我們主要使用R和Python。但是當需要進一步優化性能時,我們也使用低級語言編寫。