在新加坡，成為一名數據科學家需要了解的幾個問題

2018/09/02 • 3087閱

了解Grab數據部門的職責與需求。本文探討了數據科學、數據分析和商業智能在Grab中的應用，以及數據科學家、數據工程師和數據分析師所需的技能和能力。本文還分析了數據部門如何解決問題、利用數據進行決策以及應對數據人才短缺等挑戰。

Lye Kong-wei是Grab數據部門的負責人。在新加坡，他的團隊負責機器學習、市場、優化、模擬、預測以及架構。不久前，在TechiInAsia舉辦的AMA（Ask me anything)活動中，他針對Grab這樣大公司數據部門的職責和需求，給出了自己獨特的描述。

成為一名數據科學家需要什麼？

數據工程師需要處理資料庫、構建通道並確保可用性。不僅要洞悉當前的前沿技術，他們還必須不斷考慮採用更新的大數據技術進一步拓展。

另一方面，數據科學家要善於發現現在公司業務中的隱患，針對性地提出問題，找出相關數據，建立模型/算法來解決問題，並驗證解決方案。而解決方案和結果往往因人而異，也許大相逕庭。

數據科學小組負責構建算法和模型，通常將研究（現有的和新的）轉化為適用的產品特徵。因此，從乘客打開Grab應用程式的那一刻到車輛到達的時候，數據科學為最有效的路線、旅行時間和價格點的思考和決策提供了動力。

數據分析查看來自多個來源的數據，以發現趨勢和模式——這些洞察可以轉化為業務決策。

商業智能會大量查看我們的內部運營數據，以找到改進我們的業務流程、運營和決策的方法。

建議把重點放在基本面上，比如統計學。這是數據科學的基本要求，要學會去理解數據，知道它試圖告訴你什麼。此外，還要找到可以作可視化數據的工具，尤其是當它們是高維數據時。建立數據模型，考察其與真實系統是否足夠接近。

我認為數據專業人員普遍短缺，不僅僅是數據工程師。在Grab，我們在尋找優秀的數據工程師、數據分析師和數據科學家方面也面臨著類似的困難，所以我們與學術界合作，擴大人才庫。

新加坡很小但它是一個高度數字化的經濟體，也是一個國際商業中心，許多公司在這裡設立分公司，確實看到公司僱傭越來越多的數據科學家，這個行業的未來是光明的！

數據清理可以自動完成，也可以手動完成。這是最耗時的任務之一，但卻是絕對必要的工作。除非數據收集得到完美控制。

在Grab，我們對訪問和使用數據的權限有非常嚴格的規定。就以「正確的方式」使用數據而言，我認為這可能需要圍繞隱私、道德等展開更大的討論。在開始構建這些特性之前，我們通常會在客戶內部和與客戶廣泛協商。

這主要是理論和實踐。學術界的任務主要是教育和形成理論，所以他們的重點不是為現實世界製造產品。在Grab，我們的任務是識別客戶面臨的困擾，並給予解決。按照數據科學理論，我們應用數據技能來創建模型和算法的，並通過模型和算法解決問題，並且相當完美。

不僅僅是一兩個，在早期的幾個案例中，我們很難在相互衝突的設計目標之間進行權衡，尤其是當我們必須大規模部署時。作為概念的東西不一定能順利成為真正的產品。通常，我們在最優性和計算時間之間進行權衡，「分而治之」的策略在我們這邊已經已經很常見了。

也許不足為奇，但是我們主要使用R和Python。但是當需要進一步優化性能時，我們也使用低級語言編寫。

及時獲取本站更新：