# 在新加坡，成為一名數據科學家需要了解的幾個問題

URL: https://www.shicheng.news/zh-hant/v/m7KlK
Published: 2018-09-02
Source: 獅城新聞

Lye Kong-wei是Grab數據部門的負責人。在新加坡，他的團隊負責機器學習、市場、優化、模擬、預測以及架構。不久前，在TechiInAsia舉辦的AMA（Ask me anything)活動中，他針對Grab這樣大公司數據部門的職責和需求，給出了自己獨特的描述。

![在新加坡，成為一名數據科學家需要了解的幾個問題](https://www.shicheng.news/images/image/1235/12351765.avif?1589871423)





# 成為一名數據科學家需要什麼？



數據工程師需要處理資料庫、構建通道並確保可用性。不僅要洞悉當前的前沿技術，他們還必須不斷考慮採用更新的大數據技術進一步拓展。

另一方面，數據科學家要善於發現現在公司業務中的隱患，針對性地提出問題，找出相關數據，建立模型/算法來解決問題，並驗證解決方案。而解決方案和結果往往因人而異，也許大相逕庭。

# 在Grab中，數據科學、數據分析和商業智能意味著什麼，它們是如何被使用的？



數據科學小組負責構建算法和模型，通常將研究（現有的和新的）轉化為適用的產品特徵。因此，從乘客打開Grab應用程式的那一刻到車輛到達的時候，數據科學為最有效的路線、旅行時間和價格點的思考和決策提供了動力。

數據分析查看來自多個來源的數據，以發現趨勢和模式——這些洞察可以轉化為業務決策。

商業智能會大量查看我們的內部運營數據，以找到改進我們的業務流程、運營和決策的方法。

# 作為一名非科技人員，在數據科學業務部門工作需要具備哪些最低能力？我應該從哪裡開始學習？



建議把重點放在基本面上，比如統計學。這是數據科學的基本要求，要學會去理解數據，知道它試圖告訴你什麼。此外，還要找到可以作可視化數據的工具，尤其是當它們是高維數據時。建立數據模型，考察其與真實系統是否足夠接近。

# 你是否覺得東南亞的數據人才短缺，尤其是數據工程師？你如何為Grab數據團隊找到合適的人？



我認為數據專業人員普遍短缺，不僅僅是數據工程師。在Grab，我們在尋找優秀的數據工程師、數據分析師和數據科學家方面也面臨著類似的困難，所以我們與學術界合作，擴大人才庫。

# 新加坡很小，數據科學職業的未來前景如何？ 



新加坡很小但它是一個高度數字化的經濟體，也是一個國際商業中心，許多公司在這裡設立分公司，確實看到公司僱傭越來越多的數據科學家，這個行業的未來是光明的！

# 在您團隊的日常工作中，你們如何1 )數據清理和2 )更普遍的數據治理以確保數據安全，以及數據以正確的方式用於預測/推薦？



數據清理可以自動完成，也可以手動完成。這是最耗時的任務之一，但卻是絕對必要的工作。除非數據收集得到完美控制。

在Grab，我們對訪問和使用數據的權限有非常嚴格的規定。就以「正確的方式」使用數據而言，我認為這可能需要圍繞隱私、道德等展開更大的討論。在開始構建這些特性之前，我們通常會在客戶內部和與客戶廣泛協商。

# 除了速度，你認為在學術界工作和在Grab工作之間有什麼更顯著的區別？



這主要是理論和實踐。學術界的任務主要是教育和形成理論，所以他們的重點不是為現實世界製造產品。在Grab，我們的任務是識別客戶面臨的困擾，並給予解決。按照數據科學理論，我們應用數據技能來創建模型和算法的，並通過模型和算法解決問題，並且相當完美。

# 你的團隊有沒有建立一個模型，最初看起來不錯，但在大規模部署時卻不可行？對於這種情況，選擇尋找替代方案還是投入更多資源？ 



不僅僅是一兩個，在早期的幾個案例中，我們很難在相互衝突的設計目標之間進行權衡，尤其是當我們必須大規模部署時。作為概念的東西不一定能順利成為真正的產品。通常，我們在最優性和計算時間之間進行權衡，「分而治之」 的策略在我們這邊已經已經很常見了。

# Grab的數據團隊中主要使用哪種程式語言？



也許不足為奇，但是我們主要使用R和Python。但是當需要進一步優化性能時，我們也使用低級語言編寫。
