# 我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼

URL: https://www.shicheng.news/zh-hant/v/kPojJ
Published: 2019-01-20
Source: 獅城新聞

這是一個真實的故事。前幾天，我和一群小夥伴在新加坡參加了一場神秘的黑客大會，具體是什麼大會，以後再說。我先說說你們感興趣的「尋找紅燈區事件」。

我們本來純潔地打算尋找吃榴槤的聖地，不料女導遊神秘兮兮地介紹，新加坡有個地區叫芽籠，是個開展合法羞羞服務的區域，就在你們吃榴槤的地方附近哦。

蛤？貴坡還有這麼不符合我們社會主義核心價值觀的地方？

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073025.avif?1585057509)





車上的小夥伴頓時來了興致，強烈要求司機載著我們在牙龍區域晃蕩一圈。而且，一位男同學提出了一個相當正經的問題：**聽說提供這些服務的場所就隱藏在大街小巷裡，我們怎麼區別什麼樣的場所是紅燈區？迷路怎麼辦？**

女導遊羞澀地朝著一個方向指過去：你們看，新加坡的這些街巷分成了單雙號，在這個區域，單號街道都是正經吃喝的地方，一般紅燈區隱藏在雙號街道里哦。

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073026.avif?1589869973)





【 圖片來源：新加坡眼所有者：新加坡眼 】

為了再一次教我們辨別什麼是提供特殊服務的小店，導遊指出，一般在這些場所外面，會掛上兩個紅燈籠，這些燈籠會在夜晚點亮。

可是，這輛大巴轉了許久，我們還是沒有看到紅燈籠，不禁失望至極，導遊安慰我們：對了，有些場所不掛燈籠，但有 bling bling 的霓虹燈，你們如果在這個區域的雙號街巷看到閃爍的五顏六色，那就八九不離十了！

我之所以想起尋找紅燈區事件，是因為1月16日，我參加了阿里安全部的一次年度媒體溝通會，AI 鑒黃被作為一個典型的安全 AI 應用案例推出。我才發現，相較於肉身尋找紅燈區，AI 早就在鑑定黃賭毒上一路狂奔了。

但是，厲害如 AI 唐馬儒，竟然也面臨著安全風險。

本文作者：雷鋒網網絡安全專欄作者，李勤，微信：qinqin0511

## 攻擊者 VS AI老司機



我們來看看，發生了什麼。

阿里目前有三大戰略領域：傳統電商、數字化娛樂和新零售，這三個領域都涉及到網絡安全，比如，原創內容保護、內容治理和網絡黑灰產對抗。

以內容治理為例，由於淘寶體量巨大以及內容生態越來越繁榮，淘寶的短視頻每天的觀看量差不多能達到 20 億次，這就衍生了一個問題：如何讓內容合法合規？

阿里安全部圖靈實驗室高級算法專家威視（花名）告訴我，在過去一年網信辦接到的各種違規信息舉報中，超過 70% 的舉報涉及色情低俗，這意味著，色情低俗風險確實是各種內容面臨的合規風險中占比最大的一種，所以，**在巨大的信息中，運用 AI 尋找黃色內容，規避內容風險成了一個強需求。**

現在出現了一類不正經的算法工程師，他們被稱為「調包俠」，雖然他們可能並不理解 AI 技術底層如何實現，但特別擅長調包——**調用別人的開原始碼，將一些非法信息灌進去，訓練出一個特殊模型。這導致了另一個問題——安全研究員辛辛苦苦訓練出的 AI 唐馬儒竟然可能叛變，就像被人塞了小紅包，對黃色內容睜一眼閉一眼。**

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073027.avif?1589869973)





【 圖片來源：pconline所有者：pconline 】

更讓人擔憂的是，還有更多安全對抗在發生。

第一回合：沒用上 AI 技術，違規信息對抗在不同媒體間轉移。 

以商品信息為例，一開始，色情低俗信息，直接寫在商品標題裡面，比如：「看爽片XXX」，立馬能找到不可描述的東東。

安全技術專家像打地鼠一樣，敲掉了標題里的色情低俗。現在一搜「看爽片」「爽片」，出來的分別是這樣的商品：

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073028.avif?1585057509)





【 雷鋒網註：僅為搜索結果示例】

攻擊者馬上把違規信息轉移到了商品的主圖、副圖中。由於色情圖片具有較強的視覺可分性，圖片的鑒黃比較容易開展，攻擊者發現自己被攔住之後，開始做拼接圖，把違規信息拼在一個正常背景中，或者通過翻拍逃避檢測。

甚至，當他們發現，算法對彩色圖片的識別效果好，攻擊者就用黑白圖片，後來，整張圖片容易被識別，就變成局部暴露，比如，衣服裹得嚴嚴實實的，只漏出關鍵的一點點。

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073029.avif?1589869973)





或者，用美圖工具把常規照片轉換成鉛筆畫、蠟筆風格，甚至素描，當安全技術專家把這些問題解決了，攻擊者又想了一個新辦法——在圖片里寫字，開始時，違規文字是正常的印刷體，被識別後，壞人開始用斜體、花體字；又被識別出來後，攻擊者乾脆用手寫，還故意寫得很潦草，不斷考驗識別算法和人類的想像力。

當圖片的鑒黃做得差不多時，違規信息轉戰到了視頻、直播里，用音頻來做。當違規音頻也被幹掉時，攻擊者更狡猾了，他們把信息拆解開，在圖片、文本、語音中分散放置，變成一個典型的多模態問題，這時需要綜合各方信息進行判斷。

第二回合：高端對抗，壞人掌握了AI 技術。 

這種攻擊者不僅是調包俠，還懂得了AI技術底層的一些特點。他能進行什麼騷操作？

曾有一篇經典論文指出，本來模型識別一張圖片，正常的輸出結果是一隻大熊貓，但是壞人經過一些簡單運算，比如像素級別的操作，得到一張新圖片，人眼看上去還是一隻大熊貓，但是欺騙了識別模型，被模型判斷為一隻長臂猿。

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073030.avif?1585057509)





壞人是如何做到的？

**第一種情況，攻擊者知道鑒黃的算法、模型和網絡結構。**

威視將這種情況稱為「白盒攻擊」，這種攻擊並不複雜和困難，只要花的時間足夠長，耐心嘗試密碼，攻擊者總可以打開盒子。

**第二種情況，算法使用的模型是不公開的。**

在這種黑盒攻擊下，攻擊者不斷用不同圖片調用公開的算法接口，分析返回的結果，不斷嘗試驗證哪些方法可以讓AI唐馬儒輸出的結果含糊不清，直到嘗試出來某一種修改能夠攻破威視等人建立的模型。

威視說，黑盒攻擊比白盒攻擊成本高很多，這就是閉源模型好處。事實上，沒有什麼模型是不可被攻破的，只是攻擊成本的高低。安全技術專家要做的，就是不斷提高攻擊門檻。

除了面對攻擊者的威脅，AI 鑑定內容風險時還面臨天然阻礙：

一是大海撈針，違規信息可能占比不到千分之一，違規樣本和正常樣本數量呈現出極度的不均衡的態勢。

一是新增風險，安全場景面臨的新風險往往「臨時爆發」，誰能想到，直播主進行吃播時也可能涉黃。。。emmm，比如吃香蕉、喝酸奶等。

## 新風險下的新方法



對AI 唐馬儒而言，深度學習算法強依賴高質量的樣本，樣本的質量越高，數量越多，鑑定效果就越好。

威視介紹，為此，他們提出了「小樣本學習（few-shot learning）」這樣的技術。這個方法主要解決兩個問題：第一，訓練中出現從來沒有見過的新類別，每個類別又只有很少的樣本；第二，訓練新樣本後，不能遺忘以前的知識，不能改變已有的模型。

針對上述問題，很多人想到用finetune（微調）的方式解決，也就是在已有模型基礎上，用新類別的樣本做微調訓練。但是，已有的模型依賴很大的樣本量訓練，比如，需要1000萬個訓練樣本。這時用幾十個、一百個樣本訓練新類別，基本改變不了網絡。而且，這種訓練還會遺忘以前的知識。

威視告訴我：「發現這條走不通後，我們考察了很多新方法，比如，度量學習（metric learning），學習類和類之間的度量，把不同的類間的距離儘可能地拉大，縮小同類之間的距離，用模式識別的話，就是增大了類間的方差，減少了類內的方差。」

基於度量學習的思路，他們嘗試了很多方法，比如，孿生網絡 （Siamese Neural Networks）、匹配網絡 （matching networks）、原型網絡 （Prototypical Networks）等。

這些方法的核心思想是，把樣本看作一個點，再來度量不同樣本在空間中的分布，利用算法合適地調整分布，讓新的類別在原來的樣本空間裡找到合適的位置，區別原有的類別。

後來，他們還發現了基於圖網絡（graph neural network）的方法，這种放在在度量學習的基礎上展開，圖網絡把樣本不僅看成一個點，它認為，樣本和樣本之間是有關係的，用點和點之間的邊來表達，有點有邊就構成一張圖。度量學習只學習了點的信息，圖網絡既學習了點的信息，也學習了邊的信息，這樣就構成了網絡的學習，實際效果優於度量學習。

還有一種「元學習meta learning」方法，利用以往的知識經驗指導新任務的學習。AI算法不是從0開始構建自己的知識體系，而是在已有的知識體系之上，快速學習新技能。

威視等人設計了一種新方法，元學習中融合了度量學習的方法，用構成每個類的標籤樣本的的原型來表征類，進而通過相似度分類（KNN Classification）進行識別。他們在多個數據集上做了驗證，結果表明，該方法比基線有不錯的提升。

這種新方法被應用在阿里雲內容安全的產品中，阿里安全部提供了一個已有模型及訓練方法，第一線的運營人員發現可定義的新風險時，他們用幾十個或者上百個樣本，在頁面上點滑鼠，上傳並標註樣本，這個模型就可以進行一次學習。學習之後，模型對沒有學習過樣本提出結論，這時運營人員需要標註算法的結果，判斷哪個做對了，哪個做錯了。大概重複兩到三輪，模型基本可用了。

這種方法可以讓AI應對大部分新增的風險，而且降低了對樣本的依賴性，縮短了響應的時間 。以前，安全人員需要收集信息，打標，訓練模型進行測試，周期比較長的。現在，這些事情都交給了第一線的業務人員，他們可以自主進行幾輪疊代和部署，模型可能在幾個小時內就能上線，防範新增的風險。

## 安全 AI 的想像



AI 唐馬儒要想比真的唐馬儒更厲害，還需要發揮一些想像力。

在阿里安全圖靈實驗室的實踐中，安全人員發現，AI 模型擅長在一些「老司機心知肚明的情況下」處理視覺可分性的任務，比如出現某種明顯標誌，或者出現了某種動作和場景，但在業務的審核標準里，很多時候連人都需要「腦補」，AI 就面臨更艱巨的任務了，比如，在色情低俗的場景下，照片里並沒有呈現完整的違規場景，AI表示無能為力，但人卻可以想像畫面之外發生了什麼。

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073031.avif?1589869973)





【 滑雪勝地，圖片來源：百家號所有者：Strange咖 】

即使 AI 唐馬儒成了業務相當熟練的老司機，他可能也會忙到吐血，因為新風險實在太多了！

面對不同風險點，難道要每一種都做出來一個模型嗎？威視希望，設計多任務網絡，模型不僅可以判斷色情低俗風險，同時可以判斷廣告，還可以找人臉，多任務合併到一個網絡中。對於計算成本，現在有一種趨勢是，業界開始做專門的AI晶片，大幅度提升計算效率，降低成本。

當然，這些僅僅只是一類案例。說了這麼多，到底什麼是「安全AI」？為什麼在大家都提AI、AI安全時，阿里安全要「別出心裁」地來這麼一出，並告訴大家，阿里安全要「ALL IN 安全AI」？

阿里安全研究員陸全稱：「我們阿里安全有這樣一個場景，把 AI 在安全場合進行打磨。其實我們通過 AI 應用在安全去保護AI，通過這樣一個不斷疊代的過程，把這兩個東西形成一個整體。這個整體叫做『安全AI』，它可以自我進化。」

進化的結果是，他們想培養出一種「人」，「他」是天生就是很好的拳擊手，具備高靈活性，非常強壯，還要有高對抗性，最後反哺通用的AI，對整個AI領域提供幫助，促進人工智慧的發展。

雖然結尾如此有雄心壯志 ，機智如你，可能想知道一個問題：你們到底有沒有找到紅燈區？

A.找什麼找，吃貓山王才是正經事。

B.晚上一波人在一個地方偶遇，啊呸，你們在想什麼？

C.人不如 AI 老司機，唐馬儒別哭，起來再戰。

![我在新加坡尋找「紅燈區」，AI 老司機翻了個白眼](https://www.shicheng.news/images/image/1407/14073032.avif?1589869973)





【 圖片來源：haoqilu所有者：haoqilu 】

致謝：該文得到了阿里安全圖靈實驗室高級算法專家華棠、覺奧以及阿里安全資深技術專家鐵花的幫助。

本文作者：雷鋒網網絡安全專欄作者，李勤，微信：qinqin0511
