多倫多大學公民實驗室(Citizen Lab)7月15日發表最新研究報告〈「未閱先焚」2——微信如何實現即時審查用戶對話中的敏感圖片〉。
按中共政府規定,網路公司需要對自己平台上的內容進行審查。公民實驗室去年發表的研究報告顯示,微信通過巨量計算,審查在朋友圈(Moments)發送的圖片。這次針對用戶聊天中圖片審查的研究發現,微信使用較便宜的「雜湊索引」(Hash Index,也稱「哈希索引」)來過濾圖片。
雙重演算法過濾圖片
公民實驗室去年發現,微信審查朋友圈圖片時,使用光學字元辨識(OCR),將圖像中的文字與黑名單上的關鍵字進行比較;用視覺的方法將圖片上的圖像指紋與像黑名單上的圖像指紋進行比較。
隨後該實驗室今年的報告稱,光學字元辨識的計算成本太高,無法應用在聊天的即時過濾。「我們發現,微信使用另一種稱為雜湊索引的辦法,當用戶發送的圖片被微信服務器之一接到後,這服務器會計算其加密Hash值。如果Hash值在雜湊索引(即黑名單)中,該圖片就被過濾,即不會被發送給目標用戶。」
這是一種可以迅速將一個文件中的數據與指紋(或Hash值)對比的技術,所以,這種計算法適用於即時過濾應用程式。但是,這方法非常不靈活,因為圖像的微小變化就會從根本上改變其加密Hash值。
研究人員發現,為克服這些限制,微信即時過濾圖片後,再採用計算成本較高的光學字元辨識演算法,來補充雜湊索引的不足。研究人員將屬於黑名單的圖像做了小更改後發出,第一次都能通過審查,「當我們幾秒鐘後再次發送這張圖片時,它就被過濾掉了。」
也就是說,這些圖片因為做了小修改,其Hash值變了,所以通過了審查;但微信隨即對其進行光學字元辨識算法的審查,發現其屬於敏感圖片後,把其Hash值加入了黑名單中。
群聊、朋友圈有不同的黑名單
多倫多大學公民實驗室的研究發現,微信使用不同的黑名單來過濾多人聊天及一對一聊天。儘管一對一和群聊都使用雜湊索引過濾圖片,但它們並不共享黑名單。
研究人員拿一張同時屬於朋友圈、群聊和一對一聊天黑名單的圖片做了修改,使其擁有新的加密Hash值,然後做了這樣的試驗:
1. 通過群聊發送一次該圖片,不會導致該圖片隨後在一對一聊天中發送時被過濾。只有在一對一聊天中發送第二次時,該圖片才被過濾掉。
2. 同樣,通過一對一聊天發送一次該圖片,不會導致該圖片隨後在群聊中發送時被過濾。只有在群聊中發送第二次時,該圖片才被過濾掉。
3. 通過朋友圈發送一次這張圖片,不會導致該圖片隨後在群聊或一對一聊天中發送時被過濾。
「這個結果令人驚訝。」該研究報告說,如果一張圖片在2個聊天群組(不論單人或多人)功能上都被列入黑名單,這圖片做了小修改後被其中一個群組發現屬於敏感圖像。
研究人員對3個不同黑名單的研究發現,朋友圈和群聊的圖片黑名單,比一對一聊天的黑名單更長。去年11月15日,研究人員對黑名單中111張敏感圖片做了分析,發現有36張敏感圖片同屬於一對一聊天、朋友圈和群聊的黑名單;另外71張敏感圖片在朋友圈和群聊的黑名單中都有。朋友圈和群聊各有2張自己獨有的敏感圖片;一對一聊天完全沒有自己獨有的敏感圖片。
哪些屬於敏感圖片?
報告的另一部分內容,是對微信審查圖片的主題進行分類。在收集的超過200張被過濾的敏感圖中,與中共政府有關的圖片有75張,內容不單有諷刺漫畫,也有中性的政府政策、領導人圖片。比如有一張顯示的是習近平2019年3月訪問義大利前夕,一名藝術家在義大利使用曳引機在田野上創作的習近平微笑的巨大頭像。
與新聞事件有關的圖片有60張,內容涉及文革、天安門事件、范冰冰逃稅事件、最高法院卷宗丟失事件、華為孟晚舟事件、中美貿易戰、2018美國中期選舉、胚胎基因改造事件等。
令人吃驚的是,這些在被過濾的圖片中,有中共官媒《環球時報》發表過的5張圖片,有些與華為有關,其中一張與持不同政見者郭寶勝有關。還有些被過濾的圖片,是中共喉舌機構新華社發表的,其中一張與去年7月官方對疫苗醜聞的調查有關。
多倫多大學公民實驗室去年和今年的研究都顯示,微信的過濾政策不透明,外界很難推測其審查機制是如何運作的。比如在之前的研究中發現,有些被過濾的內容,只是用中國電話號碼註冊的帳號看不到了,使用國際電話號碼註冊的帳號還可以看到。微信過濾貼文後,不會通知貼文者,貼文者還是可以看到自己貼的、被過濾掉的內容。◇