AI式剝削：數據標註日薪低至51塊錢；AI變臉 「螞蟻呀嘿」 爆火；Hinton發表最新論文（2.22

2021-05-28知識

導讀：在數據標註行業流行著一句話，「有多少智能，就有多少人工」。數據標註是人工智能發展中至關重要的一環，卻常常容易被人忽視。以 Sama（原 Samasource）、Mighty AI 以及 Scale AI 等數據標記公司為例，他們主要使用來自撒哈拉以南非洲以及東南亞地區的勞動力，每天支付給員工的薪酬僅為 8 美元（折合成人民幣為 51.6 元）。但與此同時，這些企業每年卻能賺取數千萬美元的巨額收益。

以下為 2.22-2.28 AI領域熱點事件一覽：

一、前沿理論更新

1. Hinton 新論文：如何在神經網絡中表示「部份 - 整體階層」？

Hinton 最新發表的論文，描繪了一個關於表示的宏觀構想：如何在神經網絡中表示部份 - 整體階層。

局部和整體的一致性表示似乎一直是 Hinton 的研究重點。比如，膠囊網絡透過局部到整體的動態路徑選擇一致性來學習辨識，近期 Hinton 還將其擴充套件到了無監督學習，並套用了 Transformer 架構；對比學習則學習一種表示，使得同一幅影像的的各個局部具有相似的表示；認知神經科學出身的 Hinton 還一直堅持探索著大腦的學習機制，比如 back relaxation 試圖在自頂向下表示和自底向上表示之間產生一致性，而這又和對比學習有聯系。

這篇論文沒有描述工作系統，而是單單提出了一個關於表示的想法。這個想法能夠把 Transformer、神經場（neural fields）、對比表示學習、蒸餾和膠囊等先進觀點整合到一個名為「GLOM 1」的設想系統中。

一個具有固定架構的神經網絡如何將一張影像解析成一個整體的分級體系（其中，每張影像都有不同的結構）？針對這個問題，GLOM 給出了一個簡單的答案，即使用相同向量的孤島來表示解析樹中的節點。如果 GLOM 真的能夠正常運轉，那麽，當它在視覺或語言上套用時，它能夠極大地提高類似 Transformer 的系統所生成的表示的可解釋性。

參考資料：

https:// mp.weixin.qq.com/s/G8x2 z5xG39ze1fDrNNN3oA

2. 中國高校學者開發全自動漫畫生成系統，無需手動輸入，不限影片類別

近年來，隨著 AI 等電腦科學技術的迅猛發展，各種各樣的 AI 計算模型被創造出來，比如，在人工智能領域不斷湧現出一批具有超凡本領的創作機器人，有自動創作水墨畫的「藝術家」，自動寫作詩歌的「文學作家」，自動生成高考作文的「高考小能手」。

如今，來自大連理工大學和香港城市大學的研究人員在自動創作領域又做出了新成果，該團隊聯合建立出了一個可以自動生成漫畫書的新型系統，該系統透過從電視劇、電影、動畫或其他影片中提取數據，從而快速創作一部漫畫書。

研究人員在論文中寫道：「我們提出一個全自動系統，從任意類別的影片（電視連續劇、電影、卡通劇）生成漫畫書。我們的系統不需要使用者的任何手動輸入，可以生成高質素的漫畫頁面，具有豐富的視覺效果和富有表現力的故事。」

「更重要的是，受到許多現有方法的啟發，這些方法可以根據所給定的含有多個句子的故事來生成影像序列，有可能從文本故事中產生漫畫書，我們有興趣將我們的方法擴充套件到利用文本資訊來幫助生成漫畫。」研究人員在論文中總結道。

參考資料：

https:// arxiv.org/abs/2101.1111 1

https:// techxplore.com/news/202 1-02-automatically-comic-movies-videos.html

3. OpenAI 科學家提出全新增強學習演算法，玩遊戲可完勝人類，或推動 AI 向真正智能學習體前進演化

近年來，AI 在強化學習演算法的加持下，取得了令人矚目的成就。比如在圍棋、星際爭霸 II 和 Dota 2 等諸多策略、競技類遊戲中，AI 都有著世界冠軍級的表現，以及在機器人跑步、跳躍和抓握等技能的自主學習方面，也起到了顯著的推動作用。如今，AI 可能要變得更「聰明」了。

近日，一項發表在 Nature 雜誌的研究提出了一類全新的增強學習演算法，該演算法在雅達利（Atari 2600）經典遊戲中的得分超過了人類頂級玩家和以往的 AI 系統，在【蒙特祖馬的復仇】（Montezuma’s Revenge）和【陷阱】（Pitfall!）等一系列探索類遊戲中達到了目前最先進的水平。

論文的主要作者來分別來自 OpenAI 和 Uber AI Labs，他們將這類演算法統稱為 Go-Explore，該類演算法改善了對復雜環境的探索方式，或是 AI 向真正智能學習體前進演化邁出的重要一步。事實上，Uber AI Labs 早在 2018 年就對外展示了 Go-Explore 演算法在探索遊戲中的表現。

這項工作中提出的見解讓人們發現，記憶以前發現的狀態，回到它們，然後從中探索的簡單邏輯對於人工智能演算法不可或缺，這可能是智能體進階的一個基本特征。這些見解，無論是在 Go-Explore 內部還是外部，對於人類建立更強 AI 系統的能力都有新的啟示作用。

參考資料：

https://www. nature.com/articles/s41 586-020-03157-9

4. OpenAI 公布魔法模型 DALL-E 論文、程式碼

按照傳統，文本到影像的生成一直專註於尋找更好的建模假設，以便能夠在固定數據集上進行訓練。這些假設可能涉及到復雜的架構、輔助損失或邊資訊（side information），比如訓練過程中提供的物體部份標簽或分割掩碼。

該研究基於 transformer 描述了用於此任務的一種簡單方法，該 transformer 能夠將文本和影像 token 自動回歸建模為單個數據流。有了足夠的數據和規模後，在零樣本情況下進行評估時，該研究的方法就可以與先前的特定領域建模（DSM）一爭高下。

研究發現，無論是在相對於以前特定領域方法的零樣本效能方面，還是在單個生成模型的能力範圍方面，規模都可以導致泛化效能的提升。

參考資料：

https:// mp.weixin.qq.com/s/heqh ekNaOprUtq9XGshvQg

5. 深度學習如何處理人類語言？探究 Google mBERT 模型建立文本背後的奧秘

具有語言能力的深度學習系統已經廣泛套用於人們的生活當中。其中一些系統使用了 Google 釋出的特定深度學習模型 —— 多語言 BERT（Multilingual BERT，簡稱 mBERT）。mBERT 模型可以同時接受大約 100 種語言的訓練，這種多語言的訓練使模型可以完成各種語言任務，例如，將文本內容從一種語言轉譯成另一種語言。雖然人們已經發現 mBERT 模型在許多語言任務中表現良好，但對 mBERT 模型「如何建立文本並如何做出預測」的相關資訊並不清楚。

為此，來自史丹福大學、加州大學艾榮分校和加州大學聖塔芭芭拉分校的研究人員聯合開展了一項新的研究，研究目的是為了更好地理解基於 mBERT 模型的技術是如何執行的，以及它是如何建立語法特征的。

加州大學聖塔芭芭拉分校的語言學家、指導這項研究的高級研究員之一 Kyle Mahowald 表示：「由於這些模型在處理人類語言方面做得很好，因此我們知道這些數碼向量一定代表了語言知識。但是它們是如何編碼這些資訊的，這與人類大腦中知識的表達方式有什麽相似之處？我們的工作是努力理解語言的深層神經模型表示和使用語言資訊的方式的一部份。」

總體而言，研究表明 mBERT 模型可以辨識句子中的主語和賓語，並以與現有語言學文獻一致的方式表示兩者之間的關系。在未來，這一重要發現可以幫助電腦科學家更好地理解深度學習技術是如何處理人類語言的，從而幫助他們進一步提高效能。

參考資料：

https:// arxiv.org/abs/2101.1104 3v1

二、技術產業升級

1. 聞一聞就能診斷癌癥？可與「狗鼻子」媲美的 AI 癌癥檢測系統問世，或裝在你的手機中

近年來，已有大量研究表明，不同癌癥的患者會散發出某些特別的氣味，這些氣味微乎其微，幾乎不可能被辨識出。但巧妙的是，狗狗的嗅覺比人類嗅覺靈敏得多，大概比人類的高一百萬倍。因此，受過訓練的狗可以透過嗅聞方式檢測出癌癥及其他疾病，這就是「聞出癌癥」的緣由。

如今，麻省理工學院（MIT）和其他機構的研究人員從這些「嗅癌犬」身上得到靈感，共同提出了一種 AI 氣味檢測系統。該 AI 系統可以自動檢測出空氣樣品中的化學成分和微生物含量，「嗅覺」靈敏度甚至比狗鼻子還要高。該系統還利用機器學習過程，可以辨識出帶有疾病的樣本的獨特特征。

研究人員表示，在不久的將來，科學家們可能會憑借這一研究，成功制造出一種足夠小的自動氣味檢測系統，甚至小到能夠將其整合到我們的手機中。

這項成就為進一步研究將該技術發展到適合臨床使用的水平提供了堅實的框架。不過可以預料到的是，還未成熟的 AI 檢測花費較高：要收集，記錄，運輸和分析攜帶疾病和無疾病尿液的臨床測試和認證樣品，因此目前檢測每個樣品的成本約為 1000 美元。

參考資料：

https:// phys.org/news/2021-02-d isease-sniffing-device-rivals-dog-nose.html

https:// news.mit.edu/2021/disea se-detection-device-dogs-0217

https:// journals.plos.org/ploso ne/article?id=10.1371/journal.pone.0245530

2. 西北大學釋出猴臉辨識論文，公開 10 種動物面部數據集

20 世紀八九十年代，金絲猴族群的保護工作引起相關部門的重視，各項研究與保護措施相繼展開。此前，團隊一直依靠純人工觀察，每天早出晚歸，觀察時間長達 10 個小時。而對於一只金絲猴，至少要觀察夠 600 個小時。

近年來，隨著人工智能技術的發展，該團隊也緊跟前沿技術，與電腦科學領域的專家合作，組建了動物 AI 攻關團隊，用 AI 技術攻克金絲猴個體身份快速、準確辨識的難題。

基於長期對金絲猴物種特征的研究結果，西北大學金絲猴研究團隊利用神經網絡原理，提出具有註意力機制的深度神經網絡模型，首次開發出動物個體辨識系統 ——Tri-AI 系統，實作了利用動物影片或圖片，自動進行動物面部檢測、辨識和跟蹤。經驗證，系統平均辨識精度達 94.1%，辨識速度每秒 31 張圖片。

目前，這項研究已經進入到套用推廣的階段。一方面，已初步完成「動物個體辨識」系統（V1.0）的開發，並在多處秦嶺金絲猴分布地，用於多個族群、上千只個體的辨識和記錄，開始啟動建立秦嶺金絲猴個體資訊庫的工作；另一方面，該項工作進一步擴充套件套用行業和範圍，結合野外和圈養條件下辨識動物的不同套用場景與需求，進行個人化辨識功能的研發，並將在基於動物精準辨識的基礎上實作動物保護、飼養、繁育和研究的精細化管理。

參考資料：

https:// mp.weixin.qq.com/s/yWhI 9qdrLcojEuE5r6PzOg

3. AI 現在可以在偷竊發生之前發現小偷

人工智能透過與面部辨識技術的合作，使用演算法來確定購物者的行為模式，以減少盜竊案件。來自日本的 Vaak 是一家領先的初創企業，該公司最近開發了由人工智能操作的系統，用於監控購物者的可疑內容，並透過智能電話提醒零售店經理。

智能偷竊預警系統 VaakEye，經過 10 萬小時以上的錄像訓練，分析了小偷的各種行動模式，根據服裝、體態、行為模式準確辨識超市盜竊者。據日本媒體報道，VaakEye 曾在測試中於 10 天內至少幫助發現了 7 名扒手。

回憶起 VaakEye 第一次幫助發現入店行竊企圖的情形，Vaak 公司創始人說：「我們向可以透過人工智能系統預防犯罪的社會邁出了重要一步。」

研究人員表示，該演算法不僅可以預測盜竊，還能用於其他方面：例如健康風險，或緊急呼叫救護車服務的可能性，在房地產行業還可以用它來預測房地產價格的發展空間因素變化上。

當客戶意識到這項技術正在被使用時，他們通常會為了方便而犧牲一些私密。大多數零售店已經貼出了安全網絡攝影機的標誌，所以解決這個問題只需在這些標誌上添加一個關於面部辨識的通知就可以了。

參考資料：

https:// mp.weixin.qq.com/s/Vy3P 9HMoTmLDEwnRi1y_4Q

4. 中國高校學者領銜研發新型磁性觸覺皮膚

人的雙手可以完成非常精巧和復雜的任務，比如抓取易碎物品，進行靈巧操作，辨識紋理和閱讀盲文等。而現有的機器人觸覺傳感器與人類皮膚相比還存在較大差距。

為解決上述難題，香港城市大學生物醫學工程系申亞京教授課題組、香港大學電腦系潘佳教授課題組及其合作者，共同提出了一種基於磁性薄膜、類人類皮膚功能的觸覺傳感器，結合深度學習演算法，實作了機器人觸覺傳感器的自解耦和超分辨率，為仿人類皮膚的觸覺感知提供了新的思路。研究團隊表示，該研究主要解決了現有觸覺傳感器存在的兩點不足：

一是現有的觸覺傳感器力的解耦（將外力分解到法向和切向）或標定過程復雜，往往需要設計復雜的傳感器結構（如剛性梁）或擬合復雜的數學模型，而對於工業界的實際套用來說，傳感器的解耦（或標定）方法越簡單越好，因為簡單的方法往往越穩健，成本也更低；

二是在實作解耦的情況下，尚未同時實作觸覺超分辨率，這使得大面積、高空間分辨率而又低成本的觸覺傳感（如覆蓋機器人全身的人工皮膚）變得難以實作，因為大面積、高空間分辨率的觸覺傳感需要數量龐大的傳感單元和導線，因此需要更高的制造成本和訊號采整合本。

研究團隊表示，「這種具有自解耦功能的超分辨觸覺感知在機器人領域有很大的套用潛力，可套用於機器人自適應抓取、靈巧操作，人機互動，模式辨識等重要領域，賦予機器人靈巧操作日常物品的能力，提高人機互動的安全性。

參考資料：

https:// robotics.sciencemag.org /content/6/51/eabc8801

三、觀點評論解讀

1. AI 演算法再次懵逼，把黑棋白棋辨識成黑人白人，導致油管百萬粉絲博主被封禁

「YouTube AI 演算法因種族主義而將 'Black' 和 'White' 混淆，從而封禁了一個國際象棋頻道。」（雖然沒有明說，但大意是將黑棋和白棋混淆成黑人和白人。）幾個月前，一位在國際象棋影片圈內很出名的 YouTube 博主 Agadmator 表示，他的 YouTube 頻道被官方封禁，是因為他的影片中包含來該網站所謂的「有害和危險」內容。

YouTube 官方並未解釋為何封禁 Agadmato 的原因，但 Agadmato 的頻道在 24 小時後恢復原狀。Agadmato 推測，罪魁禍首是他在這個影片中使用「 black against white」一詞。他的本意是黑棋對抗白棋，難道是被 AI 演算法辨識成了黑人對抗白人？

卡內基・梅隆語言技術學院的電腦科學家 Ashiqur KhudaBukhsh 懷疑 Agadmato 是正確的。KhudaBukhsh 說：「我們不知道 YouTube 具體使用什麽工具來檢測，但如果它們依靠人工智能來檢測種族主義語言，則可能會意外觸發 YouTube 的 AI 過濾器進而發生這種烏龍事故。」

參考資料：

https:// mp.weixin.qq.com/s/Hwzk 3mtFC8Rvo7w8vlEMVA

https://www. youtube.com/watch? v=TgPp7ltPd8Y

2. 用書架圖片做影片背景，能提高 AI 面試官 15% 好感度

當坐在你面前的是一位 AI 面試官，如何提升它的好感度？給自己加個（虛擬的）書架背景就行。

不需要其他任何改變，單純改改背景，AI 面試官對你的好感度一下子就提升了 15%！

這個 AI 面試官，來自德國慕尼黑的一家初創公司。據開發者稱，它能透過分析應聘者的聲音、語言、手勢和面部表情，來快速得出一種名為「大五人格測試」（OCEAN）的結果，包括：開放 / 求新性 O（Openness to experience）、盡責性 C（Conscientiousness）、外向性 E（Extroversion）、親和性 A（Agreeableness）、情緒性 N（Neuroticism）。其中，前 4 項得分越高越好，第 5 項的得分則是越低越好（更不容易情緒化）。

針對這個 AI 面試官，調查人員嘗試了各種方式已判斷它的「專業度」。測試結果表明，戴眼鏡、戴帽子、利用書架背景及調亮影片亮度都可以讓 AI 面試官立即「好感大增」。這極大地影響了應聘者的公平性。

對此，圖賓根大學的電腦科學教授 Katharina Zweig 認為，整體來說，AI 是一個很好的工具，值得被套用，但如果用 AI 來評判人類行為，絕對會遇到困難。

參考資料：

https:// mp.weixin.qq.com/s/aN5A nAZaJhTyJrviICOZqA

https:// web.br.de/interaktiv/ki -bewerbung/en/

3. AI 式剝削：數據標註人員日薪低至 51 塊錢

在數據標註行業流行著一句話，「有多少智能，就有多少人工」。數據標註是人工智能發展中至關重要的一環，卻常常容易被人忽視。

近日，普林斯頓大學、康奈爾大學、蒙特利爾大學以及美國國家統計科學研究院共同發表的最新論文指出，這部份手動標記工作大多在美國及其他西方國家之外完成，並對全球各地的工人施以殘酷剝削。

以 Sama（原 Samasource）、Mighty AI 以及 Scale AI 等數據標記公司為例，他們主要使用來自撒哈拉以南非洲以及東南亞地區的勞動力，每天支付給員工的薪酬僅為 8 美元（折合成人民幣為 51.6 元）。但與此同時，這些企業每年卻能賺取數千萬美元的巨額收益。

論文指出，如果企業決定將數據標記工作納入業務流程，就應該給標記人員提供內部成長機會。「我們應該將 AI 開發視為經濟發展的前進之路。這樣一項開發活動不該只關註數據標記這類低生產率活動，而應更多強調模型開發 / 部署及研究等高生產率活動。」

現代人工智能依賴各種演算法處理規模達數百萬的範例、影像或文本素材。但在此之前，首先需要由工作人員在圖片數據集中手動標記出物件，再將標記完成的大量影像交付給演算法以學習模式，掌握如何準確辨識物件。這類工作量極大、過程極其枯燥且耗時的手動數據標記過程，已經成為 AI 經濟體系中的重要組成部份。

參考資料：

https:// mp.weixin.qq.com/s/g0C4 zITIVnyGr3Baf3qlIA

四、其他

1. 首屆國際人工智能會議（CICAI 2021）將在杭州召開

首屆國際人工智能會議 CICAI 2021 (CAAI International Conference on Artificial Intelligence 2021) 將於 2021 年 5 月 29 日至 30 日在中國杭州召開。

本屆學術會議由中國人工智能學會主辦，旨在建立全球化的國際學術交流平台，為全球科研工作者們提供跨學科交叉、跨領域交叉、跨地域交叉機遇，提升學術交流、產業交流的深度與廣度，啟發新思想、培養新力量、貫徹新理念、融入新格局、投身新時代。本屆會議誠邀學術界與產業界同行圍繞人工智能前沿理論與套用，分享新成果。主要領域包括 (不限於)：

顛覆性人工智能理論框架的腦啟發人工智能理論與方法；

人工智能基礎性理論與方法的機器學習、深度學習；

自然場景視覺資訊感知、計算與理解的電腦視覺；

語音資訊采集、計算與理解的自然語言處理；

海量資訊中知識提煉、表示與系統化的知識表示與推理；

海量數據資訊凝練、表示與深度分析的資料探勘；

人工智能理論、方法與技術套用的人工智能套用；

人工智能的可解釋性、可理解性、可驗證性；

人工智能與其他領域交叉；

人工智能倫理；

其他相關專題。

參考資料：

https:// mp.weixin.qq.com/s/tKnj de2ZJFQQZkfRrtY1RA

2.【AI 新基建發展白皮書】：依托人工智能實作外部賦能

當前，「十四五」進入開局之年，全球疫情持續影響、宏觀環境復雜多變，中國正處於經濟結構調整、產業轉型升級的關鍵時期。以 AI 新基建為代表的新型基礎設施能夠對沖疫情影響、拉動經濟發展、助力滿足人民日益增長的美好生活需要，是打通國內國際「雙迴圈」的重要著力點。

在此背景下，國家工業資訊保安發展研究中心在跟蹤積累和廣泛調研的基礎上，編寫了【AI 新基建發展白皮書】。白皮書梳理了 AI 新基建的概念內涵、基本內容、主要作用，探究了 AI 新基建的總體態勢及發展現狀，剖析了 AI 新基建發展面臨的挑戰並提出對策建議，旨在為各界推動 AI 新基建發展提供決策參考。

白皮書認為，AI 新基建是以算力、數據、演算法等資源為基礎支撐，以智算中心、公共數據集、開源框架、開放平台等為主要載體，賦能制造、醫療、交通、能源、金融等行業的基礎設施體系，具有「新基建」的公共基礎性和「人工智能」的技術賦能性。

白皮書指出，AI 新基建主要由 AI 算力、AI 數據、AI 演算法及 AI 套用解決方案四部份構成，具有兩方面作用，一是為人工智能發展提供內生動力，透過 AI 算力、AI 數據、AI 演算法等基礎設施發揮平台支撐作用，支撐人工智能自身持續創新發展；二是依托人工智能實作

參考資料：

https:// mp.weixin.qq.com/s/6D9n p3qNSUCacOebKEd65Q

3. 超火 AI 變臉特效來襲！馬雲、馬斯克與蔡徐坤一起「螞蟻呀嘿」，李開復隨即「Only you」

近日，一款以「螞蟻呀嘿」為 BGM 特效在抖音快手微博 B 站朋友圈等各大平台迅速走紅，僅在抖音上的超話就達到了 9.7 億。其實，這個「螞蟻呀嘿」並不是抖音特效，而是出自國外的一款 AI 軟件 ——Avatarify。

Avatarify 背後所用的技術基於名為 First Order Motion 的核心模型，這個模型可以對影片中的物件進行動畫處理，並生成影片序列。First Order Motion 模型來自 NeurIPS 2019 論文「First Order Motion Model for Image Animation」，最初的目的是讓「靜態圖片」動起來。

整個模型分為運動估計模組和影像生成模組兩個主要組成部份。在運動估計模組中，該模型透過自監督學習將目標物體的外觀和運動資訊進行分離，並進行特征表示；而在影像生成模組中，模型會對目標運動期間出現的遮擋進行建模，然後從給定的名人圖片中提取外觀資訊，結合先前獲得的特征表示，進行影片合成。但是，該模型對硬件要求比較高，想實作 33 幀 / 秒的影片效果，需要一張 1080ti 顯卡，也即需要輝達 10 系顯卡中的卡皇加持。

今天，你「螞蟻呀嘿」了嗎？

參考資料：https:// mp.weixin.qq.com/s/40V1 0LYE0S-Lld9RukhHVg

AI式剝削：數據標註日薪低至51塊錢；AI變臉 「螞蟻呀嘿」 爆火；Hinton發表最新論文（2.22

AI式剝削：數據標註日薪低至51塊錢；AI變臉「螞蟻呀嘿」爆火；Hinton發表最新論文（2.22