AI式剥削：数据标注日薪低至51块钱；AI变脸 「蚂蚁呀嘿」 爆火；Hinton发表最新论文（2.22

2021-05-28知识

导读：在数据标注行业流行着一句话，「有多少智能，就有多少人工」。数据标注是人工智能发展中至关重要的一环，却常常容易被人忽视。以 Sama（原 Samasource）、Mighty AI 以及 Scale AI 等数据标记公司为例，他们主要使用来自撒哈拉以南非洲以及东南亚地区的劳动力，每天支付给员工的薪酬仅为 8 美元（折合成人民币为 51.6 元）。但与此同时，这些企业每年却能赚取数千万美元的巨额收益。

以下为 2.22-2.28 AI领域热点事件一览：

一、前沿理论更新

1. Hinton 新论文：如何在神经网络中表示「部分 - 整体层次结构」？

Hinton 最新发表的论文，描绘了一个关于表示的宏观构想：如何在神经网络中表示部分 - 整体层次结构。

局部和整体的一致性表示似乎一直是 Hinton 的研究重点。比如，胶囊网络通过局部到整体的动态路径选择一致性来学习识别，近期 Hinton 还将其扩展到了无监督学习，并应用了 Transformer 架构；对比学习则学习一种表示，使得同一幅图像的的各个局部具有相似的表示；认知神经科学出身的 Hinton 还一直坚持探索着大脑的学习机制，比如 back relaxation 试图在自顶向下表示和自底向上表示之间产生一致性，而这又和对比学习有联系。

这篇论文没有描述工作系统，而是单单提出了一个关于表示的想法。这个想法能够把 Transformer、神经场（neural fields）、对比表示学习、蒸馏和胶囊等先进观点整合到一个名为「GLOM 1」的设想系统中。

一个具有固定架构的神经网络如何将一张图像解析成一个整体的分级体系（其中，每张图像都有不同的结构）？针对这个问题，GLOM 给出了一个简单的答案，即使用相同向量的孤岛来表示解析树中的节点。如果 GLOM 真的能够正常运转，那么，当它在视觉或语言上应用时，它能够极大地提高类似 Transformer 的系统所生成的表示的可解释性。

参考资料：

https:// mp.weixin.qq.com/s/G8x2 z5xG39ze1fDrNNN3oA

2. 中国高校学者开发全自动漫画生成系统，无需手动输入，不限视频类型

近年来，随着 AI 等计算机科学技术的迅猛发展，各种各样的 AI 计算模型被创造出来，比如，在人工智能领域不断涌现出一批具有超凡本领的创作机器人，有自动创作水墨画的「艺术家」，自动写作诗歌的「文学作家」，自动生成高考作文的「高考小能手」。

如今，来自大连理工大学和香港城市大学的研究人员在自动创作领域又做出了新成果，该团队联合创建出了一个可以自动生成漫画书的新型系统，该系统通过从电视剧、电影、动画或其他视频中提取数据，从而快速创作一部漫画书。

研究人员在论文中写道：「我们提出一个全自动系统，从任意类型的视频（电视连续剧、电影、卡通剧）生成漫画书。我们的系统不需要用户的任何手动输入，可以生成高质量的漫画页面，具有丰富的视觉效果和富有表现力的故事。」

「更重要的是，受到许多现有方法的启发，这些方法可以根据所给定的含有多个句子的故事来生成图像序列，有可能从文本故事中产生漫画书，我们有兴趣将我们的方法扩展到利用文本信息来帮助生成漫画。」研究人员在论文中总结道。

参考资料：

https:// arxiv.org/abs/2101.1111 1

https:// techxplore.com/news/202 1-02-automatically-comic-movies-videos.html

3. OpenAI 科学家提出全新增强学习算法，玩游戏可完胜人类，或推动 AI 向真正智能学习体进化

近年来，AI 在强化学习算法的加持下，取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中，AI 都有着世界冠军级的表现，以及在机器人跑步、跳跃和抓握等技能的自主学习方面，也起到了显著的推动作用。如今，AI 可能要变得更「聪明」了。

近日，一项发表在 Nature 杂志的研究提出了一类全新的增强学习算法，该算法在雅达利（Atari 2600）经典游戏中的得分超过了人类顶级玩家和以往的 AI 系统，在【蒙特祖马的复仇】（Montezuma’s Revenge）和【陷阱】（Pitfall!）等一系列探索类游戏中达到了目前最先进的水平。

论文的主要作者来分别来自 OpenAI 和 Uber AI Labs，他们将这类算法统称为 Go-Explore，该类算法改善了对复杂环境的探索方式，或是 AI 向真正智能学习体进化迈出的重要一步。事实上，Uber AI Labs 早在 2018 年就对外展示了 Go-Explore 算法在探索游戏中的表现。

这项工作中提出的见解让人们发现，记忆以前发现的状态，回到它们，然后从中探索的简单逻辑对于人工智能算法不可或缺，这可能是智能体进阶的一个基本特征。这些见解，无论是在 Go-Explore 内部还是外部，对于人类创建更强 AI 系统的能力都有新的启示作用。

参考资料：

https://www. nature.com/articles/s41 586-020-03157-9

4. OpenAI 公布魔法模型 DALL-E 论文、代码

按照传统，文本到图像的生成一直专注于寻找更好的建模假设，以便能够在固定数据集上进行训练。这些假设可能涉及到复杂的架构、辅助损失或边信息（side information），比如训练过程中提供的物体部分标签或分割掩码。

该研究基于 transformer 描述了用于此任务的一种简单方法，该 transformer 能够将文本和图像 token 自动回归建模为单个数据流。有了足够的数据和规模后，在零样本情况下进行评估时，该研究的方法就可以与先前的特定领域建模（DSM）一争高下。

研究发现，无论是在相对于以前特定领域方法的零样本性能方面，还是在单个生成模型的能力范围方面，规模都可以导致泛化性能的提升。

参考资料：

https:// mp.weixin.qq.com/s/heqh ekNaOprUtq9XGshvQg

5. 深度学习如何处理人类语言？探究 Google mBERT 模型创建文本背后的奥秘

具有语言能力的深度学习系统已经广泛应用于人们的生活当中。其中一些系统使用了 Google 发布的特定深度学习模型 —— 多语言 BERT（Multilingual BERT，简称 mBERT）。mBERT 模型可以同时接受大约 100 种语言的训练，这种多语言的训练使模型可以完成各种语言任务，例如，将文本内容从一种语言翻译成另一种语言。虽然人们已经发现 mBERT 模型在许多语言任务中表现良好，但对 mBERT 模型「如何创建文本并如何做出预测」的相关信息并不清楚。

为此，来自斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员联合开展了一项新的研究，研究目的是为了更好地理解基于 mBERT 模型的技术是如何运行的，以及它是如何创建语法特征的。

加州大学圣巴巴拉分校的语言学家、指导这项研究的高级研究员之一 Kyle Mahowald 表示：「由于这些模型在处理人类语言方面做得很好，因此我们知道这些数字向量一定代表了语言知识。但是它们是如何编码这些信息的，这与人类大脑中知识的表达方式有什么相似之处？我们的工作是努力理解语言的深层神经模型表示和使用语言信息的方式的一部分。」

总体而言，研究表明 mBERT 模型可以识别句子中的主语和宾语，并以与现有语言学文献一致的方式表示两者之间的关系。在未来，这一重要发现可以帮助计算机科学家更好地理解深度学习技术是如何处理人类语言的，从而帮助他们进一步提高性能。

参考资料：

https:// arxiv.org/abs/2101.1104 3v1

二、技术产业升级

1. 闻一闻就能诊断癌症？可与「狗鼻子」媲美的 AI 癌症检测系统问世，或装在你的手机中

近年来，已有大量研究表明，不同癌症的患者会散发出某些特别的气味，这些气味微乎其微，几乎不可能被识别出。但巧妙的是，狗狗的嗅觉比人类嗅觉灵敏得多，大概比人类的高一百万倍。因此，受过训练的狗可以通过嗅闻方式检测出癌症及其他疾病，这就是「闻出癌症」的缘由。

如今，麻省理工学院（MIT）和其他机构的研究人员从这些「嗅癌犬」身上得到灵感，共同提出了一种 AI 气味检测系统。该 AI 系统可以自动检测出空气样品中的化学成分和微生物含量，「嗅觉」灵敏度甚至比狗鼻子还要高。该系统还利用机器学习过程，可以识别出带有疾病的样本的独特特征。

研究人员表示，在不久的将来，科学家们可能会凭借这一研究，成功制造出一种足够小的自动气味检测系统，甚至小到能够将其整合到我们的手机中。

这项成就为进一步研究将该技术发展到适合临床使用的水平提供了坚实的框架。不过可以预料到的是，还未成熟的 AI 检测花费较高：要收集，记录，运输和分析携带疾病和无疾病尿液的临床测试和认证样品，因此目前检测每个样品的成本约为 1000 美元。

参考资料：

https:// phys.org/news/2021-02-d isease-sniffing-device-rivals-dog-nose.html

https:// news.mit.edu/2021/disea se-detection-device-dogs-0217

https:// journals.plos.org/ploso ne/article?id=10.1371/journal.pone.0245530

2. 西北大学发布猴脸识别论文，公开 10 种动物面部数据集

20 世纪八九十年代，金丝猴种群的保护工作引起相关部门的重视，各项研究与保护措施相继展开。此前，团队一直依靠纯人工观察，每天早出晚归，观察时间长达 10 个小时。而对于一只金丝猴，至少要观察够 600 个小时。

近年来，随着人工智能技术的发展，该团队也紧跟前沿技术，与计算机科学领域的专家合作，组建了动物 AI 攻关团队，用 AI 技术攻克金丝猴个体身份快速、准确识别的难题。

基于长期对金丝猴物种特征的研究结果，西北大学金丝猴研究团队利用神经网络原理，提出具有注意力机制的深度神经网络模型，首次开发出动物个体识别系统 ——Tri-AI 系统，实现了利用动物视频或图片，自动进行动物面部检测、识别和跟踪。经验证，系统平均识别精度达 94.1%，识别速度每秒 31 张图片。

目前，这项研究已经进入到应用推广的阶段。一方面，已初步完成「动物个体识别」系统（V1.0）的开发，并在多处秦岭金丝猴分布地，用于多个种群、上千只个体的识别和记录，开始启动建立秦岭金丝猴个体信息库的工作；另一方面，该项工作进一步扩展应用行业和范围，结合野外和圈养条件下识别动物的不同应用场景与需求，进行个性化识别功能的研发，并将在基于动物精准识别的基础上实现动物保护、饲养、繁育和研究的精细化管理。

参考资料：

https:// mp.weixin.qq.com/s/yWhI 9qdrLcojEuE5r6PzOg

3. AI 现在可以在偷窃发生之前发现小偷

人工智能通过与面部识别技术的合作，使用算法来确定购物者的行为模式，以减少盗窃案件。来自日本的 Vaak 是一家领先的初创企业，该公司最近开发了由人工智能操作的系统，用于监控购物者的可疑属性，并通过智能手机提醒零售店经理。

智能偷窃预警系统 VaakEye，经过 10 万小时以上的录像训练，分析了小偷的各种行动模式，根据服装、体态、行为模式准确识别超市盗窃者。据日本媒体报道，VaakEye 曾在测试中于 10 天内至少帮助发现了 7 名扒手。

回忆起 VaakEye 第一次帮助发现入店行窃企图的情形，Vaak 公司创始人说：「我们向可以通过人工智能系统预防犯罪的社会迈出了重要一步。」

研究人员表示，该算法不仅可以预测盗窃，还能用于其他方面：例如健康风险，或紧急呼叫救护车服务的可能性，在房地产行业还可以用它来预测房地产价格的发展空间因素变化上。

当客户意识到这项技术正在被使用时，他们通常会为了方便而牺牲一些隐私。大多数零售店已经贴出了安全摄像头的标志，所以解决这个问题只需在这些标志上添加一个关于面部识别的通知就可以了。

参考资料：

https:// mp.weixin.qq.com/s/Vy3P 9HMoTmLDEwnRi1y_4Q

4. 中国高校学者领衔研发新型磁性触觉皮肤

人的双手可以完成非常精巧和复杂的任务，比如抓取易碎物品，进行灵巧操作，识别纹理和阅读盲文等。而现有的机器人触觉传感器与人类皮肤相比还存在较大差距。

为解决上述难题，香港城市大学生物医学工程系申亚京教授课题组、香港大学计算机系潘佳教授课题组及其合作者，共同提出了一种基于磁性薄膜、类人类皮肤功能的触觉传感器，结合深度学习算法，实现了机器人触觉传感器的自解耦和超分辨率，为仿人类皮肤的触觉感知提供了新的思路。研究团队表示，该研究主要解决了现有触觉传感器存在的两点不足：

一是现有的触觉传感器力的解耦（将外力分解到法向和切向）或标定过程复杂，往往需要设计复杂的传感器结构（如刚性梁）或拟合复杂的数学模型，而对于工业界的实际应用来说，传感器的解耦（或标定）方法越简单越好，因为简单的方法往往越稳健，成本也更低；

二是在实现解耦的情况下，尚未同时实现触觉超分辨率，这使得大面积、高空间分辨率而又低成本的触觉传感（如覆盖机器人全身的人工皮肤）变得难以实现，因为大面积、高空间分辨率的触觉传感需要数量庞大的传感单元和导线，因此需要更高的制造成本和信号采集成本。

研究团队表示，「这种具有自解耦功能的超分辨触觉感知在机器人领域有很大的应用潜力，可应用于机器人自适应抓取、灵巧操作，人机交互，模式识别等重要领域，赋予机器人灵巧操作日常物品的能力，提高人机交互的安全性。

参考资料：

https:// robotics.sciencemag.org /content/6/51/eabc8801

三、观点评论解读

1. AI 算法再次懵逼，把黑棋白棋识别成黑人白人，导致油管百万粉丝博主被封禁

「YouTube AI 算法因种族主义而将 'Black' 和 'White' 混淆，从而封禁了一个国际象棋频道。」（虽然没有明说，但大意是将黑棋和白棋混淆成黑人和白人。）几个月前，一位在国际象棋视频圈内很出名的 YouTube 博主 Agadmator 表示，他的 YouTube 频道被官方封禁，是因为他的视频中包含来该网站所谓的「有害和危险」内容。

YouTube 官方并未解释为何封禁 Agadmato 的原因，但 Agadmato 的频道在 24 小时后恢复原状。Agadmato 推测，罪魁祸首是他在这个视频中使用「 black against white」一词。他的本意是黑棋对抗白棋，难道是被 AI 算法识别成了黑人对抗白人？

卡内基・梅隆语言技术学院的计算机科学家 Ashiqur KhudaBukhsh 怀疑 Agadmato 是正确的。KhudaBukhsh 说：「我们不知道 YouTube 具体使用什么工具来检测，但如果它们依靠人工智能来检测种族主义语言，则可能会意外触发 YouTube 的 AI 过滤器进而发生这种乌龙事故。」

参考资料：

https:// mp.weixin.qq.com/s/Hwzk 3mtFC8Rvo7w8vlEMVA

https://www. youtube.com/watch? v=TgPp7ltPd8Y

2. 用书架图片做视频背景，能提高 AI 面试官 15% 好感度

当坐在你面前的是一位 AI 面试官，如何提升它的好感度？给自己加个（虚拟的）书架背景就行。

不需要其他任何改变，单纯改改背景，AI 面试官对你的好感度一下子就提升了 15%！

这个 AI 面试官，来自德国慕尼黑的一家初创公司。据开发者称，它能通过分析应聘者的声音、语言、手势和面部表情，来快速得出一种名为「大五人格测试」（OCEAN）的结果，包括：开放 / 求新性 O（Openness to experience）、尽责性 C（Conscientiousness）、外向性 E（Extroversion）、亲和性 A（Agreeableness）、情绪性 N（Neuroticism）。其中，前 4 项得分越高越好，第 5 项的得分则是越低越好（更不容易情绪化）。

针对这个 AI 面试官，调查人员尝试了各种方式已判断它的「专业度」。测试结果表明，戴眼镜、戴帽子、利用书架背景及调亮视频亮度都可以让 AI 面试官立即「好感大增」。这极大地影响了应聘者的公平性。

对此，图宾根大学的计算机科学教授 Katharina Zweig 认为，整体来说，AI 是一个很好的工具，值得被应用，但如果用 AI 来评判人类行为，绝对会遇到困难。

参考资料：

https:// mp.weixin.qq.com/s/aN5A nAZaJhTyJrviICOZqA

https:// web.br.de/interaktiv/ki -bewerbung/en/

3. AI 式剥削：数据标注人员日薪低至 51 块钱

在数据标注行业流行着一句话，「有多少智能，就有多少人工」。数据标注是人工智能发展中至关重要的一环，却常常容易被人忽视。

近日，普林斯顿大学、康奈尔大学、蒙特利尔大学以及美国国家统计科学研究院共同发表的最新论文指出，这部分手动标记工作大多在美国及其他西方国家之外完成，并对全球各地的工人施以残酷剥削。

以 Sama（原 Samasource）、Mighty AI 以及 Scale AI 等数据标记公司为例，他们主要使用来自撒哈拉以南非洲以及东南亚地区的劳动力，每天支付给员工的薪酬仅为 8 美元（折合成人民币为 51.6 元）。但与此同时，这些企业每年却能赚取数千万美元的巨额收益。

论文指出，如果企业决定将数据标记工作纳入业务流程，就应该给标记人员提供内部成长机会。「我们应该将 AI 开发视为经济发展的前进之路。这样一项开发活动不该只关注数据标记这类低生产率活动，而应更多强调模型开发 / 部署及研究等高生产率活动。」

现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前，首先需要由工作人员在图片数据集中手动标记出对象，再将标记完成的大量图像交付给算法以学习模式，掌握如何准确识别对象。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程，已经成为 AI 经济体系中的重要组成部分。

参考资料：

https:// mp.weixin.qq.com/s/g0C4 zITIVnyGr3Baf3qlIA

四、其他

1. 首届国际人工智能会议（CICAI 2021）将在杭州召开

首届国际人工智能会议 CICAI 2021 (CAAI International Conference on Artificial Intelligence 2021) 将于 2021 年 5 月 29 日至 30 日在中国杭州召开。

本届学术会议由中国人工智能学会主办，旨在建立全球化的国际学术交流平台，为全球科研工作者们提供跨学科交叉、跨领域交叉、跨地域交叉机遇，提升学术交流、产业交流的深度与广度，启发新思想、培养新力量、贯彻新理念、融入新格局、投身新时代。本届会议诚邀学术界与产业界同行围绕人工智能前沿理论与应用，分享新成果。主要领域包括 (不限于)：

颠覆性人工智能理论框架的脑启发人工智能理论与方法；

人工智能基础性理论与方法的机器学习、深度学习；

自然场景视觉信息感知、计算与理解的计算机视觉；

语音信息采集、计算与理解的自然语言处理；

海量信息中知识提炼、表示与系统化的知识表示与推理；

海量数据信息凝练、表示与深度分析的数据挖掘；

人工智能理论、方法与技术应用的人工智能应用；

人工智能的可解释性、可理解性、可验证性；

人工智能与其他领域交叉；

人工智能伦理；

其他相关专题。

参考资料：

https:// mp.weixin.qq.com/s/tKnj de2ZJFQQZkfRrtY1RA

2.【AI 新基建发展白皮书】：依托人工智能实现外部赋能

当前，「十四五」进入开局之年，全球疫情持续影响、宏观环境复杂多变，我国正处于经济结构调整、产业转型升级的关键时期。以 AI 新基建为代表的新型基础设施能够对冲疫情影响、拉动经济发展、助力满足人民日益增长的美好生活需要，是打通国内国际「双循环」的重要着力点。

在此背景下，国家工业信息安全发展研究中心在跟踪积累和广泛调研的基础上，编写了【AI 新基建发展白皮书】。白皮书梳理了 AI 新基建的概念内涵、基本属性、主要作用，探究了 AI 新基建的总体态势及发展现状，剖析了 AI 新基建发展面临的挑战并提出对策建议，旨在为各界推动 AI 新基建发展提供决策参考。

白皮书认为，AI 新基建是以算力、数据、算法等资源为基础支撑，以智算中心、公共数据集、开源框架、开放平台等为主要载体，赋能制造、医疗、交通、能源、金融等行业的基础设施体系，具有「新基建」的公共基础性和「人工智能」的技术赋能性。

白皮书指出，AI 新基建主要由 AI 算力、AI 数据、AI 算法及 AI 应用解决方案四部分构成，具有两方面作用，一是为人工智能发展提供内生动力，通过 AI 算力、AI 数据、AI 算法等基础设施发挥平台支撑作用，支撑人工智能自身持续创新发展；二是依托人工智能实现

参考资料：

https:// mp.weixin.qq.com/s/6D9n p3qNSUCacOebKEd65Q

3. 超火 AI 变脸特效来袭！马云、马斯克与蔡徐坤一起「蚂蚁呀嘿」，李开复随即「Only you」

近日，一款以「蚂蚁呀嘿」为 BGM 特效在抖音快手微博 B 站朋友圈等各大平台迅速走红，仅在抖音上的超话就达到了 9.7 亿。其实，这个「蚂蚁呀嘿」并不是抖音特效，而是出自国外的一款 AI 软件 ——Avatarify。

Avatarify 背后所用的技术基于名为 First Order Motion 的核心模型，这个模型可以对视频中的对象进行动画处理，并生成视频序列。First Order Motion 模型来自 NeurIPS 2019 论文「First Order Motion Model for Image Animation」，最初的目的是让「静态图片」动起来。

整个模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中，该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示；而在图像生成模块中，模型会对目标运动期间出现的遮挡进行建模，然后从给定的名人图片中提取外观信息，结合先前获得的特征表示，进行视频合成。但是，该模型对硬件要求比较高，想实现 33 帧 / 秒的视频效果，需要一张 1080ti 显卡，也即需要英伟达 10 系显卡中的卡皇加持。

今天，你「蚂蚁呀嘿」了吗？

参考资料：https:// mp.weixin.qq.com/s/40V1 0LYE0S-Lld9RukhHVg

AI式剥削：数据标注日薪低至51块钱；AI变脸 「蚂蚁呀嘿」 爆火；Hinton发表最新论文（2.22

AI式剥削：数据标注日薪低至51块钱；AI变脸「蚂蚁呀嘿」爆火；Hinton发表最新论文（2.22