AI生圖稽核惹爭議：米奇老鼠抽煙，川普接吻，海綿寶寶穿納粹服

2024-09-04心靈

編譯 | 徐豫
編輯 | 漠影

智東西9月3日訊息，據【華爾街日報】9月2日報道，近期一些帶有戲謔意味、政治誤導性的AI影像在社交媒體平台X上流傳，例如「川普與哈裏斯纏綿」、「歐巴馬吸食可卡因」、「米契拿槍」等，畫面內容令使用者感到迷惑和不適。

這些AI影像由Grok-2、Gemini等AI大模型生成。Grok-2由馬斯克創辦的美國AI大模型獨角獸xAI研發，Gemini來自美國科技巨頭谷歌。

近期，谷歌一直在完善其AI影像生成內容的稽核機制，以盡可能避免AI輸出帶有偏見、歧義、錯誤、種族主義、違背歷史事實等方面的內容。

針對類似的問題，此前美國AI大模型獨角獸OpenAI，已禁止利用AI生成指向性明確的人物形象，來加強AI影像生成內容稽核力度。

一、xAI新一代大模型Grok-2，默許政治人物被惡搞

開啟社交媒體平台X（原Twitter），你可能會看到這些「雷人」畫面：米奇老鼠喝啤酒，海綿寶寶穿納粹制服，美國前總統唐納·川普（Donald Trump）與美國副總統卡瑪拉·哈裏斯（Kamala Harris）接吻。

這些令人費解、不適的影像，都是用xAI和谷歌的生成式AI新模型或軟體生成的。

▲利用AI技術生成的影像，川普「公主抱」哈裏斯，人物肖像清晰（圖源：【華爾街日報】）

8月14日，xAI推出下一代大語言模型Grok-2。模型釋出後的幾天內，X平台湧入了大量據說是用Grok-2生成的影像。在這些畫面中，「死對頭」川普與哈裏斯動作親密，童話世界裏的米契卻拿槍、抽煙。這些利用生成式AI技術制作的影像，不僅損害了政治人物形象，還令有版權的角色做出一些帶有冒犯意味的動作。「迪士尼如果看到，可能也笑不出來。」

Grok-2大語言模型由德國AI影像和視訊生成創企Black Forest Labs提供支持，目前僅向X平台的付費訂閱使用者開放。

根據X平台的政策，使用者禁止分享可能混淆或誤導事實、人為刻意偽造的，以及最終導致人身或財產傷害的內容。Grok-2釋出當天的晚些時候，雖然部份違規的AI影像已無法在X平台上檢索出來，但使用者仍可以使用Grok-2生成充斥「惡趣味」的新作品。

然而，X平台的實控人馬斯克，似乎並不介意這種惡搞政治的行為。今年7月，他轉發了一段深度偽造哈裏斯的虛假視訊，視訊中哈裏斯自稱為「最終的多元化雇員」。

有內容稽核方面的專家稱，類似的生成式AI工具可能會在美國大選周期中，生成一些虛假資訊，甚至擴散到社會面。

8月19日，2024美國民主黨全國代表大會開幕的前一天，川普釋出了一張疑似用AI生成的影像。當時，由於美國現任總統拜登已放棄連任，經過黨內投票後，這幅AI影像的主角哈裏斯已提前釘選民主黨總統候選人提名。

而影像中描繪了「哈裏斯在芝加哥發表演講」的現場情況，其背景中有一面鐮刀和錘子圖案的紅旗，似乎在暗示哈裏斯是共產主義者，從而引發政治爭議。

二、谷歌Gemini大模型屢屢翻車，涉敏感元素就黑白不分

谷歌的Gemini聊天機器人，由其同名大語言模型Gemini支持。

在今年2月推出新版Gemini聊天機器人之前，谷歌曾偵錯Gemini模型，使其遇到涉及生成人物的指令時，能反饋更多樣化、內容更模糊的人物形象。

例如，之前在生成醫生影像時，AI通常更傾向於給出白人男性的形象。谷歌希望能透過「多樣化」的方式，來減少AI影像生成模型的「偏見」。

但不到一個月，Gemini模型就捅了大簍子。該模型在生成「具有種族多樣性」的影像時，出現錯誤匹配宗教、種族、性別等情況，以至於得到多張不符合歷史事實的人物影像。受到大量網友的抨擊後，谷歌決定暫停Gemini模型的影像生成功能，為AI影像生成的潛在風險踩下「急剎車」。

谷歌副總裁兼Gemini聊天機器人負責人Sissie Hsiao，在近期的一次采訪中，稱確保AI模型聽從使用者指令，是谷歌堅持的原則。「這是使用者的Gemini，我們是為使用者服務的。」

盡管如此，使用Gemini聊天機器人生成的部份影像，仍存在違背歷史事實的情況。不少X平台的使用者截圖質疑谷歌模型的內容稽核能力。

對於Gemini模型輸出帶有冒犯意味的、種族偏見的內容，谷歌CEO Sundar Pichai回應稱，「這是不可接受的」，該公司將「全面解決這一問題」。

不過，谷歌最近因利用AI技術生成的畫面內容不嚴謹，再次激怒了使用者。

8月中旬，谷歌最新一代智慧型手機Pixel 9系列上市。Pixel 9系列引入了一個名為「Reimagine」的AI照片編輯工具，因此使用者可以透過輸入文本提示，來呼叫AI修改照片中的內容。

但有使用者發現，Reimagine允許使用者添加一些違規元素，比如為海綿寶寶「佩戴」納粹標誌。這一內容安全漏洞引起使用者的反感。

一位谷歌發言人稱，該公司正在「不斷加強和完善AI模型現有的安全防護措施」。

谷歌今年8月底曾透露，其AI聊天機器人Gemini將重新上線人物影像生成功能，該功能初期僅面向付費訂閱的英語使用者開放。同時，谷歌已在AI影像生成稽核方面取得「重大進展」，不過Gemini生成的影像也「不可能每一張都準確無誤」。

三、AI生圖的倫理、法律邊界，待建立行業標桿

當前，AI影像生成軟體不斷試探社交媒體平台政策的底線。這種現象引發了爭論和反思，比如科技公司是否應該控制，又如何稽核前沿的AI影像生成軟體所輸出的內容呢？

在把生成式AI技術開放給網友用於自由創作前，AI影像生成軟體配備有效的安全防護措施，以確保AI生成的作品不違規、不觸犯道德準則。這是科技公司在AI內容稽核上面臨的壓力。

除了倫理困境之外，AI模型和軟體背後的開發者，還需要背負許多潛在的法律責任。這是由於他們在訓練AI模型和軟體時，所用的訓練數據涉及侵犯智慧財產權等權利。

因涉嫌侵權，2023年藝術家們對AI影像創企Stability AI和Midjourney發起集體訴訟。這次集體訴訟的物件還包括DeviantArt、Runway等一系列擁有AI影像生成模型的公司。

此外，除了來自藝術家們的集體訴訟外，Stability AI還面臨美國視覺媒體公司Getty Images的訴訟。後者指控Stability AI侵犯了其訓練模型的權利。對此，Getty Images的一位發言人稱，該公司現已推出了自己的AI影像生成模型。

OpenAI於2022年推出了AI影像生成模型DALL-E。去年收到藝術家們的集體訴訟後，OpenAI為此在DALL-E模型界面新增了一個選項，允許創作者勾選個人上傳影像不用於DALL-E下一代模型的訓練。

【華爾街日報】的母公司News Corp已與OpenAI簽訂了內容授權合約。得益於此，在一定限度內，OpenAI可以自由存取、采集News Corp現有的媒體資源。

「我們終究會搞清楚這一點。」智慧財產權保護律師Geoffrey Lottenberg稱，這類涉AI知識版權的法律糾紛可能會為AI法律邊界開創先例。那麽，其他AI公司訓練其模型和聊天機器人的時候，可以使用哪些圖片、視訊等數據也就有了參考標準。

結語：谷歌、OpenAI積極糾偏，xAI反其道而行之

AI影像生成軟體在生成特定、知名人物影像方面的能力，是這輪AI內容稽核爭議的主要矛盾點之一。

包括谷歌和OpenAI在內，多家科技公司都禁止用AI影像生成軟體，來創作包含特定人物的、角色易辨認的AI作品。

出於xAI創始人馬斯克對言論自由的堅持，xAI的Grok-2大模型選擇保留特定人物、角色的影像生成功能。然而，此舉導致xAI遭到科技行業監督機構的批評。

加州大學洛杉磯分校的Sarah T. Roberts教授致力於內容稽核研究。她認為，使用者會利用AI前沿技術深度偽造視訊、聲音、照片等，用於傳播虛假資訊。

Roberts補充道，傳統社交媒體中存在的所有問題，生成式AI也依然需要面對，並且更難以檢測。尤其是使用AI技術生成的影像等視覺內容，有時候更容易讓人信服。

賓夕法尼亞大學教授Pinar Yildirim稱，平台試圖設立一些規則，比如透過禁用關鍵詞來阻止AI技術的濫用。但與此同時，使用者也能找到安全漏洞，繞開這些規則限制，從而獲取他們想要的內容。「使用者會變得更聰明，最終還是能透過鉆空子來創作違規內容。」Yildirim說道。

來源：【華爾街日報】