遊戲行業中的Generative AI革命-來自A16Z的行業分析

虛擬世界新鮮資訊 TechVerse

原文來自A16Z,原標題:The Generative AI Revolution in Games

要理解遊戲將如何被新一代人工智能徹底改造,只需看看@emmanuel_2m最近在Twitter上發布的帖子。在這篇文章中,他探索使用Stable Diffusion+Dreambooth,這種流行的2D生成人工智能模型,為一個假設的遊戲生成藥劑圖像。

這部作品的革命性之處不僅在於它節省時間和金錢,還在於它的質量——從而打破了經典 “成本、質量和速度”不可能三角形。藝術家們現在正在幾個小時內就可以創造出高質量的手工制作將花費數周時間的圖像。真正具有變革性的是

  • 現在,任何人只要學會一些簡單的工具,都可以獲得這種創造力。

  • 這些工具可以以高度迭代的方式創造出無窮無盡的變化。

  • 一旦訓練完成,整個過程就是實時的——結果幾乎可以在瞬間獲得


自實時3D技術出現以來,還沒有一項技術對遊戲產生如此革命性的影響。花時間和遊戲創作者交談,那種興奮和驚奇的感覺是顯而易見的。那麽,這項技術將何去何從?它將如何改變遊戲?首先,讓我們回顧一下什麽是生成人工智能?

什麽是生成AI?

生成人工智能是一種機器學習,計算機可以根據用戶的提示生成原始的新內容。今天,文字和圖像是這一技術最成熟的應用,但幾乎在每一個領域都在進行嘗試,從動畫、音響效果、音樂,甚至是創造具有完整人格的虛擬人物。

當然,人工智能在遊戲中並不新鮮。即使是早期的遊戲,比如阿塔裏的乒乓球,也有計算機控制的對手來挑戰玩家。然而,這些虛擬對手並沒有像我們今天所知道的那樣運行人工智能。它們只是由遊戲設計者精心編寫的腳本程序。他們模擬了一個人工智能的對手,但他們不會學習,而且的水平也無法超過創建他們的程序員。

現在不同的是,得益於更快的微處理器和雲計算,計算能力得到了提升。有了這種能力,就有可能建立大型的神經網絡來識別高度復雜領域中的模式和表示。

這篇博文分為兩部分:

  • 第一部分是我們對遊戲生成人工智能領域的觀察和預測。

  • 第二部分是我們的市場分析圖,概述了各個細分市場,並確定了每個細分市場的關鍵公司。


第一部分-觀察和預測

假設

首先,讓我們來探討一下這篇博文後面的一些假設:

1. 一般人工智能的研究數量將繼續增長,創造出更有效的技術

讓我們來看看arXiv檔案中每月發表的關於機器學習或人工智能的學術論文數量:

正如你所看到的,論文數量呈指數級增長,沒有任何放緩的跡象。這還只包括公開發表的論文——大部分研究從未公開發表過,而是直接針對開源模型或產品研發。這事興趣和創新的爆發的結果。

2. 在所有娛樂方式中,遊戲將受到新一代人工智能的影響最大

遊戲是最復雜的娛樂形式,因為它涉及的資產種類太多 (2D藝術、3D藝術、音效、音樂、對話等). 遊戲也是互動性最強的,非常注重實時體驗。這給新的遊戲開發者創造了一個巨大的障礙,同時也為制作一個現代化的頂級遊戲帶來了巨大的成本。這也為新一代人工智能的顛覆創造了巨大的機會

以《荒野大鏢客2》這樣的遊戲為例,它是有史以來制作成本最高的遊戲之一,制作成本接近5億美元。原因顯而易見——它擁有市場上所有遊戲中最美麗、最完整的虛擬世界之一。它也花了近8年的時間來制作,有1000多個不可操縱的角色 (每個人都有自己的個性、藝術品和配音演員)世界面積近30平方英裏,100多個任務分為6章,100多名音樂家創作了近60個小時的音樂。這個遊戲的每一項都耗資巨大。


現在比較一下《荒野大鏢客2》和《微軟飛行模擬器》,這款模擬器不僅大,而是巨大。微軟飛行模擬器使玩家能夠環繞地球飛行,地球總面積達1.97億平方英裏。微軟是如何打造如此大規模的遊戲的?通過讓人工智能來實現。微軟與blackshark.ai合作,訓練人工智能從2D衛星圖像中生成一個真實感的3D世界

這個例子說明,如果沒有人工智能的應用,遊戲的構建是不可能的,而且這些模型可以隨著時間的推移不斷改進。例如,它們可以增強 “公路立交橋”模型,重新運行整個建設過程,突然之間,所有的公路立交橋在整個地球上都得到了改善。

3. 對於遊戲生產中涉及的每一種資產,都會有一個生成性的AI模型

到目前為止,像穩定擴散(StableDifference)或MidJourney這樣的二維圖像生成器已經抓住了人們對Generative AI的大部分熱情,因為它們能產生引人注目的圖像。但幾乎所有與遊戲相關的資產都已經有了生成AI模型,從3D模型到角色動畫,再到對話和音樂。這篇博文的後半部分包括一張市場地圖,突出了一些專注於每一類內容的公司。

4. 內容的價格將大幅下降,在某些情況下將實際降為零。

當與正在嘗試將Generative AI集成到生產線上的遊戲開發者交談時,最大的興奮來自於時間和成本的大幅減少。一位開發人員告訴我們,他們為單個圖像生成概念藝術(從開始到完成)的時間已經從3周下降到1小時:減少了120倍。我們認為,在整個生產過程中也可能實現類似的節約。

需要明確的是,藝術家並沒有被取代的危險。這確實意味著藝術家們不再需要自己完成所有的工作:他們現在可以設定最初的創作方向,然後將大量的時間和技術執行交給人工智能。在這一點上,他們就像早期手繪動畫中的cel畫家 “印克”繪制出動畫的輪廓,然後是低成本的 “畫家部隊”將做耗時的工作,畫動畫包裹,填補線。這是一個創造遊戲的“自動完成”鍵。

5. 我們還處在這場革命的初級階段,還有許多工作需要改進

盡管最近形勢喜人,但我們仍然處在起跑線上。未來,我們將如何利用這一新技術進行遊戲開發,還有大量的工作要做,而快速進入這一新領域的公司將面臨巨大的機遇。

預測

基於這些假設,以下是對遊戲行業可能發生的變革的一些預測:

1. 學習如何有效地使用新一代人工智能將成為一項有市場價值的技能

我們已經看到一些實驗者比其他人更有效地使用生成人工智能。要充分利用這一新技術,需要使用各種工具和技術,並知道如何在它們之間切換。我們預測,這將成為一種市場需要的技能,將藝術家的創造性眼光與程序員的技術技能結合起來。

克裏斯·安德森曾說過一句名言,“每一次富足都會造成新的匱乏。”隨著內容的不斷豐富,我們相信只有知道如何與人工智能工具進行最有效合作的藝術家才是最緊缺的。

例如,在藝術品制作中使用新一代人工智能具有特殊的挑戰,包括:

  • 一致性。對於任何生產資產,您都需要能夠在以後對該資產進行更改或編輯。對於AI工具,這意味著需要能夠以相同的提示復制資產,這樣您就可以進行更改。這可能是棘手的,因為同一個提示符可能會產生截然不同的結果。

  • 風格。在一個給定的遊戲中,所有的藝術都有一個一致的風格是很重要的——這意味著你的工具需要被訓練或者和你給定的風格捆綁在一起。

2. 降低門檻將帶來更多的冒險和創造性探索

我們很快就會進入一個新的遊戲開發的 “黃金時代”,較低的進入門檻會帶來更多的創新和創造性的遊戲的爆發。不僅因為較低的制作成本導致較低的風險,而且因為這些工具釋放了為更廣泛的受眾創造高質量內容的能力。從而引出下一個預言…

3. AI輔助的 “微型遊戲工作室”增加

借助Generative AI工具和服務,我們將開始看到更多由小型工作室開發的成功商業遊戲。一個小型獨立遊戲工作室的想法並不新鮮——熱門遊戲《Amoung Us》是Innerslooth工作室在只有5名員工的情況下開發的——但這些小型遊戲工作室所能開發的遊戲的數量和規模將會越來越大。這將導致…

4. 每年發布的遊戲數量增加

Unity和Roblox的成功表明,提供強大的創造性工具會帶來更多的遊戲。新一代人工智能將進一步降低門檻,創造更多的遊戲。該行業已經面臨遊戲發現的挑戰——僅去年一年就有1萬多款遊戲加入了Steam——這將給遊戲分發帶來更大的壓力。但是我們也會看到。。。

5. 在新一代人工智能出現之前不可能出現的新遊戲類型

我們將看到新一代人工智能帶來的新的遊戲類型的發明。我們已經討論過微軟的飛行模擬器,但將會有全新的依靠實時內容生成的遊戲類型出現。

以《箭手》為例。這是一個RPG遊戲,其特點是人工智能為幾乎無限的新遊戲創造的角色。

我們還知道,另一個遊戲開發商正在使用人工智能讓玩家創建自己的遊戲中頭像。以前他們收集了一些手繪的頭像圖像,玩家可以混合和匹配這些圖像來創建他們的頭像——現在他們已經完全拋棄了這些圖像,而只是根據玩家的描述來生成頭像圖像。讓玩家通過人工智能生成內容比讓玩家從零開始上傳自己的內容更安全,因為人工智能可以被訓練以避免創建攻擊性內容,同時也能給玩家更大的歸屬感。

6. 行業特有的人工智能工具將獲得價值,而不僅僅是基礎模型

像Stable Diffusion和Midjourney這樣的基礎模型所帶來的興奮和喧囂正在創造令人瞠目結舌的估值,但新研究的持續湧入確保了新模型會隨著新技術的完善而不斷更迭。以網站搜索流量為例,看看現在三種流行的新一代人工智能模型的搜索指數:Dall-E、Midjourney 和Stable Diffusion。每一款都有自己的高光時刻。

另一種方法是構建行業垂直的工具組合,這些工具組合關注特定行業的生成AI需求,深入理解特定受眾,並與現有生產流水線深度融合 (如unity和unreal).

Runway就是一個很好的例子,它針對視頻創建者的需求,提供人工智能輔助工具,如視頻編輯、綠屏刪除、內畫和運動跟蹤。這樣的工具可以建立一個特定的用戶群並獲得收入,隨著時間的推移增加新的模型。我們還沒有看到像Runway這樣的遊戲套件出現,但我們知道這是一個積極發展的空間。

7. 法律挑戰來了

所有這些新一代人工智能模型的共同點是,它們都是用大量內容數據集訓練出來的,這些數據集通常來自互聯網本身。例如,對從網絡上刮下來的50多億對圖像/標題進行了Stable Diffusion的訓練。

目前,這些模型聲稱是根據 “合理使用”版權理論,但這一論點尚未在法庭上得到明確檢驗。顯然,法律挑戰正在到來,這可能改變新一代人工智能的格局。

大制片廠有可能通過建立基於其擁有明確權利和所有權的內部內容的專有模式來尋求競爭優勢。以微軟為例,它在這方面的優勢尤為突出,目前有23家第一方工作室,在收購Activision後,又有7家工作室接連被收購。

8. 編程不會像內容生成那樣被顛覆——至少現在還不會

軟件工程是遊戲開發的另一個主要成本,但正如A16Z企業團隊的同事們在最近的博客文章《藝術沒有死,只是用機器制造》中所分享的那樣,用AI模型生成代碼需要更多的測試和驗證,因此生產率的提高比生成創造性資產要小。像Copilot這樣的編碼工具可以為工程師提供適度的性能改進,但不會產生同樣的影響……至少在短期內不會。

建議

根據這些預測,我們提出以下建議:

1. 現在就開始探索生成AI

搞明白如何充分利用即將到來的新一代人工智能革命的力量,還需要一段時間。現在起步的公司以後會有優勢。我們知道有幾個工作室正在進行內部實驗項目,以探索這些技術如何影響生產。

2. 尋找市場機會

我們的市場地圖的一些部分已經非常擁擠,如動畫或對話,但其他領域是缺乏競爭的。我們鼓勵對這一領域感興趣的企業家將其努力集中在尚未探索的領域,例如 “遊戲業的Runway”.

第II部-市場地圖

市場現狀

我們已經創建了一個市場地圖,包括了我們觀察到正在用生成式AI來變革遊戲創作的公司。這篇博文詳細介紹了其中的每一個類別,並重點介紹了每個類別中最令人興奮的公司。

二維圖像

從文本提示中生成二維圖像已經是生成性人工智能應用最廣泛的領域之一。Midjourney、Stable Diffusion和Dall-E2等工具可以從文本中生成高質量的2D圖像,並且已經在遊戲生命周期的多個階段進入了遊戲生產。

概念藝術

新一代人工智能工具擅長 “意念”或者幫助非藝術家,如遊戲設計師,快速探索概念和想法,以產生概念藝術品,這是制作過程的關鍵部分。例如,一個工作室 (保持匿名) 正在使用這些工具一起從根本上加快他們的概念藝術過程,花一天的時間創造一個形象,以前將需要長達三個星期。

  • 首先,他們的遊戲設計師使用Midjourney來探索不同的想法,並生成他們認為具有啟發性的圖像。

  • 這些東西交給專業的概念藝術家,他將它們組裝在一起,並繪制出一幅連貫的圖像——然後將圖像輸入Stable Diffusion,從而產生一系列變化。

  • 他們討論這些變化,選擇一個,手工加上一些編輯——然後重復這個過程,直到他們對結果滿意為止。

  • 在此階段,最後一次將圖像傳回Stable Diffusion模型“精煉”出最終圖片生成最終效果。

2D制作藝術

一些工作室已經在嘗試用同樣的工具制作遊戲中的藝術作品。例如,這裏有一個來自Albert Bozesan的關於使用穩定擴散來創建遊戲內2D資產的很好的教程。

三維作品

3D資產是所有現代遊戲以及未來元宇宙的基石。虛擬世界,或者遊戲層面看,本質上只是一個3D資產的集合,通過放置和修改以填充虛擬環境。但是,創建三維資產比創建二維圖像更復雜,需要多個步驟,包括創建三維模型和添加紋理和效果。對於動畫人物,它還包括創建一個內部的 “骨架”然後在骨架上創建動畫。

我們看到一些不同的初創公司在這個三維資產創建過程的每個階段都在革新,包括模型創建、角色動畫和水平構建。但是,這還不是一個可以解決的問題——沒有一個解決方案可以完全集成到生產中。

3d的資產

試圖解決三維模型創建問題的初創企業包括KaeDim,Mirage和Hypothetic。包括英偉達的Get3D和Autodesk的ClipForge在內的大型公司也在關注這個問題。KaeDim和Get3d則專注於圖像生成三維;ClipForge和Mirage的重點是文本到三維,而Hypothetic同時在做圖片和文本的3d生成。

3d紋理

三維模型看起來只像應用到網格上的紋理或材料一樣真實。決定哪種苔蘚,風化的石頭紋理適用於中世紀城堡模型可以完全改變一個場景的外觀和感覺。紋理包含光如何對材料作出反應的元數據 (如粗糙、閃亮等。). 允許藝術家根據文本或圖像提示輕松生成紋理將對提高創作過程中的迭代速度非常有價值。包括Bariumai、Ponzu和ArmorLab在內的幾個小組正在尋求這一機會。

動畫

制作優秀的動畫是遊戲制作過程中最耗時、最昂貴、最依靠技巧的環節之一。降低成本、創造更逼真的動畫的一個方法是使用動作捕捉技術,將演員或舞蹈演員穿上動作捕捉服,並將其移動過程記錄在專門的運動捕捉階段。

我們現在看到的新一代人工智能模型可以直接從視頻中捕捉動畫。這樣做的效率要高得多,不僅因為它不需要昂貴的運動捕捉設備,還因為它意味著您可以從現有的視頻中捕捉動畫。這些模型的另一個令人興奮的方面是,它們也可以用於對現有的動畫添加濾鏡,例如使它們看起來像喝醉了的,或者是老的,或者是快樂的。這個方向的公司包括Kinetix、DeepMotion、RADICAL、Move Ai和Plask。

關卡設計和建造

遊戲制作最耗時的一個方面就是打造一個遊戲的世界,這是一個生成性人工智能應該很適合的任務。像Minecraft、No Man's Sky和Diablo這樣的遊戲已經以使用過程技術生成級別而聞名,在這些關卡中,關卡是隨機創建的,每次都不一樣,但都遵循設計者制定的規則。新的虛幻5遊戲引擎的一大賣點是它收集了開放世界設計的程序工具。

我們已經在這個領域看到了一些先行者,比如Promethean、MLXAR或Meta的Builder Bot,我們認為生成技術基本上取代過程技術只是時間問題。這個領域的學術研究已經有一段時間了,包括Minecraft的生成技術以及Doom中的關卡設計。

另一個期待生成人工智能工具用於關卡設計的令人信服的理由是,它能夠以不同的風格創建關卡和世界。你可以想象一下,在20世紀20年代的紐約,要求工具來創造一個世界。托爾金式的幻想世界。

MIdjourney使用提示符生成了以下概念,“xx風格的遊戲關卡…”

音頻

聲音和音樂是遊戲體驗的重要組成部分。我們開始看到一些公司使用Generative AI生成音頻來補充已經在圖形方面進行的工作。

聲音效果

音響效果對於人工智能來說是一個很有吸引力的開放領域。有學術論文探討了利用人工智能生成電影音效(例如,腳步) 但遊戲領域的商業產品還很少。

我們認為這只是一個時間問題,因為遊戲的交互性使其成為生成性人工智能的一個明顯應用,兩者都作為生產的一部分創造靜態音效 (“《星球大戰》風格的激光槍聲”)並在運行時創建實時交互式音響效果。

考慮一些簡單的事情,比如為玩家的角色生成腳步聲。大多數遊戲通過加入少量的預先錄制的腳步聲來解決這個問題:在草地上走,在礫石上走,在草地上跑,在礫石上跑等等。它們的生成和管理非常繁瑣,而且在運行時聽起來重復且不現實。

一個更好的方法是為foley音效建立一個實時生成的AI模型,它可以在飛行中產生適當的音效,每次都略有不同,對遊戲中的參數(如地面、角色重量、步態、鞋類等)做出響應。

音樂

音樂一直是遊戲的挑戰。這一點很重要,因為它可以像在電影或電視中那樣幫助設定情緒基調,但由於遊戲可以持續數百甚至數千小時,它很快就會變得重復或煩人。此外,由於遊戲的交互性,音樂很難精確地與屏幕上任何時間發生的事情相匹配。

20多年來,改編音樂一直是遊戲音頻領域的一個話題,最早可追溯到微軟公司 “DirectMusic”(三)互動音樂創作體系。DirectMusic從未被廣泛采用,主要原因是很難采用這種格式作曲。只有幾個遊戲,比如Monolith的《NO One lives FOrever》,創造了真正的互動。

現在我們看到很多公司都在嘗試創造人工智能音樂,比如Soundful、Musico、Harmonai、InfiminalAlbum和Aiva。雖然今天的一些工具,如Open AI的Jukebox,是高度計算密集的,不能實時運行,但大多數可以在最初的模型建立後實時運行。

語言及對話

有大量的公司試圖為遊戲中的角色創造真實的聲音。這並不奇怪,因為長期以來人們一直試圖通過語音合成讓計算機發出聲音。公司包括Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai等。

使用生成型人工智能進行語音有許多優點,這也是為什麽這個空間如此擁擠的部分原因。

  • 實時生成對話框。遊戲中的演講通常是由配音演員預先錄制的,但僅限於預先錄制的罐裝演講。通過生成AI對話,角色可以說任何話——這意味著他們可以對玩家的行為做出充分的反應。結合更智能化的人工智NPC,完全響應玩家需求的遊戲前景即將到來。

  • 角色扮演。很多玩家都想扮演一個和自己真實身份幾乎沒有相似之處的幻想角色。然而,當玩家用自己的聲音說話時,這種幻想就破滅了。使用與玩家頭像相匹配的聲音來保持這種錯覺。隨著語音的產生,你可以控制聲音的細微差別,比如音色、變調、情感共鳴、音素長度、口音等等。

  • 本地化。允許將對話框翻譯成任何語言並以相同的聲音說話。像Deepdub這樣的公司專門專注於這一細分市場。

NPC或玩家角色

許多初創企業正考慮使用生成型人工智能創造真實的角色,以便與之互動,部分原因是這個市場在遊戲之外具有如此廣泛的適用性,比如虛擬助手或接待員。

創造真實人物的努力可以追溯到人工智能研究的初期。實際上,經典的定義 “圖靈測試”就是人工智能是指人類不能夠區分與人工智能的聊天對話和與人類的聊天對話。

目前,有數百家公司在制造通用聊天機器人,其中許多公司使用類似GPT-3的語言模型。一小部分人專門為了娛樂目的而嘗試建立聊天機器人,比如試圖建立虛擬朋友的Replika和Anima。電影《她》中所探討的與虛擬女友約會的概念,可能比你想象的要接近。

我們現在看到了這些聊天機器人平台的下一個迭代,比如Charisma.ai、Convai.com或Inworld.ai,它們可以驅動這些完全3D渲染的角色,讓他們有情感和代入感,也讓創作者可以給他們設定行為目標。這一點很重要,如果他們將可以被用來推進遊戲劇情發展。

一體化平台

總體而言,最成功的生成人工智能工具之一是Runwayml.com,因為它將大量的生成工具集合在一個單獨的軟件包中。目前還沒有這樣的平台服務於視頻遊戲,我們認為這是一個被忽略的機會。我們希望投資一個具有以下特點的解決方案:

  • 全套的人工智能生成工具,覆蓋了整個生產過程。(代碼、資產生成、紋理、音頻、描述等)

  • 緊密結合流行的遊戲引擎,如虛幻和Unity。

  • 設計適合於典型的遊戲制作流水線。

結論

這是一個令人難以置信的遊戲創作者的時代!部分歸功於這篇博客文章中描述的工具,生成構建遊戲所需的內容從來沒有這麽容易——即使你的遊戲和整個地球一樣大!

甚至有一天,我們可以想象一個完全基於玩家的需求,為玩家打造的個性化遊戲。這在科幻小說中已經存在了很長時間——就像 安德的遊戲中的“AI思維遊戲”,或者在《星際迷航》中的全息甲板。但是,隨著這篇博客文章中所描述的工具以最快的速度向前推進,不難想象現實就在眼前。



文章推薦