Genie是一個擁有110億參數的基礎世界模型,通過推斷生成環境中的潛在動作來交互。與強調視頻真實性的Sora不同,Genie更注重潛在動作的預測。
觀點網訊:2月27日,谷歌發布名為Genie的新世界模型,該模型基于互聯網視頻訓練,能從合成圖像、照片、草圖中生成多種動作可控的環境。
據谷歌介紹,Genie是一個擁有110億參數的基礎世界模型,通過推斷生成環境中的潛在動作來交互。與強調視頻真實性的Sora不同,Genie更注重潛在動作的預測。
谷歌展示的視頻顯示,Genie能根據單張圖像生成背景變換、動作流暢的視頻。
在世界模型領域,各家公司的路徑不盡相同。Sora作為早期引起關注的模型,被OpenAI形容為世界模拟器的視頻生成模型。關于Sora是否真正理解物理世界規律並具備世界模型屬性仍存在争議。
與此同時,Meta發布了名為V-JEPA的模型,該模型能生成視頻中被遮擋的部分。與Genie相似,V-JEPA也強調對“推測”的重視。通過自監督訓練,V-JEPA能了解世界運作的知識。
審校:徐耀輝