谷歌發布擁有110億參數的基礎世界模型Genie

观点网

2024-02-27 16:09

  • Genie是一個擁有110億參數的基礎世界模型,通過推斷生成環境中的潛在動作來交互。與強調視頻真實性的Sora不同,Genie更注重潛在動作的預測。

    觀點網訊:2月27日,谷歌發布名為Genie的新世界模型,該模型基于互聯網視頻訓練,能從合成圖像、照片、草圖中生成多種動作可控的環境。

    據谷歌介紹,Genie是一個擁有110億參數的基礎世界模型,通過推斷生成環境中的潛在動作來交互。與強調視頻真實性的Sora不同,Genie更注重潛在動作的預測。

    谷歌展示的視頻顯示,Genie能根據單張圖像生成背景變換、動作流暢的視頻。

    在世界模型領域,各家公司的路徑不盡相同。Sora作為早期引起關注的模型,被OpenAI形容為世界模拟器的視頻生成模型。關于Sora是否真正理解物理世界規律並具備世界模型屬性仍存在争議。

    與此同時,Meta發布了名為V-JEPA的模型,該模型能生成視頻中被遮擋的部分。與Genie相似,V-JEPA也強調對“推測”的重視。通過自監督訓練,V-JEPA能了解世界運作的知識。

    審校:徐耀輝



    相關話題讨論



    你可能感興趣的話題

    AI

    科技

    谷歌