2023 年,人工智能領(lǐng)域無疑成為了行業(yè)的焦點,帶來了深刻的變革。本文概述了這一年中最有影響力的大事件,這些事件預示著這一創(chuàng)新領(lǐng)域未來的發(fā)展方向。
人工智能的發(fā)展
不像去年的 ChatGPT 或圖像生成器的推出那樣革命性的創(chuàng)新,今年的人工智能發(fā)展雖然取得了顯著的成就,但主要是專注于現(xiàn)有技術(shù)的完善。盡管沒有帶來令人震驚的效果,真正的通用人工智能(AGI)仍然還有很長的路要走,但今年是從過去的重大突破向更加強大的技術(shù)轉(zhuǎn)變的過渡期。為了更好地展示這一轉(zhuǎn)變,我們制作了一張基于時間線的路線圖:
圖像生成
Adobe Firefly:Adobe Firefly 和 Generative Fill 為多樣化的視覺內(nèi)容創(chuàng)作提供了強大的支持,這包括插畫、藝術(shù)概念設計和照片編輯。Adobe Firefly 被集成進 Photoshop,從而普及了 AI 技術(shù),使其得以廣泛服務于更多用戶。此外,文本效果功能的推出,也標志著技術(shù)的一大進步,使用戶能夠?qū)⑻囟L格或紋理應用于文字和短語。
Midjourney:Midjourney 的 V.5 模型在圖像生成領(lǐng)域是一個重要的里程碑,它展示了在效率、連貫性和高分辨率方面的顯著改進。最新的 alpha 版本,Midjourney V.6,引入了額外的增強功能,如更精準的提示跟隨、擴展的模型知識庫和一定程度的文本繪制能力。
DALL·E 3:基于 ChatGPT 的 DALL·E 3 簡化了圖像生成過程,減少了復雜提示工程的需求。此外,ChatGPT 還引入了一項幫助用戶根據(jù)反饋優(yōu)化提示,進而調(diào)整圖像效果的功能。
Shutterstock.AI:Shutterstock,一家圖庫巨頭,通過集成 AI 功能,讓用戶可以把文字提示轉(zhuǎn)換成可授權(quán)使用的圖像。Shutterstock 采取了保護藝術(shù)家權(quán)益和報酬的措施,這在AI內(nèi)容創(chuàng)作領(lǐng)域是前無古人的,可以看作是 AI 道德發(fā)展的第一個重要舉措。
2007 年與 2023 年文本到圖像算法的演進
視頻生成
Stability AI:Stability AI 推出了 Stable Video Diffusion,一個創(chuàng)新的開源視頻生成模型,已在 GitHub 上開源。它有望在 AI 生成視頻的各個領(lǐng)域發(fā)揮關(guān)鍵作用,這與 AI 圖像生成趨勢 是相輔相成的。
HeyGen:一家 AI 創(chuàng)業(yè)公司推出了一款集聲音克隆、嘴唇動作調(diào)整和語言翻譯于一體的視頻工具。
Runway Gen-2:Runway 發(fā)布了 Gen-2 模型,用戶現(xiàn)可僅用文本提示、圖像或視頻輕松生成完整視頻。
Pika 和 Pika 1.0: 首次發(fā)布便吸引了五十萬用戶,每周產(chǎn)生數(shù)百萬視頻。隨后,Pika 1.0 的升級版 AI 模型讓用戶能夠更多樣化地創(chuàng)作和編輯視頻,風格涵蓋 3D 動畫、動漫、卡通到電影等。
Meta 的 Codec Avatars:Meta 的 Pixel Codec Avatars(PiCA)模型使我們在視頻通話中看到更逼真的 3D 人臉,使遠程會議效果更接近真實。
文本生成
Bard 和 Gemini:Google 的 Bard 為聊天機器人領(lǐng)域引入了更貼近人類的情感和情緒。Google 在 Bard 聊天機器人中融入了基于多模態(tài)數(shù)據(jù)集訓練的 Gemini,它被譽為目前“最強大”的 AI 模型,是 OpenAI 的 ChatGPT 最強的競爭對手之一。
Grok:Elon Musk 的創(chuàng)業(yè)公司 xAI 展示了其對 AI 開發(fā)的承諾,并可能與 OpenAI 展開競爭。他們發(fā)布了 “Grok”,這是一款具有幽默感、反叛精神,并通過 ?? 平臺獲得實時知識的聊天機器人。xAI 承諾,Grok 被設計來 回答其他 AI 系統(tǒng)拒絕的挑釁性問題。
OverflowAI:Stack Overflow 的 OverflowAI 加強了知識整理能力,支持在 Visual Studio Code 和 Slack 中進行 AI 驅(qū)動的答案搜索。
Llama 2:Meta 發(fā)布了 Llama 2,這是其開源大型語言模型的最新版本,顯示了效率方面的提升。Meta 的精調(diào) LLM 在對話用例中經(jīng)過優(yōu)化,多數(shù)基準測試中超過其他開源模型。
GPT-4:OpenAI 的 GPT-4 現(xiàn)在可以處理圖像輸入,生成標題、分類,進行聽說交流,并支持 實時網(wǎng)頁瀏覽。OpenAI 擴展了插件支持,推動了開源生態(tài)系統(tǒng)的發(fā)展。GPT-4 代表了 OpenAI 在開發(fā)通用人工智能(AGI)路上的下一步。
Mistral 7B:Mistral AI 在今年 估值達到約 20 億美元,發(fā)布了 Mistral 7B,一款挑戰(zhàn) GPT-4 和 Claude 2 的大型語言模型。Mistral AI 強調(diào)其技術(shù)開放性,免費提供模型的下載。
Mixtral 8x7B:Mistral AI 還推出了 Mixtral 8x7B,這是一個高質(zhì)量的稀疏專家混合模型(SMoE),擁有開放權(quán)重和總計 46.7B 的參數(shù),代表了在提高真實性和減少偏見方面模型開放性的新階段。
Yi-34B llm:今年估值達到 10 億美元,李開復的創(chuàng)業(yè)公司 01.AI 發(fā)布了 Yi-34B —— 一款開源神經(jīng)網(wǎng)絡模型,參數(shù)數(shù)量超過競爭對手,強調(diào)了它在成本和效率方面的優(yōu)勢。