123,123

2023 的人工智能之年

日期： 2023-12-29

來(lái)源：CSDN

關(guān)鍵詞： 人工智能 ChatGPT 图像生成器

2023 年，人工智能領(lǐng)域無(wú)疑成為了行業(yè)的焦點(diǎn)，帶來(lái)了深刻的變革。本文概述了這一年中最有影響力的大事件，這些事件預(yù)示著這一創(chuàng)新領(lǐng)域未來(lái)的發(fā)展方向。

人工智能的發(fā)展

不像去年的 ChatGPT 或圖像生成器的推出那樣革命性的創(chuàng)新，今年的人工智能發(fā)展雖然取得了顯著的成就，但主要是專注于現(xiàn)有技術(shù)的完善。盡管沒(méi)有帶來(lái)令人震驚的效果，真正的通用人工智能（AGI）仍然還有很長(zhǎng)的路要走，但今年是從過(guò)去的重大突破向更加強(qiáng)大的技術(shù)轉(zhuǎn)變的過(guò)渡期。為了更好地展示這一轉(zhuǎn)變，我們制作了一張基于時(shí)間線的路線圖：

圖像生成

Adobe Firefly：Adobe Firefly 和 Generative Fill 為多樣化的視覺(jué)內(nèi)容創(chuàng)作提供了強(qiáng)大的支持，這包括插畫(huà)、藝術(shù)概念設(shè)計(jì)和照片編輯。Adobe Firefly 被集成進(jìn) Photoshop，從而普及了 AI 技術(shù)，使其得以廣泛服務(wù)于更多用戶。此外，文本效果功能的推出，也標(biāo)志著技術(shù)的一大進(jìn)步，使用戶能夠?qū)⑻囟L(fēng)格或紋理應(yīng)用于文字和短語(yǔ)。

Midjourney：Midjourney 的 V.5 模型在圖像生成領(lǐng)域是一個(gè)重要的里程碑，它展示了在效率、連貫性和高分辨率方面的顯著改進(jìn)。最新的 alpha 版本，Midjourney V.6，引入了額外的增強(qiáng)功能，如更精準(zhǔn)的提示跟隨、擴(kuò)展的模型知識(shí)庫(kù)和一定程度的文本繪制能力。

DALL·E 3：基于 ChatGPT 的 DALL·E 3 簡(jiǎn)化了圖像生成過(guò)程，減少了復(fù)雜提示工程的需求。此外，ChatGPT 還引入了一項(xiàng)幫助用戶根據(jù)反饋優(yōu)化提示，進(jìn)而調(diào)整圖像效果的功能。

Shutterstock.AI：Shutterstock，一家圖庫(kù)巨頭，通過(guò)集成 AI 功能，讓用戶可以把文字提示轉(zhuǎn)換成可授權(quán)使用的圖像。Shutterstock 采取了保護(hù)藝術(shù)家權(quán)益和報(bào)酬的措施，這在AI內(nèi)容創(chuàng)作領(lǐng)域是前無(wú)古人的，可以看作是 AI 道德發(fā)展的第一個(gè)重要舉措。

2007 年與 2023 年文本到圖像算法的演進(jìn)

視頻生成

Stability AI：Stability AI 推出了 Stable Video Diffusion，一個(gè)創(chuàng)新的開(kāi)源視頻生成模型，已在 GitHub 上開(kāi)源。它有望在 AI 生成視頻的各個(gè)領(lǐng)域發(fā)揮關(guān)鍵作用，這與 AI 圖像生成趨勢(shì) 是相輔相成的。

HeyGen：一家 AI 創(chuàng)業(yè)公司推出了一款集聲音克隆、嘴唇動(dòng)作調(diào)整和語(yǔ)言翻譯于一體的視頻工具。

Runway Gen-2：Runway 發(fā)布了 Gen-2 模型，用戶現(xiàn)可僅用文本提示、圖像或視頻輕松生成完整視頻。

Pika 和 Pika 1.0：首次發(fā)布便吸引了五十萬(wàn)用戶，每周產(chǎn)生數(shù)百萬(wàn)視頻。隨后，Pika 1.0 的升級(jí)版 AI 模型讓用戶能夠更多樣化地創(chuàng)作和編輯視頻，風(fēng)格涵蓋 3D 動(dòng)畫(huà)、動(dòng)漫、卡通到電影等。

Meta 的 Codec Avatars：Meta 的 Pixel Codec Avatars（PiCA）模型使我們?cè)谝曨l通話中看到更逼真的 3D 人臉，使遠(yuǎn)程會(huì)議效果更接近真實(shí)。

文本生成

Bard 和 Gemini：Google 的 Bard 為聊天機(jī)器人領(lǐng)域引入了更貼近人類的情感和情緒。Google 在 Bard 聊天機(jī)器人中融入了基于多模態(tài)數(shù)據(jù)集訓(xùn)練的 Gemini，它被譽(yù)為目前“最強(qiáng)大”的 AI 模型，是 OpenAI 的 ChatGPT 最強(qiáng)的競(jìng)爭(zhēng)對(duì)手之一。

Grok：Elon Musk 的創(chuàng)業(yè)公司 xAI 展示了其對(duì) AI 開(kāi)發(fā)的承諾，并可能與 OpenAI 展開(kāi)競(jìng)爭(zhēng)。他們發(fā)布了 “Grok”，這是一款具有幽默感、反叛精神，并通過(guò) ?? 平臺(tái)獲得實(shí)時(shí)知識(shí)的聊天機(jī)器人。xAI 承諾，Grok 被設(shè)計(jì)來(lái) 回答其他 AI 系統(tǒng)拒絕的挑釁性問(wèn)題。

OverflowAI：Stack Overflow 的 OverflowAI 加強(qiáng)了知識(shí)整理能力，支持在 Visual Studio Code 和 Slack 中進(jìn)行 AI 驅(qū)動(dòng)的答案搜索。

Llama 2：Meta 發(fā)布了 Llama 2，這是其開(kāi)源大型語(yǔ)言模型的最新版本，顯示了效率方面的提升。Meta 的精調(diào) LLM 在對(duì)話用例中經(jīng)過(guò)優(yōu)化，多數(shù)基準(zhǔn)測(cè)試中超過(guò)其他開(kāi)源模型。

GPT-4：OpenAI 的 GPT-4 現(xiàn)在可以處理圖像輸入，生成標(biāo)題、分類，進(jìn)行聽(tīng)說(shuō)交流，并支持實(shí)時(shí)網(wǎng)頁(yè)瀏覽。OpenAI 擴(kuò)展了插件支持，推動(dòng)了開(kāi)源生態(tài)系統(tǒng)的發(fā)展。GPT-4 代表了 OpenAI 在開(kāi)發(fā)通用人工智能（AGI）路上的下一步。

Mistral 7B：Mistral AI 在今年估值達(dá)到約 20 億美元，發(fā)布了 Mistral 7B，一款挑戰(zhàn) GPT-4 和 Claude 2 的大型語(yǔ)言模型。Mistral AI 強(qiáng)調(diào)其技術(shù)開(kāi)放性，免費(fèi)提供模型的下載。

Mixtral 8x7B：Mistral AI 還推出了 Mixtral 8x7B，這是一個(gè)高質(zhì)量的稀疏專家混合模型（SMoE），擁有開(kāi)放權(quán)重和總計(jì) 46.7B 的參數(shù)，代表了在提高真實(shí)性和減少偏見(jiàn)方面模型開(kāi)放性的新階段。

Yi-34B llm：今年估值達(dá)到 10 億美元，李開(kāi)復(fù)的創(chuàng)業(yè)公司 01.AI 發(fā)布了 Yi-34B —— 一款開(kāi)源神經(jīng)網(wǎng)絡(luò)模型，參數(shù)數(shù)量超過(guò)競(jìng)爭(zhēng)對(duì)手，強(qiáng)調(diào)了它在成本和效率方面的優(yōu)勢(shì)。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

2023 的人工智能之年

日期： 2023-12-29

來(lái)源：CSDN

相關(guān)內(nèi)容