ICC訊 說到當(dāng)前這輪人工智能熱潮背后的支持技術(shù),Alphabet旗下的谷歌其實是發(fā)明者,但其產(chǎn)品的受歡迎程度卻明顯滯后。谷歌希望透過發(fā)布備受期待的Gemini來改變這種局面,這是該公司迄今為止構(gòu)建的“規(guī)模最大、功能最強的工人智能模型”。
自從OpenAI去年憑借其對話式聊天機械人ChatGPT取得巨大成功以來,越來越多的公司一直在嘗試產(chǎn)生式人工智能,這種技術(shù)可以根據(jù)用戶的要求自動執(zhí)行編碼、總結(jié)報告或建立營銷活動等任務(wù)。在12月6日發(fā)布這款產(chǎn)品前的一次演示會上,谷歌強調(diào),Gemini是其構(gòu)建的最靈活的模型,因為它有不同規(guī)模的版本,包括一個可以直接在智能手機上執(zhí)行的版本。這使它有別于其他競爭對手。
這款人工智能模型是一個用于支持各種產(chǎn)生式人工智能應(yīng)用程序的系統(tǒng),它有三個不同的版本:Gemini Ultra、Gemini Pro和Gemini Nano。谷歌DeepMind部門產(chǎn)品副總裁柯林斯(Eli Collins)表示,這種多樣性意味著Gemini“能夠在從流動裝置到大型數(shù)據(jù)中心的所有裝置上執(zhí)行”。
“長期以來,我們一直希望構(gòu)建新一代人工智能模型,其靈感來自于人們理解這個世界并與其互動的方式——這種人工智能感覺更像是一個助人為樂的合作者,而不是一款智慧軟件,”柯林斯在接受電話采訪時說道,“Gemini讓我們離這個愿景又靠近了一步。”
在這款模型發(fā)布前,該公司對Gemini進(jìn)行了一系列標(biāo)準(zhǔn)的行業(yè)基準(zhǔn)檢驗,并表示,在八項測試中有六項結(jié)果顯示,Gemini Pro的表現(xiàn)優(yōu)于OpenAI的GPT-3.5。谷歌稱,在對通用語言理解、推理、數(shù)學(xué)和編碼進(jìn)行的八項基準(zhǔn)檢驗中,Gemini有七項結(jié)果優(yōu)于OpenAI通用模型的最新版本GPT-4。與此同時,谷歌估計,該公司最新的可解釋和產(chǎn)生程序代碼的產(chǎn)生式人工智能產(chǎn)品AlphaCode 2在競爭性程序設(shè)計領(lǐng)域超過了85%的競爭對手。該公司將發(fā)布一份技術(shù)報告,更深入地解釋Gemini的模型架構(gòu)、訓(xùn)練過程和評估情況。
從12月6日開始,想要為智能手機和平板計算機編寫Gemini支持的應(yīng)用程序的Android開發(fā)人員將能夠注冊使用這款人工智能模型的“nano”版本,該版本可以直接在此類裝置上執(zhí)行。谷歌還表示,將立即在其旗艦手機Pixel 8 Pro上啟用Gemini,它將支持新的產(chǎn)生式人工智能功能,例如從電話錄音中總結(jié)要點。下周,谷歌將透過其Vertex AI和AI Studio平臺向云客戶提供Gemini Pro。
Gemini Ultra是最大版本的谷歌人工智能模型,最初將在面向開發(fā)者和企業(yè)公司的搶先體驗計劃中推出,有關(guān)該計劃的詳細(xì)信息將于下周公布。這個版本將于明年早些時候向公眾廣泛推出。
Gemini還能透過Bard與谷歌的大量應(yīng)用程序和服務(wù)整合在一起,Bard是該公司的對話式聊天機械人,是ChatGPT的競爭對手。此前,Bard使用的是谷歌的PaLM 2模型,這是該公司在5月份的年度開發(fā)者大會上宣布的大型語言模型。
在過去一年中,谷歌一直面臨壓力,既要重塑其核心搜尋業(yè)務(wù),又要應(yīng)對產(chǎn)生式人工智能程序興起的浪潮。盡管該公司長期以來一直被視為人工智能研究領(lǐng)域的先驅(qū),但一些人批評其管理層在人工智能產(chǎn)品營銷方面反應(yīng)遲緩,尤其是在ChatGPT和影像產(chǎn)生器Dall-E等產(chǎn)品大獲成功之后。自O(shè)penAI于3月份發(fā)布GPT-4以來,谷歌一直在努力重申其在該領(lǐng)域的領(lǐng)導(dǎo)地位,包括將這項新技術(shù)注入其成熟的搜尋業(yè)務(wù)。
Gemini就是該公司面對這種市場壓力給出的答案。谷歌表示,人工智能模型是“天然多模式”,這意味著它從一開始就經(jīng)過預(yù)先訓(xùn)練,可以處理使用者給出的基于文字和影像的提示。例如,在一則影片演示中,谷歌展示了家長可以透過上傳某道某數(shù)學(xué)題的影像以及在草稿紙上嘗試解題的步驟照片,來幫助孩子完成家庭作業(yè)。
在演示影片中,谷歌的軟件工程師阿普爾鮑姆表示:“Gemini不僅能解出這些題目,還可以閱讀這些答案并理解哪些是對的,哪些是錯的,并對需要進(jìn)一步澄清的概念作出解釋。”該公司還表示,其“搜尋產(chǎn)生體驗”——谷歌利用其產(chǎn)生式人工智能技術(shù)構(gòu)建的實驗版本的搜索引擎——將在明年融入Gemini的新功能。
盡管如此,該公司的代表警告說,Gemini仍然容易“產(chǎn)生幻覺”,也就是產(chǎn)生式人工智能產(chǎn)生的虛假或捏造的信息??铝炙狗Q這種現(xiàn)象為“一個未解決的研究問題”。該公司向記者展示的演示影片是預(yù)先錄制的。
柯林斯說,Gemini“在谷歌所有人工智能模型中擁有最全面的安全評估”。他說,為了評估Gemini的安全性,谷歌對這款人工智能模型進(jìn)行了對抗性測試,也就是模仿一位試圖利用該程序的壞人給出提示。此次測試包括“真實毒性提示”,這是艾倫人工智能研究所開發(fā)的一項測試,其中包含從網(wǎng)上提取的10萬多個提示,旨在幫助人工智能研究人員檢查大型語言模型中是否存在仇恨言論和政治偏見。
谷歌還強調(diào),這項工具的速度將會很快。該公司表示,Gemini使用了一種新的底層超級計算器架構(gòu)和更新的處理芯片,使其比早前較小的模型執(zhí)行得更快。谷歌正在使用一種新版本的云芯片——Cloud Tensor Processing Units (簡稱TPUs),這是一種內(nèi)部設(shè)計的芯片,和前代產(chǎn)品相比,它訓(xùn)練現(xiàn)有模型的速度要快2.8倍。谷歌機器學(xué)習(xí)副總裁阿明·瓦赫達(dá)特說,這種方法讓谷歌“對未來標(biāo)準(zhǔn)人工智能基礎(chǔ)設(shè)施有了新的認(rèn)識”。他補充說,該公司仍然會使用第三方人工智能芯片來執(zhí)行其Gemini模型。
Gemini將被整合到3月份推出的谷歌產(chǎn)生式人工智能聊天機械人Bard當(dāng)中,使其能夠利用該公司最受歡迎的服務(wù),包括Gmail、地圖、檔案(Docs)和YouTube。此次推出將分為兩個不同的階段進(jìn)行:從12月6日開始,Bard將由Gemini Pro提供支持,它將實現(xiàn)高階推理、規(guī)劃、理解和其他功能。它將能夠在170個國家和地區(qū)以英語執(zhí)行,但值得注意的是,不包括歐洲或英國,該公司表示它正在和當(dāng)?shù)乇O(jiān)管機構(gòu)協(xié)商。
明年初,該公司打算發(fā)布Bard Advanced,這款產(chǎn)品將由功能更強大的Gemini Ultra模型提供支持。谷歌表示,它很快將推出一個值得信賴的測試程序,以便在向公眾廣泛推出之前改進(jìn)Bard Advanced。谷歌負(fù)責(zé)Bard產(chǎn)品的副總裁Sissie Hsiao表示,“有了Gemini的加持,Bard正在進(jìn)行迄今為止最大、最好的升級,它將為人們開啟創(chuàng)作、互動和協(xié)作的新方式?!?