千呼萬喚始出來,谷歌最令人期待的大模型 Gemini 終于來了。
谷歌首席執(zhí)行官 Sundar Pichai、Google DeepMind 首席執(zhí)行官 Demis Hassabis 將其描述為“人工智能模型的一次巨大飛躍”,并稱其“最終將影響谷歌的幾乎所有產(chǎn)品”。 Sundar Pichai 在一項聲明中表示,“這些是我們進入 Gemini 時代的第一批模型,也是我們今年初成立 Google DeepMind 時愿景的第一次實現(xiàn)。這個新時代的模型代表了我們作為公司所進行的最大的科學和工程努力之一?!?據(jù)介紹,此次谷歌共發(fā)布了 Gemini Nano、Gemini Pro 和 Gemini Ultra 三個模型。其中,
Gemini Nano 是一個更輕便的版本,可以在安卓設備上原生離線運行,如 Pixel 8 Pro;
Gemini Pro 是一個更強大的版本 ,它將很快為大量谷歌人工智能服務提供動力,并且從今天開始接入 Bard;
Gemini Ultra 是一個功能更強大的版本,是谷歌目前創(chuàng)造的最強大的大模型,主要是為數(shù)據(jù)中心和企業(yè)應用設計,計劃于明年推出。
在性能比拼上,在 32 項基準測試中,Gemini 有 30 項領先于 GPT-4,其中包括多任務語言理解基準測試等廣泛的整體測試,也有生成 Python 代碼能力的測試。
圖|在包括文本和編碼在內(nèi)的一系列基準測試中,Gemini 的性能都超過了最先進的水平。
圖|在一系列多模式基準測試中,Gemini 的性能都超過了最先進的水平。
此外,Gemini Ultra 的得分率高達 90.0%,是首個在 MMLU(大規(guī)模多任務語言理解)中超越人類專家的模型,MMLU 綜合運用了數(shù)學、物理、歷史、法律、醫(yī)學和倫理等 57 個科目,用于測試世界知識和解決問題的能力。
在這些基準測試中,Gemini 最明顯的優(yōu)勢來自于它理解視頻和音頻并與之交互的能力。這在很大程度上是一種設計:多模態(tài)從一開始就是 Gemini 計劃的一部分。谷歌并沒有像 OpenAI 創(chuàng)建 DALL-E 和 Whisper 那樣,為圖像和語音分別訓練模型;而是從一開始就建立了一個“多感官”模型。 Demis Hassabis 表示,谷歌一直對非常通用的系統(tǒng)感興趣,尤其感興趣的是如何混合所有這些模式——從任何數(shù)量的輸入和感官中收集盡可能多的數(shù)據(jù),然后給出同樣多樣的響應。
目前,Gemini 最基本的模式是文本輸入和文本輸出,但像 Gemini Ultra 這樣功能更強大的模型可以處理圖像、視頻和音頻。 Demis Hassabis 表示,Gemini 還將具有動作和觸摸等功能——更像是機器人類型的功能,隨著時間的推移,將獲得更多的感官,變得更有知覺,并在這一過程中變得更加準確和接地,“這些模型會更好地理解周圍的世界”。當然,Gemini 模型仍然會產(chǎn)生幻覺。 不過,基準并不能代表一切。Gemini 能力的真正考驗最終將來自那些希望用它來集思廣益、查找信息、編寫代碼等的日常用戶。谷歌似乎特別將編碼視為 Gemini 的殺手級應用,使用了一種名為 AlphaCode 2 的新代碼生成系統(tǒng),并稱其性能優(yōu)于 85% 的編碼競賽參賽者,比最初的 AlphaCode 高出 50%。 不過,對谷歌來說同樣重要的是,Gemini 顯然是一個更高效的模型。它是在谷歌自己的張量處理單元(Tensor Processing Units)上訓練出來的,運行速度比谷歌之前的 PaLM 等模型更快,成本也更低。在推出新模型的同時,谷歌還推出了新版 TPU 系統(tǒng)--TPU v5p,這是一款專為數(shù)據(jù)中心設計的計算系統(tǒng),用于訓練和運行大規(guī)模模型。
值得注意的是,Gemini 目前只有英語版本,其他語言版本將在未來陸續(xù)推出。但 Sundar Pichai 表示,該模型最終將集成到谷歌的搜索引擎、廣告產(chǎn)品、Chrome 瀏覽器等。
那么,由 ChatGPT 帶來的人工智能時代已經(jīng)持續(xù)了一年,此次谷歌發(fā)布 Gemini,能否代表著谷歌已經(jīng)迎頭趕上了呢?或者說,如今的谷歌能否重新站在人工智能行業(yè)的最高點呢?
附:谷歌及 Alphabet 首席執(zhí)行官 Sundar Pichai 發(fā)表的聲明:
技術的每一次變革都是科學發(fā)現(xiàn)、人類進步及生活改善的重要契機。我堅信,我們正在經(jīng)歷的人工智能(AI)轉型將是我們這一代人所經(jīng)歷的最深刻的變化,其影響遠超過之前的移動互聯(lián)網(wǎng)或網(wǎng)絡革命。AI不僅能夠為全球人民創(chuàng)造從日常到非凡的各種機會,還將在我們前所未見的規(guī)模上推動知識、學習、創(chuàng)造力和生產(chǎn)力的新浪潮。
這正是讓我興奮的地方:讓 AI 為全世界的每一個人帶來幫助。
作為一家把 AI 放在首位的公司,我們已經(jīng)走過了將近八年的征程。進步的步伐不僅沒有減緩,反而在加速:如今,數(shù)百萬人正在利用我們產(chǎn)品中的生成式 AI 完成去年還無法實現(xiàn)的事情,比如回答更復雜的問題、使用新工具進行合作和創(chuàng)新。與此同時,全球的開發(fā)者正利用我們的模型和基礎設施開發(fā)新的生成式 AI 應用,各種規(guī)模的初創(chuàng)公司和企業(yè)也在借助我們的 AI 工具實現(xiàn)增長。
這是不可思議的動力,但我們只是開始探索無限可能性。
我們正以大膽而負責任的態(tài)度進行這項工作。這意味著我們在研究中追求雄心勃勃的目標,開發(fā)能給人們和社會帶來巨大益處的技術,同時建立防護措施,并與政府和專家共同應對隨著 AI 能力增強而出現(xiàn)的風險。我們持續(xù)投入最優(yōu)秀的工具、基礎模型和基礎設施,以我們的 AI 原則為指導,不斷優(yōu)化我們的產(chǎn)品和服務。
現(xiàn)在,我們正邁出旅程的新一步,推出了 Gemini,這是我們迄今為止最先進、最通用的模型,它在多個領先基準測試中表現(xiàn)出色。我們的第一個版本 Gemini 1.0,針對不同規(guī)模進行了優(yōu)化,包括 Ultra、Pro 和 Nano。這些是我們進入 Gemini 時代的第一批模型,也是我們今年初成立 Google DeepMind 時愿景的第一次實現(xiàn)。這個新時代的模型代表了我們作為公司所進行的最大的科學和工程努力之一。我對即將到來的發(fā)展和 Gemini 為全球人民帶來的機遇感到無比激動。
– Sundar
參考鏈接:
https://blog.google/technology/ai/google-gemini-ai/#capabilitieshttps://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf