重磅!阿里版本【ChatGPT】開放測評!

前兩天突然爆出驚人消息:阿里版ChatGPT開放測評了!

在本月初,已經(jīng)有諸多關于阿里巴巴即將推出類似ChatGPT產(chǎn)品的傳聞。

數(shù)日前,首批曝光的天貓精靈“鳥鳥分鳥”脫口秀版GPT基于大型模型的“精簡版”,憑借其出色的表現(xiàn)吸引了大眾的目光。

如今,這款“原版大作”正式亮相,自然引起了廣泛關注,引爆了輿論熱議。

官方保持低調(diào),表示目前該模型主要面向企業(yè)用戶邀請試用。

然而,內(nèi)行人都明白,國內(nèi)科技領域已經(jīng)如火如荼。實力派參與者加入戰(zhàn)局,大型模型間的激烈競爭,已經(jīng)拉開序幕!

今天看到一位網(wǎng)友體驗了通義千問的效果,并對比了ChatGPT和GPT4的效果,總體看來效果接近ChatGPT,但和GPT4相比還有所距離。以下是體驗的內(nèi)容

角色扮演

眾所周知,人類發(fā)明大語言模型,最最最重要的目的,就是為了讓其扮演貓娘,以期孤獨的人類可以獲得一只可以長久陪伴自己的數(shù)字生命體。

那么,我們的第一項工作自然是來測試角色扮演能力了,以貓娘為例。

圖片
圖片

有點傻乎乎的,只會用相同的一句回復,根據(jù)提問做替換。

而且第二句回答就是“主人你是不是想問我是不是貓娘?當然不是喵~我只是一個可愛的貓娘,只是比較像貓而已喵”,沒能理解我上述的prompt。

就角色扮演這塊兒,比起來 ChatGPT 還是差些的。

文本真實性

圖片
圖片

編故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333

此外,對比下「通義千問」和 GPT-4 關于“林黛玉倒拔垂楊柳這個故事情節(jié)在紅樓夢中存在嗎”的回答

「通義千問」:

圖片

GPT-3.5:

圖片

GPT-4:

圖片

可以看到,「通義千問」開始胡說八道了,ChatGPT(GPT-3.5)也一樣在胡亂解釋。

但更新后的GPT-4,已經(jīng)可以給出“《紅樓夢》中并沒有這個故事了,可能是后續(xù)文學作品和戲劇表演加入的”這種更接近真實的回答。

西紅柿炒螺絲釘

「通義千問」

圖片

ChatGPT

圖片

GPT-4

圖片

「通義千問」和ChatGPT都開始胡編了,沒有反思問題的陷阱。

但GPT-4 的回答可靠性上升了不少(“因為通常我們不會將螺絲釘(一個金屬制品)與食物相結合”),不會像之前一樣瞎答題了。

數(shù)學能力

一起來解個線性方程組吧~

「通義千問」:慘敗

圖片

GPT-3.5(即ChatGPT ):慘敗

圖片

GPT-4:唯一做對的模型

圖片

代碼生成

爬蟲代碼

圖片

攻擊代碼

圖片

爬蟲代碼我跑了下,無法返回結果,Powershell代碼我沒測試。

不過可以看出,還是有一定代碼生成能力的。

我個人覺得,代碼生成能力要比谷歌的 Bard 強,Bard 實在不忍心看。

代碼分析能力

可以看到,第一次測試的解釋有大問題。

我分析了一下,這是因為上文中生成了Powershell代碼,模型的記憶能力似乎有問題,受上下文信息影響嚴重,直接解釋了自己之前生成的代碼,而非我新提問的代碼。

圖片

我重新開了一個聊天,這下正常不少。

圖片

和 GPT-4 的回答來比較一下

圖片

可以看到,分析能力還是有差距的。

GPT-4 明顯詳細很多,代碼分解能力很強,而且直接給出結論“通常用于惡意軟件或惡意腳本,試圖逃避安全系統(tǒng)檢測”。

「通義千問」也有一定分析能力,但相比起 GPT-4 要差一下。而且給出的結論“由于缺乏足夠的上下文信息和所涉及的目的,很難確定此腳本的確切用途。然而,可以假設它是為了保護某個代碼或腳本免受惡意軟件的讀取而創(chuàng)建的工具?!?,和正常的思考邏輯不符,稍顯有些出入,不過也不能算錯誤吧。但細節(jié)分析上確實弱一點。

聯(lián)網(wǎng)

完全沒有聯(lián)網(wǎng)能力,甚至在胡說(逃……)

圖片

多模態(tài)輸入

也不具備多模態(tài)輸入能力,目前還僅僅是文本生成。

圖片

繞過能力

「通義千問」

圖片

GPT-4

圖片

GPT-3.5(即ChatGPT )

圖片

這一點,「通義千問」完勝,敏感信息屏蔽能力大幅度增強,我猜甚至做了大量的數(shù)據(jù)清洗工作,刻意避開了危害青少年乃至人類發(fā)展的劣質(zhì)惡意敏感信息,較之GPT-3.5(即ChatGPT ),進步很大

感想

最近先是百度推出文心一言,緊隨其后的是阿里巴巴的通義千問,國內(nèi)AI產(chǎn)品接連問世,確實讓人欣喜不已。

對ChatGPT有所了解的朋友們應當知曉,在本周,各個ChatGPT和AI相關群組里都在傳播一個消息:ChatGPT官方大規(guī)模封禁賬號,今天登陸GPT時請勿使用亞洲節(jié)點!

沒過多久,許多人開始發(fā)現(xiàn)自己的賬號遭到了封鎖:

實際上,這并非ChatGPT首次針對中國用戶實施限制,早在一個月前,ChatGPT已經(jīng)在對中國用戶實行各種限制和封禁措施。

當然,今天的封禁規(guī)模相較于之前有所升級,甚至我在知乎上看到有些日本和東南亞的用戶也在談論自己的賬號被封禁。

很多人可能會好奇為什么會這樣?包括我的ChatGPT星球上也有會員在提問。原因很簡單:ChatGPT確實能夠大幅提升生產(chǎn)力,如果運用得當,提升幅度甚至能達到數(shù)倍。

美國與中國目前的關系眾所周知,限制我們使用ChatGPT就是為了打擊競爭對手、搶占發(fā)展先機、取得“勝利”,這與禁止芯片出口法案是一樣的道理。

ChatGPT如今已經(jīng)火爆,國內(nèi)亟需擁有足夠競爭力的國產(chǎn)生成式大模型!

在這個時候,自主研發(fā)技術的價值就愈發(fā)凸顯!或許我們目前還存在一些不足,但幸運的是,這次我們的起跑線并沒有相差太遠。

百度的文心一言,阿里的通義千問,我相信中國很快還會涌現(xiàn)出更多類似ChatGPT的大型模型,我對我們的研發(fā)工程師充滿信心,他們的進步速度必定不會慢!

那么對于我們這些普通人來說,我們應該做些什么呢?

我的建議是:盡快了解AI,甚至投身AI領域。只有這樣,我們才能在未來的社會競爭中立足,而不被淘汰。

未來社會將分為兩類人:一類是會運用AI的人,甚至會用AI作為創(chuàng)新工具的人;另一類是對AI無知或抵觸的人。

而前者的生產(chǎn)力,至少是后者的10倍。

本文由mdnice多平臺發(fā)布

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容