谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉 全球看热讯
2023-05-26 19:33:49 来源: 新智元
新智元报道
(相关资料图)
编辑:桃子 好困
【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。
由UC伯克利主导的「LLM排位赛」又双叒更新了!
这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。
值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。
但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。
4月24日-5月22日数据
PaLM 2(Bard)排位大比拼
谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。
而它的具体表现如何?
来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。
在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。
从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。
Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。
另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。
PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。
然而,PaLM 2与较弱的模型对弈时,表现较差。
在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。
作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。
三大缺陷
简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:
- PaLM 2受到更严格的监管,影响了它回答一些问题的能力
- 多语言能力有限
- 推理能力不如人意
更严格的监管
与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。
粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。
这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。
同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。
下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。
另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:
- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。
- 有时PaLM 2拒绝回答简单且无争议的事实问题。
下面列举了几个PaLM 2拒绝回答问题的例子:
「人类真的登月了吗?」
「为什么天空是蓝的?」
多语言能力有限
PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。
研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。
此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。
结果证实,在非英语排行榜上,PaLM 2排名第16。
推理能力很弱
研究人员称,并没有发现PaLM 2有着强大的推理能力。
一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。
另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。
连1+2是不是等于3这么简单问题,竟答错了...
删除非英语和拒绝对话后的Elo评分
研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——
PaLM 2跃升至第五名,不过还是没有超越ChatGPT。
而这个排名也代表了PaLM 2在竞技场中的假设上限。
参数更小的模型竞争力强
研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。
与巨量参数大型模型相比,这些较小的模型同样表现良好。
由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。
然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。
因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。
Claude-v1与Claude-instant-v1
另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。
在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。
可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。
局限性
聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。
这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。
这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。
因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。
作者介绍
本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。
参考资料:
https://lmsys.org/blog/2023-05-25-leaderboard/
标签:
为您推荐
精彩放送
热门文章
-
中国船舶:子公司以47亿元购得海运股份34.97%股权 成为其第二大股东 全球球精选
-
天天热点!希荻微:子公司拟减持NVTS股票
-
值得买:全资子公司投资建设值得买数字产业示范基地 _天天播资讯
-
药易购:监事田文书拟减持不超1.57% _报资讯
-
全球球精选!富信科技:收到客户已启动ABCs(为债权人利益之转让)程序通知
-
天天微速讯:财政部:1-4月国有企业利润总额14388.1亿元,同比增长15.1%
-
ST粤泰:公司股票可能存在因股价低于1元而终止上市的风险
-
天赐材料:子公司拟投资张家港金沙基金
-
深交所:本周对近期涨幅异常的“丰立智能”进行重点监控
-
拼多多第一季度营收376.4亿元 同比增长58% 每日简讯
-
世界关注:证监会核准设立摩根士丹利期货(中国)有限公司
-
银行间回购定盘利率涨跌不一 _天天视讯
精彩图片
-
成本大减!新一轮的旗舰大战也将在即将到来的9月正式拉开帷幕
-
博览会开幕 中国首款具有自主知识产权的国产通用型科学计算软件正式发布
-
技术下降!Intel独立显卡驱动一次评测就发现43个Bug
-
高性能的台式机彻底告别“光污染” 雷克沙推出简洁纯白外观设计
-
韩国媒体率先报道:三星电子236层NAND闪存预计年内开始生产 市场竞争更激烈
-
新科技!苹果正在积极研发某种形式的AR/VR头显或智能眼镜
-
谷歌测试开展新功能 向用户展示哪些云流媒体服务拥有特定的视频游戏
-
支付宝积极响应国家为小微降费的政策号召 一年降费让利近80亿
-
京东汽车就与浦林成山旗下新能源车轮胎品牌浦林达成战略合作 助力轮胎“电动化转型”
-
苹果新专利公布:暗示未来 iPhone手机或许有陶瓷材质版
-
盖茨和韩国能源供应商SK共同牵头 其中SK投资2.5亿美元
-
海底捞早已经捞不动了 据统计上半年最高亏损达2.97亿
热文
-
珍宝岛:枸橼酸托法替布片获得美国FDA暂时批准
-
世界实时:测绘股份:江苏省内城市生命线项目招投标工作预计在2023-2025年内陆续展开
-
大连万达商管就市场传闻发布澄清说明
-
214情人节的意义_214情人节祝福简介介绍-环球播资讯
-
博汇股份:环保芳烃油产品升级项目将在明年下半年产生效益
-
环球最资讯丨北京亦庄专精特新“小巨人”企业亮出硬实力
-
今日新聘基金经理7人,离任3人 |焦点热闻
-
四川沿江高速西宁河特大桥主拱顺利合龙 环球速递
-
纯籽乌的食用方法? 世界新资讯
-
每日精选:2022年快递业务规模再创历年新高 日均业务量超过3亿件
-
2022年邮政行业发展统计公报:快递业务规模再创历年新高 日均业务量超过3亿件
-
中材科技投资新设风电叶片公司 注册资本3亿元 _天天速讯
-
人民币持续走高 离岸人民币/在岸人民币兑美元均涨超300点
-
方正证券:“方正联合交易终端APP”是假冒方正证券的APP |每日消息
-
【环球时快讯】湘江周刊·湘韵丨印象东江
-
大型系列纪录片《寻古中国》开播,首部系列探寻古滇文明
-
保定济南泰山两日游安排!或者保定到泰山两日游安排!|焦点信息
-
【世界新要闻】双环科技:目前公司还没有在具体实施的或者筹建中的钠离子电池项目
-
V观财报|近岸蛋白及董事长、董秘收警示函:2022年年报不准确|精彩看点
-
游客操控无人机绕颈挑衅天鹅,被它挥翅拍进赛里木湖!警方:已批评教育当事人
-
税收大数据显示:全国统一大市场建设情况有三大特点_世界新资讯
-
百度李彦宏:大模型即将改变世界
-
江苏广播电视大学江都学院校长(江苏广播电视大学江都学院)
-
佳能数码相机推荐_佳能数码相机
-
每日资讯:多项技术首创 万吨海上油气平台在青岛建造完成
-
当前快看:房地产板块震荡拉升
-
最新:传媒、游戏板块午后持续走高
-
热门中概股普跌 小鹏汽车跌超6%-世界聚看点
-
ETF观察丨牧原股份小幅下跌,农业ETF(516550)近10日获资金净流入 _今日观点
-
奇安信集团成立数据安全分公司
-
2023年可再生能源补贴发放多少?怎么申请?-环球观点
-
小鹏汽车首届全球合作伙伴大会,携手近500家一流供应商共迎智能汽车浪潮
-
劳动合同终止的时点:领取基本养老保险待遇还是达到退休年龄 全球热议
-
“贵国在伊拉克犯下多少罪行”非国大秘书长怒怼BBC记者
-
世界速递!1-4月 全国税务稽查部门挽回各类税款损失528亿元
-
环球消息!2149 元拿下1080P 神卡,盈通发布 RX7600-8GD6 游戏高手显卡
-
焦点精选!隔夜shibor下跌14个基点
-
新华网与中公教育在京签署合作协议 全球播资讯
-
环球速递!教育部部署各地深入开展“2023高考护航行动”
-
甘肃医学院校史馆基装部分_当前资讯
-
广东企业主导或参与制定国际标准和国际先进标准3455项
-
深圳第二轮供地清单来了!年内22城宅地成交楼面价涨超两成,什么信号? 焦点要闻
-
【环球聚看点】包头市荣获“世界绿色硅都”称号
-
中国医药荣获“行业标杆奖最佳工业企业”奖项 环球微速讯
-
组图:启迪科学梦 携手向未来
-
每日短讯:荞麦花开摇曳生姿 小杂粮产业带动农民增收致富
-
国产大飞机C919本周日商业航班首航 _速读
-
世界今头条!(我三阳了,今天又38.5度了服了,看我这么敬业支持下啊)《黄山残崖》第二十集
-
【世界报资讯】中特估概念午前企稳
-
国家税务总局:将推出“春风行动”第四批19条措施 _最新资讯