综合 > 正文

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉全球看热讯

2023-05-26 19:33:49 来源：新智元

新智元报道

(相关资料图)

编辑：桃子好困

【新智元导读】这次「LLM排位赛」，谷歌PaLM 2也被拉上溜了溜。然而，实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了！

这次，最新榜单又迎来新的玩家，PaLM 2（也是就Bard）、Claude-instant-v1，MosaicML MPT-7B，以及Vicuna-7B。

值得一提的是，即便是平价版的Claude模型，Elo得分也赶超了ChatGPT。

但有一位选手的表现，却出乎意料得拉跨——谷歌PaLM 2屈居第六，排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2（Bard）排位大比拼

谷歌PaLM 2发布以来，根据论文的测试，其部分性能已经超过了GPT-4。

而它的具体表现如何？

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口，将PaLM 2添加到Chatbot Arena，并以代码名为chat-bison@001进行聊天调优。

在过去的两周，PaLM 2已经与16个聊天机器人，进行了大约1800次的匿名比拼，目前排名第六。

从排行榜中可以看出，PaLM 2的排名高于所有其他开源聊天机器人，除了Vicuna-13B。

Vicuna-13B的ELO评分，比PaLM 2高出12分（Vicuna 1054 vs. PaLM 2 1042）。就ELO等级而言，这几乎是个平局。

另外，研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好，即GPT-4，Claude-v1，ChatGPT，Claude-moment-v1。而且，它与Vicuna的比赛中也赢了53%的比赛。

然而，PaLM 2与较弱的模型对弈时，表现较差。

在PaLM 2参加的所有比赛中，有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考，GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之，研究人员发现，与评估过的其他模型相比，Google Cloud Vertex API现有的PaLM 2存在以下缺陷：

- PaLM 2受到更严格的监管，影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中，PaLM 2遇到不确定或不愿回答的问题时，与其他模型相比，更有可能放弃回答。

粗略估计，在所有的配对战中，PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是，有30.8%比赛输给了不是Top 4的模型。

这也能够解释，为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时，也反映出聊天机器人竞技场方法论的一个缺陷，因为随意用户更有可能因为微妙的不准确回答，而惩罚弃权行为。

下面，研究者提供几个失败的案例，说明PaLM 2如何输给弱聊天机器人。

另外，研究者注意到，有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中，看到了一些不受欢迎的趋势：

- PaLM 2拒绝许多角色扮演问题，即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗？」

「为什么天空是蓝的？」

多语言能力有限

PaLM 2倾向于不回答非英语问题，包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称，无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外，UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实，在非英语排行榜上，PaLM 2排名第16。

推理能力很弱

研究人员称，并没有发现PaLM 2有着强大的推理能力。

一方面，它似乎可以检测问题是否是「纯文本」的，并且倾向于拒绝回答不是纯文本的问题，例如编程语言、调试和代码解释中的问题。

另一方面，与其他聊天机器人相比，PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题，竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话，并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名，不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上排名还相对靠前。

与巨量参数大型模型相比，这些较小的模型同样表现良好。

由此，研究人员推测，高质量的预训练，以及微调数据集比模型规模更重要。

然而，较大的模型在更复杂的推理任务，或回答更细微的问题时仍有可能表现得更好。

因此，在预训练和微调阶段管理高质量的数据集，似乎是缩小模型规模的同时，保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外，Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中，Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo（1153 vs.1143）。

可以看到，Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM（Large Language Model）的聊天机器人进行「真实环境」的基准测试。

这意味着，用户提供的投票数据和在投票过程中生成的提示-回答，反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符，后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此，目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang，Lianmin Zheng，Wei-Lin Chiang，Ying Sheng和Ion Stoica完成。

参考资料：

https://lmsys.org/blog/2023-05-25-leaderboard/

标签：

为您推荐

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉全球看热讯

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉全球看热讯

高考倒计时，家长如何缓解教育焦虑环球微资讯

高考倒计时，家长如何缓解教育焦虑环球微资讯

初夏时节忙插秧延吉3.61万亩稻田染新绿

初夏时节忙插秧延吉3.61万亩稻田染新绿

天天讯息：三角形车标是什么车多少钱_三角形车标是什么汽车？

天天讯息：三角形车标是什么车多少钱_三角形车标是什么汽车？

天津市第二届大学生心理音乐歌舞创作大赛圆满落幕

天津市第二届大学生心理音乐歌舞创作大赛圆满落幕

大盘探底回升，科创50上涨近1%，科技股有望成为反弹先锋环球今日报

大盘探底回升，科创50上涨近1%，科技股有望成为反弹先锋环球今日报

环球最资讯丨北京亦庄专精特新“小巨人”企业亮出硬实力

环球最资讯丨北京亦庄专精特新“小巨人”企业亮出硬实力

佳能数码相机推荐_佳能数码相机

佳能数码相机推荐_佳能数码相机

热门中概股普跌小鹏汽车跌超6%-世界聚看点

热门中概股普跌小鹏汽车跌超6%-世界聚看点

环球消息！2149 元拿下1080P 神卡，盈通发布 RX7600-8GD6 游戏高手显卡

环球消息！2149 元拿下1080P 神卡，盈通发布 RX7600-8GD6 游戏高手显卡

【环球聚看点】包头市荣获“世界绿色硅都”称号

【环球聚看点】包头市荣获“世界绿色硅都”称号

全球热门:“入局”行业军团一周年看联通如何锤炼“独门绝技”

全球热门:“入局”行业军团一周年看联通如何锤炼“独门绝技”

环球看热讯：外观潮酷还有移动“表情包” 五菱悦也售7.98万起

环球看热讯：外观潮酷还有移动“表情包” 五菱悦也售7.98万起

世界快报:金汇得手：黄金延续跌势　　1948日内多空分水

世界快报:金汇得手：黄金延续跌势　　1948日内多空分水

素花菜的12种吃法?

素花菜的12种吃法?

精彩放送

全球球精选！富信科技：收到客户已启动ABCs（为债权人利益之转让）程序通知

值得买：全资子公司投资建设值得买数字产业示范基地 _天天播资讯

江西省教育考试院致全省2023年普通高考考生的公开信

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉全球看热讯

中国船舶：子公司以47亿元购得海运股份34.97%股权成为其第二大股东全球球精选

天天热点！希荻微：子公司拟减持NVTS股票

药易购：监事田文书拟减持不超1.57% _报资讯

商务部盛秋平：中国开放大门越开越大不少外企在华实现双赢天天微资讯

《刺客信条：幻景》豪华版宣传片公开支持Ubisoft+_当前时讯

高考倒计时，家长如何缓解教育焦虑环球微资讯

财政部：1-4月国有企业利润总额14388.1亿元同比增长15.1%

深交所：本周对近期涨幅异常的“丰立智能”进行重点监控

拼多多第一季度营收376.4亿元同比增长58% 每日简讯

ST粤泰：公司股票可能存在因股价低于1元而终止上市的风险

天天微速讯：财政部：1-4月国有企业利润总额14388.1亿元，同比增长15.1%

天赐材料：子公司拟投资张家港金沙基金

工银尊享短债基金分红世界视讯

最资讯丨剑南春新品重磅首发，千亿高端白酒市场新变量？

喝酸奶可改善抑郁？娃哈哈相关专利获授权世界播资讯

37万元/个重庆互邦公司75个出租车经营权指标拍出2775万元-天天最资讯

全球快播：简单的婴儿毛毯钩针编织_送8岁儿子生日礼物送什么好

环球视讯！就业夜市荐工作公益岗位兜底线

华东重机：与新加坡国际港务集团签署采购框架协议全球播资讯

三年级作文百合花我的植物朋友百合花_我的植物朋友百合花作文三年级300字

银行间回购定盘利率涨跌不一 _天天视讯

焦点热讯:Chinese city lures talent and firms with lavish perks

【世界独家】理财公司投资周期为2年的纯固收公募产品近6月收益排名榜单（截至5月21日）

世界关注：证监会核准设立摩根士丹利期货（中国）有限公司

全球快播：昆仑万维旗下Opera推出浏览器生成式AI服务Aria

初夏时节忙插秧延吉3.61万亩稻田染新绿

“国家科技计划成果路演行动——中关村专场路演活动”5月27日启动世界独家

山东农民钻研棚菜种植近30年带领村民“突围”致富

泰拉瑞亚瓶中精灵图片_泰拉瑞亚瓶中精灵

天天快看：国家外汇管理局：4月中国外汇市场总计成交20.14万亿元人民币

花瓶、手镯、碗碟……“中国生漆之乡”300余件精美漆艺产品亮相|全球最新

天天讯息：三角形车标是什么车多少钱_三角形车标是什么汽车？

焦点速讯：碧龙潭冰川石大峡谷漂流（关于碧龙潭冰川石大峡谷漂流介绍）

天津市第二届大学生心理音乐歌舞创作大赛圆满落幕

如何查四六级准考证号码查询（如何查四六级准考证号）|热点评

天天短讯！水利部：组建水网建设运营实体积极探索投建管运一体化的建设管理模式

*ST宏图：公司股票可能被终止上市焦点播报

华福证券拟引入多家战略投资者持股比例合计不超过20%

震有科技：公司10GPON产品目前已进入量产阶段 |天天热门

天天即时：斯迪克：未来公司将重点发展新能源相关业务

大盘探底回升，科创50上涨近1%，科技股有望成为反弹先锋环球今日报

邵曙光：让老百姓喝放心茶茶产业升级仍待突破瓶颈

环球热资讯！为学子量身定制！5月26日济南公交优化K172路部分路线

世界快看点丨荷兰队阵容2019_荷兰队阵容2021

天天速看：国家发改委：提升调度智能化水平实现物理水网和数字水网深度交互融合

每日热点：【竞价寻龙】26日竞价成交量暴涨股抢先看

热门文章

精彩图片

热文

财经汽车房产关注旅游科技 IT 要闻国内国际数据人物热点综合看资讯热点财经

关于我们| 联系我们| 投稿合作| 法律声明| 广告投放

版权所有_©2021 国际产经网

所载文章、数据仅供参考，使用前务请仔细阅读网站声明。本站不作任何非法律允许范围内服务！

联系我们:563 939 7@qq.com