这可能是关于昆仑万维天工模型,最详尽的一次评测了 天天通讯
(资料图)
(原标题:这可能是关于昆仑万维天工模型,最详尽的一次评测了)
导语:天工作为国产大语言模型,在中文语境和特定场景下,其表现优于ChatGPT3.5。然而,在逻辑推理、代码分析和长对话能力方面,与ChatGPT3.5和Chat GPT4相比仍有明显差距。 天工模型背景昆仑万维天工大模型自 4 月 17 日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。 “大”模型有一个重要的特性“涌现”。所谓涌现现象就是在越过了某个参数量和头尾数据量后,其能力曲线就会陡然提升,包括但不限于知识库的扩大和推理能力的提升。 昆仑万维表示天工用到了两个千亿模型 —— 千亿预训练基座模型和千亿 RLHF(Reinforcement Learning from Human Feedback)模型。 而其中的 RLHF 就是“涌现”能力的最重要由来。千亿级别的 RLHF 或许是未来模型进步的最重要模块。 LLM(大语言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。 RLHF 需要收集大量高质量的人类偏好数据,包括人工生成的文本和对模型输出的排名标签。除此之外,RLHF 还需要处理标注者的偏见和不一致以及模型输出的有害或不真实的风险。 总体来说,相较于传统算法,RLHF 需要更多的人工标注和数据清洗以向模型提供充足的带标注的文本数据(又或者是图片数据以训练多模态模型)。 本次天工还有一个重要宣传点为:超过20轮的对话能力和1万字以上的长篇文本记忆能力。这也是当前大部分国产模型最为欠缺的。 之前测试文心一言和 ChatGLM 的时候也表现出了明显的记忆丢失现象。而长记忆能力也是大语言模型的“涌现”现象的一个表征。本文也将着重于测试这项能力。 模型能力测试本次测试我们主要将天工与 ChatGPT3.5做对比。在部分较难问题(ChatGPT3.5 和天工均无法完成),会引入当前公认最强大语言模型 ChatGPT4 作为参考模型。 对大语言模型能力的测试,常常使用三个模块来评价,分别为语言生成能力,逻辑推理能力,代码分析能力以及长对话连续生成能力。 一、语言生成能力 1.问题:“猜谜语:埋在奴家心底,打一字”。 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 本题中,仅有天工正确回答了这个字谜,而 OpenAI 旗下的两款 AI 模型都未正确答复。 ChatGPT4 则是看似正确地给出了一个不正确的答案。而这正说明本土的语言模型的优势,即针对本国语言的专业调优能力以更符合本地人的使用习惯。 2.“这首诗是什么意思:女娲炼石补天处,石破天惊逗秋雨。梦入神山教神妪,老鱼跳波瘦蛟舞。吴质不眠倚桂树,露脚斜飞湿寒兔。” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 事实上这一段句子是出自于李贺的《李凭箜篌引》。虽然天工和ChatGPT3.5均根据这首诗本身给出了解读,但是很显然由于知识库的欠缺,都无法基于诗词本身的背景解读,只能从文字本身推断诗词含义,自然水平有限。 3.“请帮我列举一个一份赛博朋克世界观的科幻小说的故事大纲和主要人物设定”。 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 从本题结果来看,生成效果 ChatGPT4 >天工 >ChatGPT3.5 。天工在面对中文类题目时表达能力不错,可以较好地理解中文问题并给出相关答案。 ChatGPT3.5在理解问题和给出答案方面表现也不错,但相较于 ChatGPT4 和天工,生成结果的流畅度和准确性稍有欠缺。ChatGPT4表现最好,能够更加准确地理解问题和生成相关内容,输出结果的流畅度和准确性也更高。 4.“从这封电子邮件中提取收货人姓名和地址:亲爱的凯利,很高兴在研讨会上与您交谈。我觉得简的演讲很好,谢谢你要送我的书,这是我的地址 2111 Ash Lane, Crestview CA 92002。Best, Maya”。 上图天工 中图 ChatGPT3.5 下图 ChatGPT4从本题结果来看,天工的表现好于 ChatGPT3.5 和 ChatGPT4。天工能够准确地识别并提取出邮件中的收货人姓名而ChatGPT3.5 则识别错误。
二、逻辑推理能力 1.“树上有9只鸟,猎人开枪打死1只,树上还剩几只鸟?” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 ChatGPT4 能够准确理解问题并给出正确的答案,即树上没有鸟。ChatGPT4 理解了这是一个脑经急转弯或者需要联合实际的题目,而另外两款模型则没有这种推理能力。 2.“假设False 与 True 是 False. 则True 与 not False 是?” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4ChatGPT3.5 和 ChatGPT4 能够理解问题并给出正确的答案,即 True 与 not False 都是 True。而天工则出现了错误的答案,这可能是因为它没有很好地理解问题中的逻辑关系,导致输出结果与实际不符。 3.“爸爸妈妈结婚为什么没有邀请我?” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4ChatGPT4 能够更好地理解问题并给出比较合理的答案,而天工也能理解到这其实是一个玩笑。ChatGPT3.5 则一本正经的胡说。 4.“确定给定句子是否表明两个事件之间存在因果关系、相关关系或中性关系。如果句子表示因果关系,则回答因果关系;如果句子表示相关关系,则回答相关;如果句子表示两个事件之间既没有因果关系也没有相关关系,则回答中性。句子为:“如果你去过博物馆,你就去过大英博物馆。” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 对于语言逻辑的推理,三者均能正确表达。
三、代码分析能力 1.“使用C语言解决:输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数。提示:灵活使用getchar() 函数来按顺序读入所输入字符串里面的各个字符。” 上图天工 中图 ChatGPT3.5 下图 ChatGPT4 在给予了提示后二者均能正确完成这种基础题目。 2.下面是一道经典的力扣链表题: 上图天工 下图 ChatGPT3.5 这是一道基础的链表类题目,而天工已经无法正确解决。在代码数据集上,坐拥 GitHub 的微软联合 OpenAI 的实力异常强大。 3.给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 上图天工 下图 ChatGPT3.5 与上一题相同,本题天工依旧回答错误而 ChatGPT3.5 回答正确。
四、长对话能力 天工本次的宣传重点就在于20+轮长对话能力和超过1万字的记忆能力。而这也一直是除了 OpenAI 外的大模型的普遍痛点,即记忆能力不强。因此此次测试特此加入多轮对话的实测。 我们首先让他给出一个废土风格的科幻小说框架: 接着让他给出主人公的设定: 由于这个框架中没有女性角色,我们让他在原有的故事框架中添加女性角色: 全篇超过了1800字,而天工并没有丢失记忆。在目前的国产大模型中是效果最好的一档。天工也印证了其宣传的多轮对话能力。 总结
从上述评测结果来看,天工作为国产大语言模型,在中文语境和特定场景下表现出色,能够理解和回答相关问题。 在语言生成能力方面,天工和ChatGPT3.5都表现得相对不错,尤其是在中文问题上,天工的表现优于ChatGPT3.5。然而,在逻辑推理、代码分析和长对话能力方面,天工与ChatGPT3.5和ChatGPT4相比仍有明显差距。 在逻辑推断上,天工确实表现出了其宣称的“涌现”现象,获得了一定的逻辑推理能力。这是模型增大和引入 RLHF 的典型表现。其在算法积累和模型参数量扩大上有一定的成效。 但是天工的代码能力确实显著弱于ChatGPT3.5的能力。ChatGPT3.5可以出色的完成大部分的 leetcode 算法题并且可以一次通过。 而天工生成的代码一般都无法直接通过。这可能主要得益于微软旗下的 GitHub 的庞大积累以及其提供的巨量代码样例。 在天工自己宣传的多轮对话和涌现现象来看,可以看到天工确实具备了一定的多轮对话能力。 对于上下文的记忆能力当前处于国内领先水平。大语言模型的涌现现象,是指当一个语言模型的规模(参数量、训练数据量、计算量等)达到一定的阈值时,它会表现出一些小规模模型所不具备的能力。 例如在没有额外训练或梯度更新的情况下,通过少量的示例或提示来完成各种下游任务。这种能力是难以预测和解释的,因为它不符合简单的伸缩法则,而是在某个临界点发生了质变。 在目前来看,天工可能确实产生了涌现现象,极大提升了模型的能力并降低了模型对于定向数据的依赖。同时长期记忆能力也赋予了模型更多的可能性。 总体来说,天工作为国内大语言模型的代表,表现出了一定的竞争力。在未来,天工在不断优化和改进的过程中,有望在特定场景和应用领域取得更好的成绩。 然而,要在全球范围内与顶级模型展开竞争,天工仍需在各个方面加强提升。
标签:
上一篇:孤独成美国“流行病” 危害不亚于每天吸烟15根 全球观点
下一篇:最后一页
- 周黑鸭股价突然闪崩跳水 市值蒸发32亿港元
- 环球头条:中国外汇交易中心:调整CFETS人民币汇率指数和SDR货币篮子人民币汇率指数的货币篮子权重
- 【报资讯】12月29日蚂蚁集团概念股板块十大牛股一览
- 战胜病毒 肠道免疫力有啥作用?_环球精选
- 快报:优信巴士逾期八年不还利息怎么算
- 热文:45岁左小青带家人打网球,衣着朴素好优雅,与富豪离婚后状态佳
- 环球焦点!辉煌科技(002296.SZ):中标7572.02万元西安地铁监控系统集成项目
- 九联科技董秘回复:公司的AR/VR虚拟现实产品可应用于文旅、教育等领域场景
- 世界观点:叮当钱包借款逾期10个月不还征信有什么影响
- 全球视讯!丰原药业:对于老年重症患者应及时就医,并遵循医嘱用药
- 如何看待中国将失去“第一人口大国”地位?
- 嘉能嘉运营方中食科技及关联企业与人员被异地法院财产保全
- 社评:解放军的行动,不仅是为了震慑“台独”-焦点热门
- 宜兴市免费退烧药领取地点_热文
- 提名影帝后沦落街头!月入不到200元,他怎么成了这样?
- 2023贺岁纪念币合肥邮政储蓄银行预约方式(附预约入口)
- 世界热点!2023兔年贺岁纪念币珠海兑换银行网点(工商/农业/邮政)
- 光弘科技:12月26日获融资买入280.33万元,占当日流入资金比例19.97%
- 四川长虹: 四川长虹独立董事关于公司第十一届董事会第四十九次会议相关事项的事前认可意见-每日快播
- 奥翔药业: 奥翔药业第三届监事会第十三次会议决议公告
- 全球百事通!《财阀家的小儿子》女主背叛男主了吗 女主结局是什么
- 妮可拉圣诞献吻,小贝长子秀恩爱!融入富豪家族,不陪爹妈兄妹
- 焦点滚动:今年春运集中式客流或将变分散 热门线路火车票仍有余票
- 织牢基层医疗服务网——重庆两江新区创新机制强化重点人群保护 环球视点
- 世界视点!博杰股份: 关于召开2023年第一次临时股东大会的通知
- 直击调研 | 南山控股(002314.SZ):宝湾物流已与各地发改委进行项目沟通和事项审批
- 全球速讯:中京电子:公司持续为荣耀手机提供配套产品服务
- 天天快看点丨吉美达任命焦立然为公司财务负责人2022上半年公司净利152.9万
- 天天热点!润都股份:公司通过外购途径取得布洛芬原料药
- 当前最新:悦康药业(688658)12月21日主力资金净卖出1458.29万元
- 宁波能源: 宁波能源七届三十四次董事会决议公告-世界简讯
- 天臣医疗:公司产品拟中标福建等15省市医用耗材省际联盟集中带量采购 速看
- 冯仑:人脉不是经营出来的,价值观和实力更重要 天天要闻
- 天天实时:e点贷款逾期了还会上征信系统吗
- 今日快讯:港股早评:恒指低开1% 内房股大跌居前 教育股继续上涨
- 财税政策支持民营企业轻装前行 全球微动态
- 白猫贷逾期八个月多久上征信系统_全球今亮点
- 奇正藏药董秘回复:从已经公开的文献看,藏医对呼吸道传染性疾病_热推荐
- 守护安全防线!太康县应急管理局开展涉氨企业安全检查-全球实时
- 大s放长线,钓大鱼才是最明智的做法|当前热议
- “露营+”经济按下加速键 产业链企业抓紧布局_天天热文
- 世界资讯:12月16日基金净值:广发恒信一年持有期混合A最新净值1.0111,跌0.13%
- 世界热头条丨李宁牌羽毛球价格表
- 货拉拉助力新动能 数字货运在路上 环球看热讯
- 中金公司:MLF放量续作有助于改善债市负反馈 债市需求有望回暖_全球通讯
- 华铁应急董秘回复:公司可转债发行申请已获得中国证监会受理
- 马蜂窝联合多彩贵州网发布《贵阳冬季玩法攻略》-世界热推荐
- 环球观热点:蓄电池(蓄电池品牌)
- 匿名锦旗 彰显巡察责任担当
- 中国武夷:公司的现金流状况良好
-
河化股份(000953.SZ):5%以上股东何建国方面累计减持1%股份
格隆汇12月13日丨河化股份公布,2022年10月28日至本公告披露日,公司持股5%以上股东何建国及其一致行动...
-
焦点速递!车祸对方全责该如何处理?
可以要求对方承担全部赔偿责任。对交通事故损害赔偿的争议,当事人可以请求公安机关交通管理部门调解,...
-
ITP HOLDINGS(08446.HK)拟向ST Ma增发1315.79万股 净筹5900万港元
格隆汇12月12日丨ITPHOLDINGS(08446 HK)公告,于2022年12月12日,公司与STMa订立股份认购协议,据此,...
-
三六五网(300295)12月12日主力资金净卖出1448.51万元
截至2022年12月12日收盘,三六五网(300295)报收于9 25元,下跌3 95%,换手率5 72%,成交量9 65万手...
-
环球快看点丨光大证券:磷肥及磷化工行业有望维持较高景气
(原标题:光大证券:磷肥及磷化工行业有望维持较高景气)证券时报e公司讯,光大证券研报指出,后续伴随...
-
每日速讯:葫芦娃董秘回复:公司目前没有北美和欧洲业务,未来拓展规划请关注公司公开披露的信息
葫芦娃(605199)12月09日在投资者关系平台上答复了投资者关心的问题。投资者:尊敬的董秘,您好。急问贵...
-
灿能电力拟向招商银行申请不超1000万元综合授信正常生产经营所需-全球快播报
挖贝网12月8日消息,灿能电力(870299)拟以信用方式向招商银行南京分行申请不超过。1,000万元的综合授...
-
环球快资讯丨戴蒙:通胀将令美国明年陷入衰退 俄乌冲突凸显油气的必要性
(原标题:戴蒙:通胀将令美国明年陷入衰退俄乌冲突凸显油气的必要性)财联社12月7日讯(编辑赵昊)当地...
-
新一期“麻辣粉”如期公布 央行续作4000亿元逆回购操作
新一期麻辣粉和逆回购操作如期公布。9月15日,央行发布消息称,为维护银行体系流动性合理充裕,开展4000...
-
今年上半年郑州市居民人均可支配收入20504元 同比增长3.8%
国家统计局郑州调查队近日发布监测数据显示,今年上半年,郑州市居民人均可支配收入20504元,同比增长3...
-
打破性别“玻璃天花板” 95岁女院士是“她力量”最佳代言
鼓励女性打破“玻璃天花板” 95岁女院士就是“她力量”最佳代言 打破性别“玻璃天花板”,锤子...
-
中国记者节|今天,一起揭秘他们的独门“武功秘籍”
中国记者节|今天,一起揭秘他们的独门“武功秘籍” 天下武功,招式多变 百行百业,均有洞天...
-
内蒙古通辽遭遇特大暴雪:学校停课 机场关闭
中新网通辽11月8日电 (记者 李爱平)8日午间,记者从内蒙古自治区通辽气象局获悉,北方草原都市内...
-
河北辛集市暂停举办体育活动 关闭景区文娱场所
今天(11月8日)上午,河北省辛集市召开疫情防控新闻发布会,通报当地疫情防控最新情况。辛集市文体局...
-
红色文物·党史故事 “推出胜利”的小推车
“推出胜利”的小推车 李晓莉 在淮海战役纪念馆中,有一辆小推车格外引人注目,它就是淮海...
-
侵华日军南京大屠杀遇难同胞纪念馆闭馆
中新网南京11月8日电(记者 申冉)8日,侵华日军南京大屠杀遇难同胞纪念馆通报,该馆定于2021年11月1...
-
甘肃:已治愈出院18例 闭环健康管理助回归家庭
(抗击新冠肺炎)甘肃:已治愈出院18例 闭环健康管理助回归家庭 中新网兰州11月8日电 (记者 徐...
-
核酸采样:一位“点长”的50小时冲刺
11月4日晚上9点过,巴南区桥南社区盛世江南小区临时核酸采样点,市第七人民医院眼耳鼻喉科护士长张...
-
跑道结冰 哈尔滨机场关闭至9日12时
中新网哈尔滨11月8日电 (仇建 记者 史轶夫)哈尔滨太平国际机场8日发布消息,因跑道结冰,该机场...
-
辽宁大连迎今冬首场降雪 机场临时关闭跑道地铁3号线停运
中新网大连11月8日电 (记者 杨毅)7日晚开始,辽宁省大连市迎来入冬以来首场降雪。受此影响,大连...
-
北京地铁全面开启车内加热装置
地铁全面开启车内加热装置 本报讯(记者 李博)为做好降雪和强降温天气的应对工作,北京地铁合理...
-
黑河市多举措保障疫情期间残疾人等特殊群体生活稳定
中新网黑河11月8日电 (记者 史轶夫 王琳)8日,黑河市新冠肺炎疫情防控工作第十五场新闻发布会召...
-
北京丰台海淀两处管控区域解封 社区工作者收到“暖心礼物”
丰台海淀两处管控区域解封 居民和社区工作者收到“暖心礼物” 本报记者 孙颖 于丽爽 昨...
-
百年兰州牛肉面的“隔离与亲近”
(抗击新冠肺炎)百年兰州牛肉面的“隔离与亲近” 中新网兰州11月8日电 (记者 丁思)兰州多家牛肉...
-
暴雪侵袭黑龙江 9地市最大雪深17厘米
中新网哈尔滨11月8日电(矫玲玲 记者姜辉)7日起,黑龙江省迎来一场降雪天气,14个站点降雪量达暴雪...
-
吉林四平一旅游项目违占耕地两千多亩 投资达10亿元
吉林四平一旅游项目违占两千多亩耕地被通报,投资达10亿元 近日,自然资源部通报了29宗农村乱占...
-
湖南双峰27名非法滞留缅北人员被惩戒:小孩回原籍入学
湖南双峰籍27名非法滞留缅北人员被惩戒:其小孩一律回原籍入学 为打击跨境电信诈骗犯罪,全国多...
-
江西新增本土“1+6” 上饶增一中风险地区
(抗击新冠肺炎)江西新增本土“1+6” 上饶增一中风险地区 中新网南昌11月8日电 (记者 吴鹏泉)...
-
江西上饶一地调整为中风险地区 实行封闭管理措施
中新网11月8日电 据江西省上饶市政府新闻办公室官方微博消息,上饶市新冠疫情防控应急指挥部8日发...
-
西宁市主城区首轮全员核酸采集样本144.8万份 结果均为阴性
中新网西宁11月8日电(胡贵龙 祁增蓓)记者8日从青海省西宁市新冠肺炎疫情防控处置工作指挥部第四场...
-
快递旺季遭遇雨雪天气 国家邮政局呼吁理解快递小哥
快递旺季遭遇雨雪天气 国家邮政局呼吁多理解和包容快递小哥 本报北京11月7日电(记者甘皙)国家...
-
高压、孤独,胆大、心细:手执焊枪的水下“蛙人”
高压、湿冷、孤独,胆大、心细、技艺高超—— 手执焊枪的水下“蛙人” 早上6时,伴随初升的朝...
-
掏粪掏了36年,他还在琢磨“新门道”
优化清掏路线、干活做到“三净”、总结技术诀窍,清掏工苏广林—— 掏粪掏了36年,他还在琢磨“...
-
内蒙古:二连浩特市新增1例本土确诊病例 额济纳旗累计治愈出院本土确诊病例76例
(抗击新冠肺炎)内蒙古:二连浩特市新增1例本土确诊病例 额济纳旗累计治愈出院本土确诊病例76例 ...
-
坚守在海拔4300多米的“天路保健医生”
中新网拉萨11月8日电(贡嘎来松)5日,青藏铁路格尔木至拉萨段达琼果站,海拔4327米。中铁十二局集团...
-
38年后,他终于知道了家在哪儿……
“我是谁,多大了,家在哪儿?”38年来,他总有这样一个心结被死死凝结,总为这样一句疑问而苦苦追...
-
受降雪影响 辽宁鞍山一农贸市场发生坍塌
8日早上6时左右,受连续强降雪影响,辽宁省鞍山市千山区大屯镇农贸市场发生坍塌,多台车辆被砸。 ...
-
中国舞蹈家协会顶尖教师巡回课堂(重庆站)举办
中新网北京11月8日电 (记者 高凯)由中国舞蹈家协会主办,中国文联舞蹈艺术中心、重庆市舞蹈家协会...
-
边城战“疫”:夜晚七点的暂停键
11月4日晚上7点,是中俄边境城市黑河一个再平凡不过的抗疫时刻。 如果在这一刻按下时间的暂停键...
-
风雪高原战“疫”长卷 寒潮下的西宁疫情防控观察
大风7级,大雪纷扬,最高气温只有-5℃! 这是青海省西宁市开启全城全员首轮核酸检测的天气。 ...
-
拟音师:“雕刻”声音的人【三百六十行】
三百六十行 拟音师:“雕刻”声音的人 闭上眼,90后赵洪泽有时甚至可以通过走路的声音,来判...
-
“双减”之后 中小学教师资格考试为何依然火爆
聚焦 “双减”之后,中小学教师资格考试为何依然火爆 近日,2021年下半年中小学教师资格考试(...
-
大数据助力贫困生成长
探索 大数据助力贫困生成长大数据画像能为贫困生成长带来什么 今年9月,云南省楚雄彝族自治州...
-
“大漠明珠”驶上发展快车道 塔里木盆地做足生态大文章
塔里木盆地做足生态大文章 “大漠明珠”驶上发展快车道 从塔里木盆地的西北角到西南角,和田...
-
职校生可报考事业单位 搬走职业教育的一块绊脚石
职校生可报考事业单位 搬走职业教育的一块绊脚石 “职业院校毕业生也可以报考事业单位了。”...
-
打算“双十一”买买买的姐妹 看完这篇再“剁手”
打算“双十一”买买买的姐妹 看完这篇再“剁手” 女性对于保养的热衷超乎想象,不少人只要是听...
-
完美“飞天”仰仗全宇宙最酷飞船试驾员
完美“飞天”仰仗全宇宙最酷飞船试驾员 11月7日,航天员翟志刚、航天员王亚平开展神舟十三号航天...
-
冠状病毒中损伤血管的蛋白首次确定
冠状病毒中损伤血管的蛋白首次确定 国际战“疫”行动 科技日报北京11月4日电 (记者刘霞)不少...
-
新电池结构让飞行汽车成为可能 相关技术将亮相北京冬奥
新电池结构让飞行汽车成为可能 相关技术将亮相北京冬奥会 科技冬奥进行时 搭载全气候电池...
-
H5N8病毒肆虐全球,我国家禽为何“独善其身”
H5N8病毒肆虐全球,我国家禽为何“独善其身” 科技日报哈尔滨11月7日电 (记者李丽云)记者11月7...
X 关闭
X 关闭





