每日观点:首个模拟人类认知的思维框架OlaGPT:推理能力最高提升85% - 行业资讯 -

当前位置:首页  >  行业资讯  > 正文

每日观点:首个模拟人类认知的思维框架OlaGPT:推理能力最高提升85%

每日观点:首个模拟人类认知的思维框架OlaGPT:推理能力最高提升85%
2023-06-06 00:07:59 来源:教育信息网


(资料图片仅供参考)

ChatGPT刚发布的时候,给了我们太多的震撼,模型在对话上的表现实在是太像人类了,以至于产生了语言模型具有「思维能力」的错觉。
不过在深入了解语言模型之后,研究人员们也逐渐发现了,基于高概率语言模式的再现与期望中的「通用人工智能」还有很大差距。
在当前的大多数研究中,大型语言模型主要是在特定提示的引导下生成思维链来执行推理任务,没有考虑人类的认知框架,使得语言模型解决复杂推理问题的能力与人类之间仍然存在着显着的差距。
人类在面对复杂的推理难题时,通常会使用各种认知能力,并且需要与工具、知识和外部环境信息的各个方面进行交互,那语言模型能不能模拟人类的思维流程来解决复杂问题呢?
答案当然是可以!首个模拟人类认知处理框架的模型OlaGPT来了!
论文链接:https://arxiv.org/abs/2305.16334
代码链接:https://github.com/oladata-team/OlaGPT
OlaGPT包括多个认知模块,包括注意力、记忆、推理、学习,以及相应的调度和决策机制;受人类主动学习启发,框架中还包括一个学习单元来记录之前的错误和专家意见,并动态参考来提升解决类似问题的能力。
文中还概述了人类解决问题的常见有效推理框架,并相应地设计了思维链(CoT)模板;还提出了一个全面的决策机制,可以最大限度地提高模型的准确性。
在多个推理数据集上进行了严格评估后得到的实验结果表明,OlaGPT超越了此前最先进的基准,证明了其有效性。

模拟人类的认知

目前的语言模型与期望中的通用人工智能还有很大差距,主要表现为:
1. 在某些情况下生成的内容毫无意义,或者偏离了人类的价值偏好,甚至会给出一些非常危险的建议,目前的解决方案是引入人类反馈的强化学习(RLHF)对模型输出进行排序。
2. 语言模型的知识仅限于在训练数据中明确提到的概念和事实。
在面对复杂问题时,语言模型也无法像人类一样适应变化的环境、利用现有的知识或工具、反思历史教训、分解问题,以及使用人类在长期进化中总结出的思维模式(如类比、归纳推理和演绎推理等)来解决问题。
不过,让语言模型模拟人脑处理问题的过程还有许多系统难题:
1. 如何系统地模仿和编码人类认知框架中的主要模块,同时以可实现的方式根据人类的通用推理模式进行调度?
2. 如何引导语言模型像人类一样进行主动学习,即从历史错误或专家对困难问题的解决方案中学习和发展?
虽然重新训练模型对纠正后的答案进行编码可能是可行的,但显然成本很高而且不灵活。
3. 如何让语言模型灵活地利用人类进化出的各种思维模式,从而提高其推理性能?
一个固定的、通用的思维模式很难适应不同问题,就像人类在面对不同类型的问题时,通常会灵活地选择不同的思维方式,如类比推理、演绎推理等。

OlaGPT

OlaGPT是一个模拟人类思维的问题解决框架,可以增强大型语言模型的能力。
OlaGPT借鉴了认知架构(cognitive architecture)理论,把认知框架的核心能力建模为注意力(attention)、记忆(memory)、学习(learning)、推理(reasoning)、行动选择(action selction)。
研究人员根据具体实现的需要对该框架进行了微调,并提出了一个适合语言模型解决复杂问题的流程,具体包括六个模块:意图增强模块(注意力)、记忆模块(记忆)、主动学习模块(学习)、推理模块(推理)、控制器模块(行动选择)和投票模块。
意图增强(Intention Enhance)
注意力是人类认知的一个重要组成部分,识别出相关的信息并过滤掉不相关的数据。
同样地,研究人员为语言模型设计了相应的注意力模块,即意图增强,旨在提取最相关的信息,并在用户输入和模型的语言模式之间建立更强的关联,可以被看作是一个从用户表达习惯到模型表达习惯的优化转换器。
首先通过特定的提示词提前获得LLMs的问题类型,然后重构提问的方式。
比如在问题的开头加上一句「Now give you the XX(问题类型),question and choices:」;为了便于分析,提示中还需要加入「The answer must end with JSON format: Answer: one of options[A,B,C,D,E].」
记忆(Memory)
记忆模块在存储各种知识库信息方面起着至关重要的作用,已经有研究证明了当下语言模型在理解最新事实数据方面的局限性,而记忆模块着重于巩固模型尚未内化的知识,并将其作为长期记忆储存在外部库中。
研究人员使用langchain提供的记忆功能进行短期记忆,长期记忆则由基于Faiss的矢量数据库实现。
在查询过程中,其检索功能可以从库中提取相关知识,涵盖了四种类型的记忆库:事实、工具、笔记和思维(thinking),其中事实是现实世界的信息,如常识等;工具包括搜索引擎、计算器和维基百科,可以协助语言模型完成一些无需为条的工作;笔记主要记录一些疑难案例和解决问题的步骤;思考库主要存储由专家编写的人类解决问题的思考模板,专家可以是人类,也可以是模型。
学习(Learning)
学习的能力对于人类不断提升自我表现来说至关重要,从本质上讲,所有形式的学习都依赖于经验,语言模型可以从之前的错误中学习,从而实现快速提高推理能力。
首先,研究人员找出语言模型无法解决的问题;然后在笔记库中记录专家提供的见解和解释;最后选择相关的笔记来促进语言模型的学习,从而可以更有效地处理类似问题。
推理(Reasoning)
推理模块的目的是创建基于人类推理过程的多个智能体,从而激发语言模型的潜在思维能力,进而解决推理问题。
该模块结合了多种思维模板,参考特定的思维类型,如横向思维、顺序思维、批判性思维和整合性思维,以促进推理任务。
控制器(Controller)
控制器模块主要用来处理相关的行动选择,具体包括模型的内部规划任务(如选择某些模块来执行)以及从事实、工具、笔记和思维库中选择。
首先检索和匹配相关的库,检索到的内容随后被整合到一个模板智能体中,要求语言模型以异步的方式在一个模板下提供回复,就像人类在推理之初可能难以识别所有的相关信息一样,同样很难期望语言模型一开始就做到这一点。
因此,动态检索是根据用户的问题和中间的推理进度来实现的,使用Faiss方法为上述四个库创建嵌入索引,其中各个库的检索策略略有不同。
投票(voting)
由于不同的思维模板可能更适合不同类型的问题,研究人员设计了投票模块来提升多个思维模板之间的集成校准能力,并多种投票策略来生成最佳答案以提高性能。
具体的投票方法包括:
1. 语言模型投票:引导语言模型在多个给定的选项中选择最一致的答案,并提供一个理由。
2. regex投票:用正则表达式精确匹配抽取答案以获取投票结果。

实验结果

为了评估该增强型语言模型框架在推理任务中的有效性,研究人员在两类推理数据集上进行了全面的实验比较。
从结果中可以看出:
1. SC(self-consistency)的性能优于GPT-3.5-turbo,表明在一定程度上采用集成方法确实有助于提高大规模模型的有效性。
2. 文中提出方法的性能超过了SC,在一定程度上证明了思维模板策略的有效性。
不同思维模板的答案表现出相当大的差异,在不同的思维模板下进行投票,最终会比简单地进行多轮投票产生更好的结果。
3. 不同思维模板的效果是不同的,循序渐进的解决方案可能更适合推理型问题。
4. 主动学习模块的性能明显优于零样本方法。
具体来说,随机、检索和组合列表现出更高的性能,即将具有挑战性的案例作为笔记库纳入其中是一种可行的策略。
5. 不同的检索方案在不同的数据集上有不同的效果,总的来说,组合(combine)策略的效果更好。
6. 文中方法明显优于其他方案,这得益于整体框架的合理设计,包括主动学习模块的有效设计;思维模板实现了对不同模型的适应,不同思维模板下的结果是不同的;控制器模块起到了很好的控制作用,选择了与所需内容比较匹配的内容;投票模块设计的不同思维模板的集成方式是有效的。
参考资料:
https://github.com/oladata-team/OlaGPT

标签:

(责任编辑:news01)
给孩子一个“明亮”的未来 世界新要闻

给孩子一个“明亮”的未来 世界新要闻

央视网消息:近年来,近视在低龄群体中多发,2020年我国儿童青少年总体近视率52 7%,防控近视刻不容缓。一
06-03 06:42:10
不黑不吹,CX-50行也真的是15-20万级别无对手的存在

不黑不吹,CX-50行也真的是15-20万级别无对手的存在

在SUV占绝对主导的国内车市,虽然每年都有大量的新款SUV诞生,但在销量和认可度上看,传统大厂依旧是中流砥
06-03 05:40:44
新资讯:华润水泥控股(01313.HK):6月2日南向资金增持27.2万股

新资讯:华润水泥控股(01313.HK):6月2日南向资金增持27.2万股

6月2日北向资金增持27 2万股华润水泥控股(01313 HK)。近5个交易日中,获南向资金增持的有5天,累计净增持
06-03 04:21:21
每日精选:湖北省高考志愿查询入口_湖北省高考志愿查询

每日精选:湖北省高考志愿查询入口_湖北省高考志愿查询

1、买一张查询卡就行了,激活以后不限次数。2、很方便的。3、或者打10000问电信的,好像现在还开通了状态查
06-03 03:16:34
内江发布一批人事任免|天天观天下

内江发布一批人事任免|天天观天下

川观新闻记者陈宇日前,内江市人民政府发布关于李焰等同志职务任免的通知。内江市人民政府决定:李焰同志为
06-03 02:16:28
电脑老掉线_电脑老掉线 世界观天下

电脑老掉线_电脑老掉线 世界观天下

1、现在人们的生活水平不断提高,电脑已经成为生活中必不可少的电子产品。用电脑上网办公、学习、娱乐,既
06-03 01:05:28
6月2日龙虎榜解析:创维数字当日净买入额最多 天天简讯

6月2日龙虎榜解析:创维数字当日净买入额最多 天天简讯

经传多赢股票讯6月2日最新龙虎出炉,创维数字(000810)、旗滨集团(601636)、融捷股份(002192)为当日龙
06-03 00:57:05
如何使用U盘重装联想拯救者R7000P?联想拯救者R7000最新U盘重装教程

如何使用U盘重装联想拯救者R7000P?联想拯救者R7000最新U盘重装教程

拯救者R7000P是联想旗下一款高性价比型号笔记本,该笔记本不仅核显模式下续航较好,且支持140W充电,还标配
06-03 00:48:13
人民银行营管部发文加强征信合规管理 要求对高发征信合规问题开展自查和整改_全球观点

人民银行营管部发文加强征信合规管理 要求对高发征信合规问题开展自查和整改_全球观点

上证报近日获悉,中国人民银行营业管理部(北京)征信管理处下发了《关于加强征信管理合规的通知》,要求各
06-02 22:41:55
全球视点!北京水立方端午节参观门票多少钱?

全球视点!北京水立方端午节参观门票多少钱?

北京水立方端午节参观门票多少钱?1 散客:票价全价30元;半价15元2 旅行社团队:全价21元;半价15元3 预约购
06-02 22:33:23
当前消息!擎天柱、擎天圣打卡三里屯!《变形金刚》全球巡展登陆北京

当前消息!擎天柱、擎天圣打卡三里屯!《变形金刚》全球巡展登陆北京

擎天柱、擎天圣穿越银幕,走进现实!《变形金刚:超能勇士崛起》全球雕像巡展登陆北京三里屯太古里!
06-02 21:24:30
一位付费API工程师如何制造了推特今年第七次崩溃?-世界聚看点

一位付费API工程师如何制造了推特今年第七次崩溃?-世界聚看点

大数据文摘出品作者:Caleb推特的“闹剧”还在继续。3月6日,当推特用户像平常那样打开APP后,却发现很...
06-02 20:56:11
全球热门:“AI换脸”软件公开网售,几百至上千元不等!法律边界在哪?

全球热门:“AI换脸”软件公开网售,几百至上千元不等!法律边界在哪?

”专家:有效的标识监管体系能提前厘清“AI换脸”带来的模糊边界‍北京嘉维律师事务所律师、IT法律专家...
06-02 19:47:42
如何将歌曲下载到u盘_u盘如何下载歌曲

如何将歌曲下载到u盘_u盘如何下载歌曲

1、①首先插上我们的U盘,②我这里以酷狗音乐为例,一般酷狗下载的歌曲存放在D盘的KuGou文件夹里。2、点击
06-02 18:56:13
1.2万紫花苜蓿喜获丰收 “牧草之王”种植拓宽农户致富新渠道

1.2万紫花苜蓿喜获丰收 “牧草之王”种植拓宽农户致富新渠道

央视网消息:初夏时节,在新疆伊犁州伊宁县的1 2万亩草场上,人工种植的紫花苜蓿进入了收割期。据介绍,紫
06-02 18:19:23
即时:孔子死亡原因

即时:孔子死亡原因

孔子是患病不愈而卒,终年七十三岁。孔子死后葬于鲁城北泗水岸边。不少弟子为之守墓三年,唯独子贡为孔子守
06-02 17:58:26
2023年6月2日江苏省正丁醇价格最新行情预测

2023年6月2日江苏省正丁醇价格最新行情预测

中国报告大厅2023年6月2日江苏省正丁醇价格最新走势监测显示:南京润升石化有限公司报价机构,今日正丁醇(
06-02 16:30:38
【转】十神的职责和实际运用

【转】十神的职责和实际运用

八字小白:十神的职责和实际运用十神看健康:(具体以医学为准,不要迷信)对应天干部位:看长相:(不
06-02 16:10:51
双色球100期走势图最新_双色球131

双色球100期走势图最新_双色球131

1、11月8日双色球2011131期开奖号码:020709172125蓝区01。本文到此分享完毕,希望对大家有所帮助。
06-02 15:07:35
化蛇未增删开车 化蛇

化蛇未增删开车 化蛇

1、羽翼化蛇是几星级卡牌,魔卡幻想羽翼化蛇普卡满级是什么图鉴,进化满级又是什么图鉴,同时在不同级别和
06-02 14:31:14
三立期货6月2日早间内参——宏观

三立期货6月2日早间内参——宏观

美联储6月加息预期回落、债务危机基本解决,市场对于美元短期避险情绪下降。另一方面美国经济数据有所下滑
06-02 14:12:14
今晚谁能夺得头筹_世界消息

今晚谁能夺得头筹_世界消息

5月离去,迎来6月的开始,昨天晚间又是一波V字反转。国际黄金收官月线,月线在两阳之后收阴,相比于月初的
06-02 13:28:01
全球速看:解锁投资密码,驶向智能未来 | 2023智能网联汽车行业研讨会成功举办

全球速看:解锁投资密码,驶向智能未来 | 2023智能网联汽车行业研讨会成功举办

解锁投资密码,驶向智能未来|2023智能网联汽车行业研讨会成功举办,5月31日,创业邦举办“2023智能网联汽车
06-02 12:10:23
环球信息:解剖屎山,寻觅黄金之第二弹

环球信息:解剖屎山,寻觅黄金之第二弹

大家好,我3y啊。由于去重逻辑重构了几次,好多股东直呼看不懂,于是我今天再安排一波对代码的解析吧。aust
06-02 11:48:23
口腔溃疡经常反复发作,做好这4点,或能帮你远离口腔溃疡

口腔溃疡经常反复发作,做好这4点,或能帮你远离口腔溃疡

现在的年轻人都喜欢吃一些重口味的食物,尤其是辛辣油腻的,比如说火锅和烤肉。但是,经常吃这些食物很
06-02 10:36:26
初中转国际学校什么时候比较好?

初中转国际学校什么时候比较好?

招生办老师解答答您好,初中阶段选择转入国际学校,走国际升学路线的学生有很多,其中包括一些不能在当地读
06-02 10:00:28
150家期货公司4月份实现净利近6亿元 环比则大幅下降45.75%_聚看点

150家期货公司4月份实现净利近6亿元 环比则大幅下降45.75%_聚看点

南方财经6月2日电,中国期货业协会最新数据显示,4月份150家期货公司合计实现净利近6亿元,同比增幅为22 44
06-02 09:26:30
青农商行首任行长被评“不称职”,年初因年龄等原因卸任_天天热讯

青农商行首任行长被评“不称职”,年初因年龄等原因卸任_天天热讯

来源:每日经济新闻每经记者宋钦章近年来,银行圈频频出现高管离职,但离职后仍被评为“不称职”的例子...
06-02 08:47:26
我国首个海上二氧化碳封存示范工程投用-全球观天下

我国首个海上二氧化碳封存示范工程投用-全球观天下

我国海上首个百万吨级二氧化碳封存工程1日在南海东部海域正式投用,开始规模化向海底地层注入伴随海上石油
06-02 07:56:21
1TB版本加持!真我GT Neo5 SE低至2499元 每日速递

1TB版本加持!真我GT Neo5 SE低至2499元 每日速递

realme真我GTNeo5SE正在京东热销中,目前16GB+1TB版本活动售价2799元,下单参与满2799元减300元优惠活动,
06-02 07:11:44

为您推荐

精彩推送