erp，oa系统开发开源大模子新王干翻GPT4o，新时候可自我纠错，数学99刷爆测试集

西风发自凹非寺量子位 | 公众号 QbitAI

开源大模子王座遽然易主，真的来自一家小创业团队，瞬息引爆业界。

新模子名为Reflection 70B，使用一种全新锻练时候，让AI学会在推理进程中创新我方的失误和幻觉。

比如最近流行的数r测试中，一运行它犯了和大广宽模子相同的失误，但主动在<反念念>标签中创新了我方。

在官方评测中，70B模子全面卓越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，绝顶是数学基准GSM8K上径直刷爆，得分99.2%。

这个律例也让OpenAI科学家、德扑AI之父Noam Brown形势开麦：

GSM8K得分99%！是不是不错负责淘汰这个基准了？

模子刚刚上线网友就把试玩挤爆了，对此Meta还主动赈济了更多算力。

在网友测试中，Reflection 70B能回答对GSM8K数据合并自身谜底失误的问题：

我向模子提供了GSM8K中存在的5个“ground_truth”自身就不正确的问题。模子莫得相通数据合并的失误谜底，而是一起回答对了，这很令东谈主印象真切，标明那99.2%的准确率并非来自于系念测试集！

数多样r王人不在话下，连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。

网友纷繁对小团队作念出的开源卓越顶流闭源感到骇怪，咫尺最强开源模子不错在土产货运行了。

重要70B还仅仅个运行，官方示意下周还会发布更大的Reflection 405B。

展望405B性能将大幅优于Sonnet和GPT-4o。

Reflection 70B权重已公开，API看望将至今天晚些期间由Hyperbolic Labs提供。

模子能自我反念念创新失误

咫尺对于Reflection 70B的更多细节如下。

Reflection 70B才调擢升的重要，是接收了一种名为Reflection-Tuning的锻练措施，它简略让模子反念念我方生成的文本，在最终笃定回复前检测并创新自身推理中的失误。

锻练中的数据来自使用GlaiveAI平台生成的合成数据。

Reflection 70B基于Llama 3.1 70B Instruct，不错使用与其它Llama模子交流的代码、pipeline等从Reflection Llama-3.1 70B进行采样。

它甚而使用了圭表的Llama 3.1聊天花式。

不外，Reflection 70B引入了一些很是tokens，结构化输出进程。

如底下这个例子所展示的，谈论进程分为一个独处的法子，这么作念不错提高CoT成果，并保执输出高超：

模子将从在和标签内输出推理运行，一朝对其推理感到悠然，就会在和标签内输出最终谜底。

是以它简略将其里面念念考和推理与最终谜底别离。

在部分，模子可能会输出一个或多个<reflection>标签，这标明模子发现了其推理中的失误，并将在提供最终谜底之前尝试创新该失误。

系统提醒如下：

2、排列三5码组六统计：截止第2024180期，erp，oa系统开发排列三已开出了6952期奖号了，其中组六号码出现了4952次，组三出现了1926次，豹子出现了74次。

1、排列三最近两期百位号码分别开出5和2，历史上百位号码连续两期分别开出5和2的奖号出现了67期。前五期开出之后其下期奖号分别为：519、575、411、549、538；

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response insidetags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.（你是一个寰球级东谈主工智能系统，简略进行复杂的推理和反念念。在标签内对查询进行推理，然后在标签内提供你的最终回复。如若你发现我方在职何期间推理出错，请在标签内创新我方。）

此外值得一提的是，基准测试中，所有这个词基准王人已通过LMSys的LLM Decontaminator查抄混浊，终止了部分，并单独对这一部分进行测试。

使用Reflection 70B的期间，官方还共享了小tips：

初步提倡参数temperature为.7 ， top_p为.95为提高准确性，最佳附加“Think carefully.”在Prompt末尾

官方还示意，下周会发布一份发挥，详备先容模子锻练进程和发现。

Agent创业团队打造

Reflection 70B的背后是一支小团队，由HyperWriteAI的CEO Mutt Shumer指挥。

领英显露，Mutt Shumer是一位一语气创业者，毕业于好意思国锡拉丘兹大学，现任OthersideAI的扶助创举东谈主兼CEO。

OthersideAI是一家AI诳骗公司，发奋于于通过大范围AI系统缔造环球首先进的自动补全用具，亦然HyperWrite的幕后公司。

HyperWrite是一个浏览器操作agent，不错像东谈主相同操作谷歌浏览器来完成一系列任务，比如订披萨：

和gpt-llm-trainer相同，你只需要用翰墨描摹见地，它就会一边列法子，一边推行。

刚推出时堪称“比AutoGPT强”。

小程序开发

HyperWrite还不错在谷歌推广圭表中装置。

另外，Mutt Shumer高中时期就创立了Visos，发奋于于缔造用于医疗用途的下一代杜撰执行软件。

还创立了FURI，这是一家旨在通过创造高性能家具并以公谈的价钱销售它们来颠覆体育用品行业的公司。

天然有Meta复古，但咫尺掀开试玩，仍是：暂时无法看望。

感有趣的童鞋不错先码住了～

https://reflection-playground-production.up.railway.app/

参考流畅：[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B[2]https://x.com/mattshumer_/status/1831767014341538166[3]https://x.com/polynoamial/status/1831798985528635806[4]https://x.com/degeneratoor/status/1831809610451448196[5]https://x.com/kimmonismus/status/1831772661296345333

上一篇：erp，oa系统开发 10分钟25+8！夙昔NBA第一中锋降维打击，根本不放水啊！

下一篇：没有了

erp，oa系统开发 开源大模子新王干翻GPT4o，新时候可自我纠错，数学99刷爆测试集

erp，oa系统开发开源大模子新王干翻GPT4o，新时候可自我纠错，数学99刷爆测试集