社区

当前位置：首页社区微软仅凭「提示工程」让 GPT-4 成医学专家！超过一众高度微调模型，专业测试准确率首次超 90%

微软仅凭「提示工程」让 GPT-4 成医学专家！超过一众高度微调模型，专业测试准确率首次超 90%

您是不是想找：首次违章免罚条件首次的拼音首次录制视频的时长不少于首次提出新时代党解决台湾问题首次违停是否免罚首次着陆月球背面的是什么号首次同房后出血几天能停止首次导尿不超过多少首次载入入党誓词首次的意思解释

微软最新研究再次证明了提示工程的威力 ——

无需额外微调，无需专家策划，仅凭提示，GPT-4 就能化身“专家”。

使用他们提出的最新提示策略 Medprompt，在医疗专业领域，GPT-4 在 MultiMed QA 九个测试集中取得最优结果。

在 MedQA 数据集 (美国医师执照考试题) 上，Medprompt 让 GPT-4 的准确率首次超过 90%，超越 BioGPT 和 Med-PaLM 等一众微调方法。

研究人员还表示 Medprompt 方法是通用的，不仅适用于医学，还可以推广到电气工程、机器学习、法律等专业中。

这项研究在 X（原 Twitter）一经分享，就引发众多网友关注。

沃顿商学院教授 Ethan Mollick、Artificial Intuition 作者 Carlos E. Perez 等都有转发分享。

Carlos E. Perez 直呼“出色的提示策略可以甩微调一大截”：

有网友表示早就有这种预感，现在能看到结果出来，真的是“so cool”：

还有网友表示这真的很“激进”：

GPT-4 是一项能改变行业的技术，而我们还远没有触及提示的极限，也未达到微调极限。

组合提示策略，“变身”专家

Medprompt 是多种提示策略的组合体，包含三大法宝：

动态少样本选择（Dynamic few-shot selection）

自生成思维链（Self-generated chain of thought）

选项洗牌集成（Choice shuffling ensemble）

下面我们来一一介绍。

动态少样本选择

少样本学习是让模型快速学习上下文的一种有效的方法。简单来说，就是输入一些示例，让模型快速适应特定领域，并学习遵循任务的格式。

这种用于特定任务提示的少样本示例通常是固定的，所以对示例的代表性和广泛性有较高的要求。

之前一种方法是让领域专家手动制作范例，但即便如此，也不能保证专家策划的固定的少样本示例在每个任务中都有代表性。

因此，微软研究人员提出了动态少样本示例的方法。

想法是，任务训练集可以作为少样本示例的来源，如果训练集足够大，那就可以为不同的任务输入选择不同的少样本示例。

具体来说，研究人员先利用 text-embedding-ada-002 模型为每个训练样本和测试样本生成向量表示。然后，对于每个测试样本，基于向量相似度，从训练样本中挑选出最相似的 k 个样本。

与微调方法相比，动态少样本选择利用了训练数据，但不需要对模型参数进行大量更新。

自生成思维链

思维链（CoT）方法就是让模型一步一步思考，生成一系列中间推理步骤。

之前一种方法也是依赖专家手动编写少量的带有提示思维链的示例。

在这里，研究人员发现，可以简单地要求 GPT-4 使用以下提示为训练示例生成思维链：

但研究人员也指出这种自动生成的思维链可能包含错误的推理步骤，于是设置了一个验证标签作为过滤器，可以有效减少错误。

与在 Med-PaLM 2 模型中专家手工制作的思维链示例相比，GPT-4 生成的思维链基本原理更长，而且分步推理逻辑更细粒度。

选项洗牌集成

除此之外，GPT-4 在做选择题时，可能会存在一种偏见，就是不管选项内容是什么，它会偏向总是选择 A，或者总是选择 B，这就是位置偏差。

为了减少这个问题，研究人员选择将原来的选项顺序打乱重排。比如原先选项是 ABCD，可以变成 BCDA、CDAB。

然后让 GPT-4 做多轮预测，每轮使用选项的一个不同排列顺序。如此一来“迫使”GPT-4 考虑选项的内容。

最后对多轮预测结果做个投票，选择最一致、正确的选项。

将以上几种提示策略组合在一起就是 Medprompt，下面来看测试结果。

多项测试最优

在测试中，研究人员采用了 MultiMed QA 评估基准。

使用 Medprompt 提示策略的 GPT-4，在 MultiMedQA 的九个基准数据集中均取得最高分，优于 Flan-PaLM 540B、Med-PaLM 2。

此外研究人员还讨论了 Medprompt 策略在“Eyes-Off”数据上的表现，也就是在训练或优化过程中模型未曾见过的数据中的表现，用于检验模型是否过拟合训练数据。

结果 GPT-4 结合 Medprompt 策略在多个医学基准数据集上表现出色，平均准确率达到了 91.3%。

研究人员还在 MedQA 数据集上进行了消融实验，探索了三个组件对于整体性能的相对贡献。

其中自动生成思维链步骤对性能提升的贡献最大。

而且 GPT-4 自动生成的思维链比 Med-PaLM 2 中专家策划的得分更高：

最后，研究人员还探索了 Medprompt 的跨域泛化能力，取用了 MMLU 基准中的六个不同的数据集，涵盖了电气工程、机器学习、哲学、专业会计、专业法律和专业心理学的问题。

还添加了另外两个包含 NCLEX（美国护士执照考试）问题的数据集。

结果显示，Medprompt 在这些数据集上的效果与在 MultiMedQA 医学数据集上的提升幅度相近，平均准确率提高了 7.3%。

论文链接：https://arxiv.org/ pdf / 2311.16452.pdf

参考链接：

[1]https://twitter.com/erichorvitz/status/1729854235443884385

[2]https://twitter.com/emollick/status/1729733749657473327

本文来自微信公众号：量子位（ID：QbitAI），作者：西风

本文收录在

资讯
分类：资讯
首次
标签：首次

相关文章推荐

Array

《猛兽派对》首次打折：98 元 → 68.6 元

《猛兽派对》首次打折：98 元 → 68.6 元

中国造地铁列车在欧盟首次商业载客运营

中国造地铁列车在欧盟首次商业载客运营

两架国产大飞机 C919 及 ARJ21 下周首次在香港地区展出

两架国产大飞机 C919 及 ARJ21 下周首次在香港地区展出

Spotify 上线“2023 Wrapped”年度听歌报告，首次支持网页查看

Spotify 上线“2023 Wrapped”年度听歌报告，首次支持网页查看

《装配式铝合金房》团体标准首次沟通云会议隆重举行

《装配式铝合金房》团体标准首次沟通云会议隆重举行

首次购车推荐：安全舒适日产奇骏，15-18万预算最优选择

首次购车推荐：安全舒适日产奇骏，15-18万预算最优选择

比亚迪海豹 DM-i 迎来首次 OTA 更新，新增车道保持开关、优化 SOC 精度等

比亚迪海豹 DM-i 迎来首次 OTA 更新，新增车道保持开关、优化 SOC 精度等

今晨8个省会级大城市气温创新低合肥今年下半年来首次跌破冰点

今晨8个省会级大城市气温创新低合肥今年下半年来首次跌破冰点

OPPO ColorOS 14 首次接入 AI 大模型，全新小布已接入 AndesGPT

OPPO ColorOS 14 首次接入 AI 大模型，全新小布已接入 AndesGPT

跨越 1600 万公里的第一束光，NASA 完成首次深空光学通信演示

跨越 1600 万公里的第一束光，NASA 完成首次深空光学通信演示

阿里巴巴不再推进阿里云分拆，盒马鲜生首次公开募股计划已暂缓

阿里巴巴不再推进阿里云分拆，盒马鲜生首次公开募股计划已暂缓

DNF：首次破5万名望！“幽暗岛”军团本更新后，风暴幽城门槛变高

DNF：首次破5万名望！“幽暗岛”军团本更新后，风暴幽城门槛变高

智己汽车首次公开“不晕车”系统工程，内置专职司机虚拟脚法

智己汽车首次公开“不晕车”系统工程，内置专职司机虚拟脚法

俄罗斯计划在 2031 至 2040 年间实现载人登月，系该国历史上首次

俄罗斯计划在 2031 至 2040 年间实现载人登月，系该国历史上首次

2年多来内存、闪存来首次涨价！下游客户被迫接受

2年多来内存、闪存来首次涨价！下游客户被迫接受

realme 真我 GT5 Pro 手机搭载骁龙 8 Gen 3，首次开放 GPU+CPU 双调度频率拉满

realme 真我 GT5 Pro 手机搭载骁龙 8 Gen 3，首次开放 GPU+CPU 双调度频率拉满

首次降价！70包！三只松鼠巴旦木瓜子仁酥怎么样

首次降价！70包！三只松鼠巴旦木瓜子仁酥怎么样

2023 年中国新能源汽车行业用户满意度指数测评结果发布，九年来首次下降

2023 年中国新能源汽车行业用户满意度指数测评结果发布，九年来首次下降

首次降价！70包！三只松鼠巴旦木瓜子仁酥好不好

首次降价！70包！三只松鼠巴旦木瓜子仁酥好不好

美国纯电汽车年销量首次突破 100 万，马斯克点赞

美国纯电汽车年销量首次突破 100 万，马斯克点赞

0评论

最新
最热

还没有任何评论，你来说两句吧

热门资讯

9块9包邮到底让你损失了多少钱

9块9包邮到底让你损失了多少钱

DNF：神界装备系统大改版！4大新内容详解，大小百变怪登场

DNF：神界装备系统大改版！4大新内容详解，大小百变怪登场

DNF：可白嫖一个角色门票，史诗之路“封存券”莫乱用！注意顺序

DNF：可白嫖一个角色门票，史诗之路“封存券”莫乱用！注意顺序

杰佳JIEJIA——健康优质板材的领军品牌

杰佳JIEJIA——健康优质板材的领军品牌

3309 元：小米全能扫拖机器人 M30 Pro 京东 12.12 新低

3309 元：小米全能扫拖机器人 M30 Pro 京东 12.12 新低

ROG 2024 款幻 16 笔记本曝光：Ultra 9 185H + RTX 4090

ROG 2024 款幻 16 笔记本曝光：Ultra 9 185H + RTX 4090

江苏斯特郎电梯：打造高品质的电梯名牌

江苏斯特郎电梯：打造高品质的电梯名牌

DNF：旭旭宝宝停播！“大斌子”发文辟谣，“茜皇”三字回应

DNF：旭旭宝宝停播！“大斌子”发文辟谣，“茜皇”三字回应

荣耀 Magic6 系列手机开启 100 元预订：送体脂秤、180 只换不修等

荣耀 Magic6 系列手机开启 100 元预订：送体脂秤、180 只换不修等

恩科ENKOR音响品牌介绍，专业音箱解决方案提供商

恩科ENKOR音响品牌介绍，专业音箱解决方案提供商

玄派推出“玄熊猫”轻量化鼠标：原相 3395 + 三模连接，149 元

玄派推出“玄熊猫”轻量化鼠标：原相 3395 + 三模连接，149 元

浙江财经大学一退休教授制作“数字人替身”，继续为学生授课

浙江财经大学一退休教授制作“数字人替身”，继续为学生授课

热门晒物

热门好文

荣耀X50i+启动预售活动，首发到手价仅1599元起

荣耀X50i+启动预售活动，首发到手价仅1599元起

魅族21系列新机预热活动开启，挑战最窄下边框

魅族21系列新机预热活动开启，挑战最窄下边框

《人中之龙7外传无名之龙》首发支持DLSS 2！耕升 GeForce RTX 4060 踏雪同玩家击碎黑暗重回现实！

《人中之龙7外传无名之龙》首发支持DLSS 2！耕升 GeForce RTX 4060 踏雪同玩家击碎黑暗重回现实！

小米13迎来双11大促活动，仅需3599元即可入手

小米13迎来双11大促活动，仅需3599元即可入手

福布斯中国最具影响力商会50强评选开放报名

福布斯中国最具影响力商会50强评选开放报名

双十一，送福利啦！四季沐歌 “值”等你来

双十一，送福利啦！四季沐歌 “值”等你来

臭宝推出人民体育联名款螺蛳粉多渠道联动打开体育营销新思路

臭宝推出人民体育联名款螺蛳粉多渠道联动打开体育营销新思路

OPPO Reno11系列新机配置曝光，或搭载骁龙8+

OPPO Reno11系列新机配置曝光，或搭载骁龙8+

iQOO 12 Pro跑分成绩曝光，更多硬件配置揭晓

iQOO 12 Pro跑分成绩曝光，更多硬件配置揭晓

蔡司影像，心临其境 vivo X100系列正式发布

蔡司影像，心临其境 vivo X100系列正式发布

上汽荣威D7正式上市售12.18万起未来3年推8款新车

上汽荣威D7正式上市售12.18万起未来3年推8款新车

HELLY HANSEN推出全新H2EXPLORER系列冲锋衣羽绒服

HELLY HANSEN推出全新H2EXPLORER系列冲锋衣羽绒服