您的位置:首页资讯厂商动态 → Hugging Face 发布医疗任务评估基准Open Medical-LLM

Hugging Face 发布医疗任务评估基准Open Medical-LLM

时间:2024/4/19 12:41:18来源:www.a300.cn作者:清晨我要评论(0)

4月19日 消息:近期,Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。

Open Medical-LLM 并非从零开始的基准测试,而是由现有测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题,需要医学推理和理解,涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”,但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告,指出实际临床实践与医学问题回答之间存在较大差距。他们强调,基准测试结果不能替代在真实世界条件下的仔细测试。

对此,Hugging Face 的研究科学家克莱门汀・弗里尔(Clémentine Fourrier)在社交媒体上表示,这些排行榜只能作为探索特定用例的第一近似值,但实际上需要进行更深入的测试阶段,以检查模型在真实条件下的局限性和相关性。她指出,医学模型绝不能单独由患者使用,而应该被训练成为医生的支持工具。

尽管 Open Medical-LLM 等基准测试具有一定的参考意义,但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如,谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但尽管理论上准确度很高,该工具在实际测试中却表现不佳,导致患者和护士对其结果的不一致性感到沮丧,与实际临床实践缺乏协调性。

至今,美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中,没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。


相关视频

    没有数据

相关阅读 AI换装MagicClothing: 专注实现可控的换装效果AI换脸以假乱真!蚂蚁数科发布反DeepFake产品,还设百万奖金池邀Jina-ai/Reader:可将任何网址转换成对大模型友好的输入格式InstantID团队推新风格迁移方法InstantStyle 一键置身“梵高星空面壁智能开源MiniCPM 2.0系列模型 OCR等能力显著增强比换脸更强大!SwapAnything:替换图片中的任意元素Sora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公微软计划在Windows 11“开始”菜单中投放广告:已在测试

文章评论
发表评论

热门文章 2016淘宝造物节怎么玩人生日历新增小插件—2014年双11淘宝销售额

最新文章 Hugging Face 发布医疗迅雷浏览器App发布:自 雷军宣布直播送SU7车模!雷军将抖音直播聊小蔚小理等车企怕不怕!小米SU7首月交付量预计​谷歌发布新代码模型Code Gemma:参数华为Pura 70 Pro/Ultra包装曝光:Ultra版极

人气排行 2014年双11淘宝销售额及排行榜扫描文件怎么转换成word 扫描文件转换成wor如何将pdf转换成jpg pdf转jpg图文教程360粉碎文件如何恢复win7回收站清空了怎么恢复 win7回收站清空恢pdf怎么转换成excel pdf文件转Excel格式方法设备管理器有叉号、问号、感叹号?驱动人生迅捷pdf转换成word转换器怎么用