九游全球首个医疗视频通晓大模子开源! 6k+组精标测试集/英豪榜上线

田晏林发自凹非寺

手术视频的“黑盒”，被一脚踢爆了！

就在这两天，GitHub和Hugging Face社区上线了一枚医疗大模子领域的“核弹”。

全球限制最大、性能最强的医疗视频通晓大模子——uAI Nexus MedVLM（汉文名：元智医疗视频通晓大模子）开源！

最惊东说念主的是，这玩意儿是真的能看懂手术。

论文照旧被CVPR 2026收录，团队还同步甩出了一套由6245个视频-辅导对组成的设施测试集。

啥成见？医疗视频通晓，终于有了一把“全球标尺”。

而如斯兼具限制与精度的医疗视频数据开源，在业内尚属初次。

小编第一时期冲到Hugging Face，把模子拉下来实测了一波。

到底有多能打？

先嘱咐一下uAI Nexus MedVLM的硬主见：

汇注超53万条视频-辅导数据；

补助4B/7B参数限制，单卡就能部署（对，一张卡就能跑）；

整合8个专科医学数据集，遁入内镜、腹腔镜、开驱散术、机器东说念主手术、照顾操作……险些你能思到的手术场景，它全包了。

实测效果咋样？

Demo的体验计划相等友好：界面中枢模块了了；补助上传手术视频文献。

你不错上传我方的医疗视频，也不错用预置示例径直测试。

我尝试用示例的腹腔镜胆囊切除术视频，测试了三个临床中枢维度，并对比了通用大模子（GPT-5.4、Gemini-3.1、某国产大模子）和uAI Nexus MedVLM的输出互异。

定量实测的数据太霸道了！手术安全评估：准确率89.7%。

啥成见？GPT-5.4只须16.4%，Gemini-3.1是24.2%，某国产大模子是30.9%。

也即是说，uAI Nexus MedVLM的准确率是GPT-5.4的近5.5倍，是Gemini-3.1的3.7倍，是国产大模子的近3倍。

时空看成定位：uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍，是国产大模子的3.7倍，是GPT-5.4的47倍，

视频叙述生成（5分制）：uAI Nexus MedVLM 拿到4.24分，GPT-5.4只须3.98分，某国产大模子只须3.5分，Gemini-3.1只须3.7分。

而通过MedGRPO强化学习优化后，比较基座模子，uAI Nexus MedVLM的器械定位材干擢升14%；手术要领识别材干暴涨52%；手术形色质料擢升16%～25%。

uAI Nexus MedVLM遁入内镜腔镜手术、绽放式手术、机器东说念主手术、照顾操作等多类临床场景，涵盖了8个手术数据辘集的8个任务：

视频摘抄（VS）、舛误安全视线评估（CVS）、下一步操作量度（NAP）、手段评估（SA）、时期看成定位（TAG）、密集视频形色（DVC）、区域级形色（RC）和时空基础化（STG）。

每项任务的分解齐杰出了GPT和Gemini。

再看定性实测的限度，把一段被标志了绿色框的手术视频发给大模子，让它形色。

输入问题：你是别称专攻微创手术的外科分析众人。这段视频展示了腹腔镜胆囊切除术的内镜画面。请形色0.0秒时，规模框内物体的气象，以及在0.0～29.0秒时期段内的操作。

设施谜底是：钳接续夹持并将胆囊向手术视线的左上方牵拉，提供反向牵引和涌现。

GPT-5.4这边呢，它只可给出迟滞的形色，未能识别出具体器械。

Gemini-3.1则将器具乌有识别为“电凝钩”，形色成了不正确的操作。

某国产大模子：则无法识别出正确的手术操作要领。

只须uAI Nexus MedVLM，给出了接近设施谜底的形色：

位于左上方的持钳接续朝上并朝中央牵引胆囊，保持张力并为钩子涌现辞别平面。

随后，我看了下示例给出的8个任务分解，一个比一个令东说念主颠簸。

为幸免真实手术场景带来的不雅感不适，咱们登第了一段暖和的示例视频，内容是照管给患者监测躯壳主见。

视频涵盖了照管稽查血压计、稽查体温计、照顾记载、洗手、测量血压、测量体温、脉搏测量、呼吸测量等职责。

当前，咱们随即进修8个任务中的一个，比如「时期看成定位」。

输入问题：脉搏测量看成发生在什么时期？

设施谜底是：46.0-61.8seconds。

模子给出的量度是：43.0-65.0seconds。前后舛错不进步4秒，且正确谜底就在量度范围内。

为什么手术视频是AI最难啃的骨头？

在AI医疗领域，将AI用于影像辅助会诊、病历书写、质控解决等场景早已不是簇新事，在不少病院照旧落地。

但有一个标的，于今仍是公认的“无东说念主区”，那即是手术视频通晓。

之前没东说念主敢碰，为啥？三重地狱级难度，和静态影像十足不是一个量级：

第一关：数据极难获取。临床手术视频波及患者遁入与医学伦理，获取自身就贵重重重。

即便拿到了原始视频，你让专科医师逐帧标注？本钱高到不错劝退99%的团队。

第二关：莫得救援评测设施。这是行业里一个很莫名的现实：各家用我方的数据集、我方的主见，九游体育官网模子效果根柢没法横向比较。

你说你强，他说他强，谁说了齐不算，严重阻扰所有这个词赛说念的发展。

第三关：任务自身顶点复杂。手术视频的难就难在对空间、时序、语义的通晓要高度专科。

比如，它需要精确识别毫米级的器械位置和剖解结构。稍稍偏少许，可能就认错了。

况且胆囊得先辞别再切除，不成反过来。AI若是看不懂时序，就根柢无法通晓手术程度。

各式拘谨同样，再顶级的模子也只可歇菜。

但当前，这个无东说念主区被uAI Nexus MedVLM一脚踩穿。

它不仅仅“炫技”，是真的能救命。

好了，说点实践的。这模子具体颖慧嘛？

术前：分析主刀教诲上万台手术视频，挖掘临床轨则、辅助优化决议。

思象你是一位刚站上手术台的临床医师，行将作念一台胆结石微创手术。

过去你只可靠缅思和教诲；当前AI把盈篇满籍台顶级众人的手术教诲千里淀下来，极度于有了最强的大脑，来辅助你完成这台手术。

术中：在辞别胆囊管、泄露安全视线等舛误要领，及时给出调换；对违纪操作、看成偏差进行毫秒级预警，成为你的 “第三只眼”。

术后：自动完成追忆与结构化记载，这频繁会占用医师无数时期，但当前，一键生成设施化叙述。这台手术的教诲，也能成为下一位医师的“决策依据”。

手术质控、术中安全、叙述自动化、医学教学……uAI Nexus MedVLM的价值，远不啻于本事冲破。

在中国，优质医疗资源辘集在三甲病院，下层病院医师成长周期长、手术教诲蓄积慢。

而uAI Nexus MedVLM不错把顶级众人的手术教诲“千里淀”下来，下层病院的医师也能得到“众人级”的术中辅助。

这梗概才是AI真的通晓手术视频的意思意思场地。

全球建筑者，新机遇来了

此次发布，最值多礼贴的不仅是uAI Nexus MedVLM自身。

建筑这一模子的背后玩家联影智能（联影集团旗下一家专注于AI医疗的翻新公司），初次向全球开源大限制高质料医疗视频标注数据和模子，并提供了一个更具可比性的评测基准。

这意味着什么？终于有了一个手术视频通晓垂直领域的“全球全球测评体系”了。

过去，各家模子各说各话，效果没法比。

当前，拉出来在统一个数据集上跑一跑，谁强谁弱，一目了然。

而这，还仅仅开动。

这支研发团队不思唱独角戏，上线了医疗视频通晓大模子榜单，面向全寰宇建筑者发出挑战。

这是一个轮廓基准测试，用于评估视频言语模子在医疗和外科视频通晓方面的分解。

建筑者可提交自有模子限度，由系统基于设施自动评分，造成动态更新的救援滑行榜。

当全球建筑者齐能下载模子、使用数据集、上传我方的效果时，看谁能把对医疗视频通晓的材干规模，再往前推一步了。

这个过程中，医师上传的萧索病例、复杂手术视频，尤其是现存模子分解不及的案例，齐会成为极为稀有的真实数据，接续驱动本事迭代。

医疗视频AI正在迎来面向全球建筑者的黄金时间。

将来，uAI Nexus MedVLM将与具身智能会通，完善感知-推理-扩张的材干闭环。从手术室拓展到更多临床场景，鼓舞医疗全经过智能化。

数据绽放、模子分享、全球协同……这条路，才刚刚开动。

建筑者们，是时候上车了～

彩蛋：相聚在此，请自取

1.在线Demo: https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

2.推理代码: https://github.com/UII-AI/MedGRPO-Code

3.MedVidBench数据集： https://huggingface.co/datasets/UII-AI/MedVidBench九游

OD体育(ODSports)官网入口

九游全球首个医疗视频通晓大模子开源! 6k+组精标测试集/英豪榜上线

电话咨询

胜负盘

九游体育NINEGAMESPORTS

九游 全球首个医疗视频通晓大模子开源! 6k+组精标测试集/英豪榜上线

电话咨询

胜负盘

九游体育NINEGAMESPORTS

九游全球首个医疗视频通晓大模子开源! 6k+组精标测试集/英豪榜上线