清华大学研究人员建立虚拟 Agent 医院，用于无需人工干预的人工智能医生培训

清华大学人工智能研究人员开发出用于训练虚拟人工智能医生的 Agent 医院。(来源：清华大学）

清华大学的研究人员建立了一个虚拟的 Agent 医院，用于在没有人工干预的情况下进行人工智能医生培训。通过创建真实医院、病人和医院员工的 "数字孪生"，然后让虚拟医生治疗成千上万的虚拟病人，在医生磨练了自己的技能后，诊断和治疗的准确性就达到了很高的水平。

David Chien (translated by Ninh Duy), Published 06/16/2024 🇺🇸 🇫🇷 ...

AI Software

清华大学智能产业研究院（AIR）的研究人员和计算机科学与技术系的研究人员的研究人员建立了一个虚拟代理医院，用于在没有人工干预的情况下进行人工智能医生培训。他们首先模拟了整个医院以及员工和病人。然后让人工智能医生在没有人工干预的情况下负责诊断和治疗数千名虚拟病人。医生们很快就从错误中吸取了教训，检查、诊断和治疗技能大幅提高。

虚拟仿真或模拟仿真复制了真实世界的环境，可安全、快速地训练人工智能。计算机不需要等待生病的病人出现，而是可以通过编程让数百、数千甚至数百万生病的病人按照自己的意愿出现。这种模拟的成本也比实际训练低得多。

清华大学的研究人员利用名为 "MedAgent-Zero "的方法，在 "Agent 医院 "模拟中对一万名虚拟病人进行了虚拟人工智能医生的快速训练。通过向大语言模型输入八种疾病的信息，为一万名虚拟病人创建了电子健康记录，每名病人的严重程度和表现各不相同。这八种疾病是急性鼻咽炎、急性鼻炎、支气管哮喘、慢性支气管炎、COVID-19、甲型流感、乙型流感和支原体感染。另外还创建了 500 份病人记录用于测试。

在模拟过程中，由 gpt-3.5-turbo-1106 支持的虚拟医生迅速掌握了自己的技能。在为 10,000 名虚拟病人看病后，根据疾病的不同，医生检查、诊断和治疗病人的成功率分别高达 88%、95.6% 和 77.6%。

GPT 正在迅速改进，因此清华的研究人员还使用功能更强大的gpt-4 测试了他们的 MedAgent-Zero 训练方法。-1106-preview。他们使用MedQA 数据库中的 1273 个问题，比较了 gpt-3 和 gpt-4 人工智能医生的表现。该数据库包含大量选择题，与USMLE 等考试中的医学许可问题相似。.虚拟医生在呼吸系统疾病问题上的表现为 93.06% gpt-4 和 84.72% gpt-3。

这些人工智能医生仅用了几天的虚拟训练就取得了突破性的成绩，Agent 医院模拟器为未来的人工智能医生和真正的医生开发更快、更有效的训练方法开辟了道路。

如果读者不知道在人工智能驱动的未来还会剩下哪些工作，可以直接告诉他们 1X 人形机器人为他们做晚饭和打扫房间。那些想要构建人工智能的人应该在他们的个人电脑上配备快速的 Nvidia GPU（比如亚马逊上的这台），或者购买一台全球最快的笔记本电脑（比如亚马逊上的这台），以便开始训练人工智能来接管许多工作。

资料来源

代理医院用可进化的医疗代理模拟医院,清华大学-人工智能产业研究院新闻稿

▶ ▼ 新闻稿

由 Edge 浏览器进行机器翻译：

AIR创建虚拟医院，实现AI医生的自我进化

发布时间：2024-05-24

清华大学智能产业研究院（AIR）与清华大学计算机科学与技术系合作建立了一家虚拟医院--Agent HospitalMedAgent-Zero，提出了一种医疗代理的自我进化方法，使医疗代理在虚拟医院中无需人工标注就能产生大量数据，从而不断提高医疗能力，并在真实世界的数据集中得到验证。Agent 医院中的所有病人、护士和医生都由大型模型驱动的自主代理扮演，模拟了发病、分诊、挂号、会诊、检查、诊断、用药、康复和随访的 "院前-院中-院后 "闭环流程。基于知识库和基本模型，Agent 医院模拟虚拟病人的疾病产生和发展过程。虚拟医生在 Agent 医院中进行学习（即阅读医学文献）和实践（即与虚拟病人互动并做出诊疗决策），不断总结成功诊疗案例的经验，反思失败案例的教训，不断提高多项诊疗任务的准确性。在治疗了近 10,000 名虚拟病人后（人类医生需要 2 年左右的时间），虚拟医生在 MedQA 数据集的呼吸系统疾病子集中超越了目前最好的方法，达到了 93.06% 的准确率。该研究由 AIR 马伟志助理教授和 AIR 执行院长、计算机系副主任刘洋教授共同完成，在 arXiv 上发表后，受到了国内外人工智能界和医学界的广泛关注和讨论。

- 论文题目Agent Hospital：用可进化的医疗代理模拟医院

- 论文链接：https://arxiv.org/pdf/2405.02957v1

近年来，大规模语言模型得到了蓬勃发展，基于大型语言模型的代理技术也备受关注。以往的研究利用代理技术实现了现实世界的模拟，包括 "斯坦福小镇 "和 "狼人杀游戏 "等交互和游戏场景。同时，代理技术也被应用于各种任务的调度规划和协作过程中，但这一过程大多依赖于高质量人工标注数据的支持。因此，研究问题是真实世界模拟是否有助于提高代理的任务处理能力。

智慧医疗因其重要性和应用价值而受到广泛关注，研究团队也非常重视大语言模型和代理技术在医疗场景中的应用。针对上述研究问题，团队认为真实的模型环境有助于代理任务能力的提升和进化，因此开展了真实世界模拟与医疗能力提升相结合的代理医院研究。在这项工作中，团队致力于构建医院仿真环境，并探索医疗代理在该环境中的自主进化。目的是让代理能像人类医生一样，在诊疗和学习过程中自主积累医学知识，实现医疗能力的不断进化。

研究团队首先致力于使用大规模模型代理来模拟真实世界的关键医疗过程。在 "Agent 医院 "中，研究团队设计并涵盖了从疾病产生到康复的 8 个典型场景，即：发病、分诊、挂号、问诊、检查、诊断、处方和康复，患者将积极参与后续反馈。所有过程都有大型模型支持，其中的角色可以自主互动。

主要诊疗环节示例

上图展示了一种闭环方法：当病人的代理人肯尼斯-摩根生病时，他到医院寻求帮助。分诊护士凯瑟琳-李了解摩根的症状并对他进行分析，然后将他分诊到特定的科室。摩根按照医生的指示完成挂号、问诊、体检后，医生罗伯特会给出最终的诊断和治疗方案，摩根按照医生的指示回家休息，并向医院反馈恢复情况，直到下次生病再去医院。

从上面的例子可以看出，研究团队为医院设计了两大类角色：医护人员和病人。所有角色信息都是由一个大型模型（GPT-3.5）生成的，因此可以方便地进行缩放和添加。部分角色的具体信息如下图所示，35 岁的患者肯尼斯-摩根目前患有急性鼻炎，有高血压病史，并伴有持续呕吐等一系列症状；赵磊是一位经验丰富的放射科医生，内科医生伊莉斯-马丁具有良好的沟通能力，擅长急慢性内科疾病的诊断和治疗。这些完整的人物信息背景增强了医院模拟的真实感。

虚拟人物信息介绍

在上述医疗模拟过程中，疾病的产生是关键所在。具体来说，当前病历信息由大语言模型结合医学知识生成，为患者生成完整的病历，包括疾病类型、症状、病程、各种检查结果等（详见本文附录）。需要注意的是，为了尽可能保证整个模拟过程的准确性，病人代理只能感知到自己的疾病症状，而不能感知到具体的疾病，而医生代理只能通过与病人代理对话和开检查处方来了解信息。病人代理需要进行的检查、疾病的类型和严重程度将作为评估医疗代理诊断和治疗虚拟病人能力的三个关键任务。

传统的医疗模型训练方法大多依赖于预训练、微调等技术，因此需要大量的医疗数据和一些高质量的人工标注数据作为支撑。但研究团队认为，人类医生的能力提升过程并不依赖于如此海量的数据，他们在诊疗过程中往往可以从临床实践中积累经验，也会通过阅读医学文献积累关键知识而得到提升。虚拟医院中的医疗代理也应该能够实现类似的能力进化。

因此，该团队设计了一种名为 "MedAgent-Zero "的代理自我进化算法，它与 AlphaGo-Zero一样，不依赖人工标注数据，而是利用虚拟医院中的学习（即阅读医学文献）和实践（即与虚拟患者互动并做出诊疗决策）来实现能力提升。自主积累疾病诊断和治疗建议三项任务的经验；另一方面，医疗代理也将自主学习，根据 LLM 生成的医疗问题模拟医疗文献的学习过程。

MedAgent-Zero 策略流程图

如上图所示，MedAgent-Zero 的发展包括两种方法：1）从成功案例中总结经验，对于可以正确回答的诊疗问题，智能体会像人类医生一样积累病例库经验；2）从失败案例中反思教训，在回答错误时，代理会主动反思，并对错误进行反省。如果反思中的经验教训有助于代理回答问题，则会被保存并存储到经验库中。

最终，研究团队将在虚拟数据的训练过程中进行上述两方面的积累和演化。在每次推理过程中，代理都会从两个数据库中检索出最相似的内容，并将其添加到 "提示 "中进行情境学习，并根据正确答案和错误答案积累病历或总结经验，从而不断提高代理的能力。

在虚拟医院中，研究团队构建了数万名虚拟病人的病历，用于医疗代理的自主进化实验，包括甲流、乙流、新冠等8种呼吸系统相关疾病，涉及10余种不同的医学检查。按照人类医生每周诊治约100名患者计算，人类医生诊断1万名患者可能需要两年时间，而智能医生只需几天就能完成。

研究小组主要从两个方面评估虚拟医院中医疗代理的能力。首先是虚拟环境下的医疗能力评估：如下图所示，在医疗代理（左）的训练过程中，随着诊治病人数量的增加，医疗代理在三项关键任务上的准确率持续上升并逐渐趋于稳定。在 500 份测试病历的实验中发现（右图），随着病人数量的增加，医疗代理的准确率略有波动，但总体呈上升趋势。

医疗代理在训练集（左）和测试集（右）上的任务准确率。

随后，研究小组比较了医疗代理进化前后对各种疾病的诊断准确率，发现它们都有很大提高，验证了其自主进化的有效性。

药剂进化前后不同疾病的诊断表现

另一方面，研究小组使用外部数据集 MedQA 中的呼吸系统疾病子集来评估医疗代理在现实世界中的医疗能力。令人惊讶的是，即使在代理进化过程中没有使用任何人工标注的数据，在治疗了近 10,000 名患者后，医疗代理也能超越目前数据集上最好的方法，达到 93.06% 的最高准确率，这验证了医疗代理在模拟环境中自主进化的有效性。

不同方法在 MedQA 子集上的准确率

此外，研究团队还进行了消融实验验证，结果表明，无论是从成功中积累的实例，还是从失败中吸取的教训，都有助于提高模型的医疗能力。

MedAgent-Zero 的消融实验性能

综上所述，本研究工作构建了首个虚拟医院场景--Agent 医院，并提出了不依赖人工数据标注的医疗代理进化算法 MedAgent-Zero。虚拟数据和真实数据的实验结果初步验证了仿真环境对医疗代理能力提升的有效性，为人工智能尤其是大语言模型和代理技术在智慧医疗场景中的应用提出了新的解决方案。不过，这项研究工作还存在一定的局限性，在今后的工作中，课题组将在疾病种类的覆盖、仿真环境的精细化、模型库的选择与优化等方面继续改进和优化。

通讯作者简介

马伟志，清华大学智能产业研究院助理研究员，入选中国科协 "青年拔尖人才工程"。他的研究兴趣包括智能信息采集和智能医疗。个人主页：https://mawz12.github.io。

刘洋，清华大学计算机系副主任，GDS 教授，清华大学智能产业研究院（AIR）执行院长，国家杰出青年基金获得者。他的研究兴趣包括人工智能、自然语言处理和智能医疗。个人主页：https://nlp.csai.tsinghua.edu.cn/~ly。

超导体可应用于粒子加速器、变压器、计算和医学成像。(图片来源：Dall-E 3）

得益于新的非传统界面，高温超导体离现实越来越近 08/26/2024

三星Galaxy S24 FE 最新渲染图凸显 "傻瓜 "设计...

TJD T80：不同寻常的Android 游戏掌上电脑终于在全球发布，...

Editor of the original article: David Chien - Tech Writer - 538 articles published on Notebookcheck since 2023

Translator: Ninh Ngoc Duy - Editorial Assistant - 525467 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Notebookcheck中文版（NBC中国） > 新闻 > 新闻档案 > 新闻档案 2024 06 > 清华大学研究人员建立虚拟 Agent 医院，用于无需人工干预的人工智能医生培训

David Chien, 2024-06-16 (Update: 2024-06-16)

资料来源

Related Articles