研究发现 ChatGPT 在心脏风险评估中失败

发布时间：2024-05-06 10:27:22来源：

尽管 ChatGPT 据称能够通过体检，但新的研究表明，依赖它进行某些健康评估(例如胸痛患者是否需要住院)是不明智的。

在一项涉及数千名胸痛患者模拟病例的研究中，ChatGPT 提供了不一致的结论，针对完全相同的患者数据返回了不同的心脏风险评估级别。生成式人工智能系统也无法与医生用来判断患者心脏病风险的传统方法相匹配。研究结果发表在《PLOS ONE》杂志上。

“ChatGPT 的行为方式不一致，”华盛顿州立大学埃尔森·S·弗洛伊德医学院的研究员托马斯·赫斯顿 (Thomas Heston) 博士说。 “鉴于完全相同的数据，ChatGPT 会给出低风险评分，然后下次给出中等风险评分，有时甚至会给出高风险评分。”

作者认为，该问题可能是由于当前版本的软件 ChatGPT4 中内置的随机性水平造成的，这有助于它改变模拟自然语言的响应。然而，这种随机性对于需要单一一致答案的医疗保健用途来说效果不佳，赫斯顿说。

“我们发现存在很多变化，而方法的变化可能是危险的，”他说。 “它可能是一个有用的工具，但我认为这项技术的发展速度比我们对它的理解要快得多，因此我们进行大量研究至关重要，特别是在这些高风险的临床情况下。”

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。