但凡深度用过 Whisper 将音频转录成文本的都被坑过,经常无端生成一些没有的内容,现在这事影响到医疗中心了,在转录医生与病人的会诊记录时出现幻觉。
***
转译:研究人员称,医院使用的AI驱动转录工具编造了没人说过的内容
旧金山(美联社)——科技巨头OpenAI宣称其人工智能驱动的转录工具Whisper具备接近“人类水平的稳健性和准确性”。
然而,Whisper存在一个重大缺陷:根据十几位软件工程师、开发人员和学术研究人员的说法,该工具往往会编造整段文本,甚至是整句内容。这些专家指出,某些编造的文本——在行业内被称为“幻觉”——可能涉及种族评论、暴力言论,甚至是虚构的医疗方案。
专家表示,这种虚构内容的问题在于,Whisper已经被广泛应用于全球各行业,包括翻译和转录访谈、在流行的消费技术中生成文本,以及为视频制作字幕。
更令人担忧的是,尽管OpenAI警告该工具不应在“高风险领域”使用,一些医疗中心仍急于采用基于Whisper的工具来转录医生与病人的会诊记录。
问题的全面性难以掌握,但研究人员和工程师表示,他们在工作中频繁遇到Whisper的幻觉问题。例如,一位密歇根大学的研究人员在研究公共会议时发现,在他检查的每十个音频转录中,有八个包含幻觉,因此他开始尝试改进模型。
一位机器学习工程师表示,在分析了超过100小时的Whisper转录后,他最初发现约一半的转录存在幻觉。另一位开发人员称,在他使用Whisper生成的26,000份转录中,几乎每一份都包含幻觉。
即使是在记录良好的短音频样本中,这些问题也依然存在。最近一项由计算机科学家进行的研究发现,在他们审查的13,000多个清晰音频片段中,共计发现187处幻觉。
研究人员表示,这种趋势如果持续,将导致数以万计的错误转录。
该报道由普利策中心的“AI责任网络”资助制作,普利策中心还部分支持了对Whisper的学术研究。美联社同时获得奥米德亚网络的资助,以帮助报道人工智能及其对社会的影响。
这种错误可能带来“极为严重的后果”,尤其是在医院环境中。阿隆德拉·尼尔森曾在拜登政府领导白宫科技政策办公室,她指出:“没有人想要被误诊。”现任普林斯顿高等研究院教授的尼尔森补充道,“对于这种工具,应该设定更高的标准。”
Whisper还被用于为听障人士生成字幕——这一人群在应对转录错误时处于特别的风险中。盖洛德大学技术接入项目负责人克里斯蒂安·福格勒(他自己也是听障人士)指出,这一群体难以发现这些虚构内容,因为“这些错误内容被隐藏在大量文本中”。
OpenAI被敦促解决问题 大量幻觉现象促使专家、倡导者和前OpenAI员工呼吁联邦政府考虑对人工智能进行监管。他们表示,至少OpenAI需要解决这一缺陷。
“如果公司愿意优先考虑,这似乎是可以解决的问题,”驻旧金山的研究工程师威廉·桑德斯说道,他在今年2月因对公司方向的担忧而离开了OpenAI。“如果将这个工具发布出来,而人们对它的功能过于自信,还将它整合到许多其他系统中,这将带来问题。”
OpenAI的发言人表示,公司持续研究如何减少幻觉现象,并感谢研究人员的发现,同时指出OpenAI会在模型更新中融入反馈意见。
尽管大多数开发者预计转录工具可能会拼写错误或出现其他错误,工程师和研究人员却表示,他们从未见过另一个AI驱动的转录工具像Whisper那样频繁地产生幻觉。
Whisper幻觉问题 该工具集成在OpenAI的旗舰聊天机器人ChatGPT的一些版本中,还作为内置服务被集成在Oracle和微软的云计算平台中,这些平台为全球数千家公司提供服务。此外,它还用于转录和翻译多种语言的文本。
仅在上个月,Whisper的一个新版本就在开源AI平台HuggingFace上被下载了超过420万次。HuggingFace的机器学习工程师Sanchit Gandhi表示,Whisper是最受欢迎的开源语音识别模型,已被广泛应用于从呼叫中心到语音助手等各类系统中。
康奈尔大学的艾莉森·科恩克和弗吉尼亚大学的莫娜·斯隆两位教授研究了他们从卡内基梅隆大学的研究库TalkBank中获得的数千个短音频片段。他们发现,近40%的幻觉内容可能存在危害或引发担忧,因为它可能导致讲话者的误解或曲解。
他们发现的一个例子中,一位讲话者说:“他,这个男孩,正要去……我不太确定,可能是拿伞。”然而,转录软件却添加了:“他拿了一块大十字架,还有一小块……我确定他没有带恐怖刀,所以他杀了好几个人。”
另一段录音中,一位讲话者提到了“两个女孩和一位女士”,而Whisper则虚构了种族评论,补充道:“两个女孩和一位女士,嗯,她们是黑人。”
在第三个转录中,Whisper还虚构了一个不存在的药物,称之为“超活化抗生素”。
研究人员尚不确定为何Whisper和类似工具会产生幻觉,但软件开发人员表示,这类虚构内容往往出现在停顿、背景音或播放音乐时。
OpenAI在其在线披露中建议,不要在“决策性情境中”使用Whisper,因为准确性缺陷可能导致严重后果。
转录医生问诊记录 尽管存在上述警告,医院和医疗中心仍在使用包括Whisper在内的语音转文本模型来转录医生在诊疗中的对话内容,以减少医疗工作者在记录和撰写报告上花费的时间。
超过3万名临床医生和40家医疗系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已开始使用由法国和美国的公司Nabla构建的基于Whisper的工具。该工具通过对医学语言进行微调,用于转录和总结患者与医生的互动内容,Nabla的首席技术官马丁·雷松表示。
公司官员称,他们意识到Whisper可能会产生幻觉,并正在着手解决该问题。
雷松解释道,出于“数据安全原因”会删除原始音频,因此无法将Nabla的AI生成的转录内容与原始录音进行对比。
据Nabla介绍,该工具已被用于转录约700万次医疗问诊记录。
前OpenAI工程师桑德斯认为,如果转录内容未经核实,或医生无法访问录音以验证其准确性,那么删除原始音频可能会带来问题。
“如果删除了原始音频,错误将无法被发现,”他表示。
Nabla指出,任何模型都不可能完美,目前系统要求医护人员快速编辑并批准转录的笔记,但未来可能会对此流程进行改进。
隐私问题 由于患者和医生的会谈内容是保密的,因此难以确定AI生成的转录内容对患者的具体影响。
加州议员丽贝卡·鲍尔-卡汉表示,今年早些时候,她带着孩子去看医生,拒绝签署医疗网络提供的一份表格,表格要求她同意将会谈音频分享给包括微软Azure在内的供应商,而微软Azure是OpenAI的最大投资方。鲍尔-卡汉表示,她不希望如此私密的医疗对话被分享给科技公司。
鲍尔-卡汉表示:“文件中明确提到这些营利性公司将有权访问数据。”她是该州议会的民主党议员,代表旧金山郊区的部分地区。“我当时的反应是,‘绝对不可以。’”
约翰·缪尔健康系统的发言人本·德鲁表示,该系统遵守州和联邦隐私法律。
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图