当人工智能未能通过语言测试时,谁被排除在对话之外?

纽约时报7月26日报道,斯坦福大学的研究人员给一个流行的人工智能聊天机器人进行了语言测试。



他们用越南语让这个机器人写一首传统的“song thất lục bát”格式的诗,这种诗的格式要求每段由七个字、七个字、六个字和八个字组成。当机器人生成答案时,它写了一首诗,但没有遵循这种格式。


研究团队尝试了另一个问题,问机器人母亲的弟弟在越南语中的正确称呼是什么,它却回答了父亲的弟弟和哥哥的称呼。


这些缺陷不仅仅出现在Anthropic公司开发的Claude 3.5这个聊天机器人中,而是说明了人工智能在处理标准美式英语以外的语言时可能出错的一些方式。


虽然人工智能在西方的使用量激增,但由于大多数技术都是用英语训练的,世界上大部分地区都被排除在这场对话之外。人工智能专家担心,这种语言差距可能会加剧技术不平等,导致许多地区和文化被落下。


斯坦福大学人工智能实验室的博士候选人尚·张(Sang Truong)是开发和测试越南语语言模型的团队成员之一。他表示,“即使仅仅几年的技术获取延迟,‘可能导致几十年的经济延迟’。”


他的团队进行的测试发现,所有的人工智能工具在处理越南语时都可能出错,原因可能是越南语在行业标准中属于“低资源”语言,这意味着在线上没有足够的数据集和内容供人工智能模型学习。


低资源语言在全球有数亿人使用,但由于人工智能技术开发和在线参与主要集中在美国和中国,这些语言产生的数字数据较少。其他低资源语言包括印地语、孟加拉语和斯瓦希里语,以及一些由较小人口使用的较少见的方言。


根据技术调查公司W3Techs的分析,顶级网站中超过60%的语言数据是英语。尽管英语在全球广泛使用,但根据收集语言数据的研究组织Ethnologue,英语为母语的人口只占约5%。普通话和西班牙语是其他在网络上有显著存在和可靠数字数据集的例子。


学术机构、草根组织和志愿者努力追赶,为那些在数字领域中代表性较低的语言使用者建立资源。


位于约翰内斯堡的Lelapa AI公司正是非洲大陆上推动这些努力的公司之一。这家南非初创公司正在为非洲的人们和企业开发多语言人工智能产品。


Lelapa AI的首席执行官兼联合创始人佩洛诺米·莫伊洛阿(Pelonomi Moiloa)说:“我认为这种观念非常危险,人们需要同化不同的文化并接受不同的文化才能获得进步的机会。”


她表示,公司更注重社区特定的解决方案,而不是规模化。公司正在设计其产品,使其更高效、更具成本效益,并主要用于本地语言的语音对语音通信,从而使技术更容易为非洲人民所用。


布鲁金斯学会技术创新中心的研究员Chinasa T. Okolo谈到低资源语言社区时说:“像谷歌、苹果、OpenAI这样的大公司并没有专门为这些市场服务的工具训练他们的模型。”“对他们来说,这些市场不提供足够的市场价值。”


OpenAI的一位通信官员表示,公司正在逐步向更多群体发布AI系统,其最新模型支持超过50种语言。谷歌指出其专注于AI开发的项目,包括2022年宣布的“1000种语言”计划,旨在为世界上最常用的1000种语言建立语言模型。苹果也表示,他们开发了支持多种语言的产品。


AI工具中的语言差距可能会带来许多后果。AI专家指出,这项技术有潜力提高生产力并改变工作场所,但如果没有本地语言的可靠数据,世界某些地区可能无法享受到经济利益。低资源语言的排除还可能导致AI产品中的文化偏见。


AI在低资源语言方面的知识不足也可能引发安全问题。Cohere的非营利研究部门Cohere for AI的负责人Sara Hooker表示,一些用户可以通过使用其他语言来绕过AI产品的安全措施。


“你可以轻松地通过切换到另一种语言来获取如何制造炸弹的非常危险的指示,”Hooker女士说。


Hooker女士在Cohere for AI的团队于2月推出了一个名为Aya的多语言AI广泛模型和数据集,包含101种语言,并依靠3000多名独立研究人员的志愿努力。但她表示,即使是这样大的项目也不是解决语言滞后的办法。


她说,在AI行业,通常关注的是最新模型及其表现,“但在这个特定的话题上,它也在重塑整个生态系统,”并补充说,除非世界各地的研究人员参与AI的进一步快速发展,否则差距将会扩大。


虽然该问题对行业中的许多人来说显而易见,但解决方案却很复杂。用于人类语言交流的“大型语言模型”(L.L.M.s)需要大量高质量的数据,通常从互联网上收集,而低资源语言的数据不易获得。张先生将构建L.L.M.比作教一个新生儿:可能有2万本英语教材,但越南语的教材只有5本。


在一些地区,差距大到政府不得不介入支持构建自己的语言模型。今年春天,尼日利亚政府承诺支持初创公司Awarri构建本地语言模型。冰岛政府和威尔士政府与OpenAI合作,改进ChatGPT对当地语言的理解。

Lelapa AI公司的Moiloa女士说:“语言差距在获取方面确实很重要,但它也非常重要,可以帮助重新激发人们对自己身份和来历的自豪感。”


斯坦福大学Stanford Trustworthy AI Research负责人Sanmi Koyejo表示,将更多语言纳入所有AI产品也很重要,以捕捉文化细微差别和多样化视角。


Koyejo博士提到斯坦福大学的一项研究,该研究向AI聊天机器人提供Pew Research的问题以评估其偏见。他说,聊天机器人的回答最接近加利福尼亚人的观点,而大部分技术都是在那里开发的。


“文化是其中一个重要方面,”他说。“如果你只看到互联网或以美国为中心的世界观,你会失去一些东西。”


新闻来源:纽约时报              作者:Sara Ruberg


编辑:Audrey

(声明:请读者严格遵守所在地法律法规,本文不代表任何投资建议)

本文来源:元宇宙头条 文章作者:元宇宙头条
收藏
举报
元宇宙头条
累计发布内容523篇 累计总热度10万+
523篇 10万+
FTX 后院起火,Binance 釜底抽薪
FTX 后院起火,Binance 釜底抽薪
FTX 后院起火,Binance 釜底抽薪

元宇宙头条现已开放专栏入驻,详情请见入驻指南: #

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表元宇宙头条观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

评论 共0条
默认
|
点赞
说点什么吧
相关文章
您需要登录后才可以回帖 立即登录