中大??u?x??粤语AI平台 助理解俚语粤拼转写(组图)

发布 : 2025-10-31  来源 : 明报新闻网


用微信扫描二维码,分享至好友和朋友圈

加关注


明声网温哥华 微信公众号

中大语言与视觉实验室负责人王历伟(左)、博智感知交互研究中心主任蒙美玲(右)昨公布粤语大型语言模型(LLM)勾x???x??平台,有助评估各LLM的粤语能力。(郑律铭??o?J??





【明报专讯】广东话有一字多音等特点,人工智能(AI)工具如聊天机械人未必容易理解文字内容。中大团队昨??u出全球首个大语言模型粤语?x??平台「CLEVA-Cantonese」,帮助评估现有大语言模型(LLM)在粤拼转写、俚语理解、粤普转翻等能力,??u动粤语LLM发展。

有份领导研究的中大InnoHK博智感知交互研究中心主任蒙美玲说,粤语一字多音,例如「行(haang4)街、银行(hong4)、唱片行(hong2)、实行(hang4)」,当中「行」的音及声调全部不同,AI将文字转换成粤语拼音时未必准确;而粤语语境的戏名、球星译名、地名,与普通话语境可能有别,粤语另有「食水深」等俚语。她称标准化?x??工具可助开发者及业界识别AI模型强弱。

称粤语人口虽少 对港仍然重要

「CLEVA-Cantonese」?x??平台可多方面评估LLM的粤语水平,例如粤拼转写、粤普翻译、中英夹杂的文句转译、冒犯语言检测、专有名词理解等。蒙美玲说,系统采用香港语言学学会「粤语拼音方案」来核对粤拼,同时获凤凰卫视提供粤语数据。平台在导入及筛选数据后可生成任务,?x??LLM在指定范畴能力水平,例如拟定多项选择题等,可得出评分及反馈。

蒙美玲说,虽然粤语人口比例较普通话小,但从中国文化角度,粤语「很有特色、对香港尤其重要」,从文化保育及传承层面,有必要??u动生成式AI的粤语能力。项目另一领导学者中大语言与视觉实验室负责人王历伟说,如模型对粤语理解更贴近日常生活文化的表达习惯,人们更能藉AI帮助学习、工作及生活。