Page 1 of 1

能会非常有限。除了没办法接入

Posted: Sun Dec 22, 2024 9:02 am
by rifat22#
中其他种语言资源匮乏代表性不足。 全球有近,种语言缺乏大语言模型支持。 你讲的语言是高资源还是低资源 传统自然语言处理, 研究会把语言分类成高资源 语言和低资源 语言。前者涵盖约种语言包括英语中文西班牙语法语德语日语俄语葡萄牙语阿拉伯语印地语意大利语韩语荷兰语土耳其语波斯语瑞典语波兰语印度尼西亚语越南语希伯来语。 这些高资源语言有着丰富的语言资源例如广泛的文本用于机器翻译的平行语料库综合词汇词典句法注释和用于监督学习的标记语料库。 也有些高资源语言如荷兰语可能没有大量的使用者但有着强大的语言研究学者和成果产出了重要的语言语料库和工具于是也成了高资源语言。



相反某些低资源语言例如尼日 南非电话号码 利亚皮钦语 有超过 亿人使用但缺乏大量的研究和开发使其处于低资源状态。学术界直苦于低资源语种的投资不足。 如果个语言有足够多的人使用还好至少还能世代流传下去。有些低资源语种本来使用者就不多又缺乏足够的研究使得它们也逐渐变成了“濒危语种。 以为代表的大语言模型的出现仿佛给世界语言带来了束光。 大家发现不需要训练专门的机器翻译系统也能在不同语种之间自由翻译和转换。用做翻译或者使用其他语言去给发指令往往给非英语说话人留下深刻的第印象。 很多人对语言智能的认知还停留在金山词霸阶段 —— 有个多语种的电子词典可以做双语种互相翻译。

Image

可是如果有这么个神器可以接受我用母语输入并能够用我看得懂的语言智能地做出回答可真是太神奇了。 于是很多人不禁要问既然大语言模型这么神奇是不是这世界上的低资源语言也有救了 语言学鼻祖 k毕生致力于发展门世界通用语法 。他有段非常出名的比喻如果外星人来到地球他们能够听懂读懂地球上的所有语言。因为在他们看来地球上每种语言都遵循同样的语法只不过大家说的是不同的“方言而已。 如果能在多种语言之间切换自如那它是否破解了这世界通用语法的奥秘 低资源语言在大语言模型 中的代表性仍然不足尽管大语言模型具有变革潜力但现实仍然是大语言模型主要迎合英语和少数其他高资源语言。