基希讷乌

世界上最怪异的语言是什么

发布时间:2020/11/20 18:03:59   点击数: 3 次
北京哪里有治疗白癜风医院 http://m.39.net/pf/a_4781959.html

作者:RobertMunro

编译:江烈农

本文的作者是一家语言数据公司的CEO,这家公司为世界各地的企业提供结构化的语言解决方案——简单说,就是处理邮件、短信和社交媒体上的自然语言资料。自然语言(NaturalLanguage)是我们人类交流时所用的语言,与人造语言(如编程语言)相对;自然语言处理(NaturalLanguageProcessing,NLP)就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理,这个话题本身固然有趣,而本文的价值还在于作者采取了一种非传统的处理方式:不以英语为衡量基准,而使用一个全球性的价值观。

我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。

自然语言处理(NaturalLanguageProcessing,下称NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个NLP系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。

NLP有一个公开的秘密:它以英语为中心

图片来源:pexels

为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。

纵观全球,纠出“语言异类”

语言结构世界地图(WorldAtlasofLanguageStructures,下称WALS)根据一大堆各种语言特征,评估种不同的语言。这些语言特征包括词序、声音种类、否定方式,以及许多其他方面——共计种不同的语言特征。

因此,与其采用一个以英语为中心的世界观,WALS毋宁允许我们换用一个世界性的世界观。也就是说,我们评估每一门语言,根据的都是其每种语言特征的不寻常度。例如,英语的词序是“主语—动词—宾语”,WALS对种语言的词序进行编码,其中35.5%具有“主动宾”词序。同时,只有8.7%的语言以动词作为起始,比如威尔士语、夏威夷语和马扬语(Majang)。因此,从跨语言学角度讲,以动词作为起始,就是不寻常。另外顺带一提,实际上全世界语言有41.0%是“主宾动”顺序。(题外话:从事了一些夏威夷语和马扬语的相关工作后,动词对我而言,简直就变成如结婚般重大的承诺:每每开口,我却总是还没有做好准备。)

WALS的数据相当稀疏,所以我们把研究限定于种语言特征,这些特征至少要包含种不同语言的数据。(现阶段,就这种语言特征而言,数据不足其中10种的语言,我们也剔除掉了。因此共计还剩种语言。)

现在,有个问题就是,如果我们的筛选到此为止,那么数据共线性太高。之所以如此,部分是因WALS中列举的语言特征本质而决定——有整体考量“主语/动词/宾语”顺序的特征项,另又有分别考量“宾语/动词”和“主语/动词”的项。理想情况下,我们希望基于不相关的特征评断怪异度。我们可以集中

转载请注明:http://www.hechaoqiongq.com/jxnwjj/18294.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章