标签: 语料库语言学


27

2010年8月

久久很有趣

中国剪接读者Matthew最近向我介绍了 久久,一个例句数据库。中文名字, 句酷,是一个双关语 句库,意思“sentence base,”在...的命名传统中 恩库库)。 久久上发生了一些非常有趣的事情。这里’是结果的屏幕截图 搜索“get”:

久久的搜索结果"get"

我喜欢其中一些随意的句子。一些值得注意的事情:

–上面的屏幕截图中的示例句子均取自 关于Face 3,这是一本关于目标导向设计的著名书籍,已经以多种语言出版。
–Jukuu不仅提供多种翻译(按词性分组),而且还提供其数据库中各个词性的分布(即’s右边的饼形图表示的是什么)。
–Jukuu还提供其他单词形式(词形)“get” (in this case, “gets,” “getting,” “got,” “gotten,” and even “getable”).
–如果单击右上角的翻译之一,则结果页面将显示仅包含该翻译的句子“get” (for example, 这一个 得到 )。
– You can 得到 similar results without going the “确切的翻译路线”通过仅搜索英文和中文混合的多个单词。 (句子’要么被审查。玩得开心!)
– If you go to the “get”结果页面,在右列的下方,您还会看到以下链接:“经常在这个词之前的形容词” “这个词之前的动词,” “这个词之前的介词” and “这个词后面经常出现名词。”

这种事是语言学家’是梦想,只有通过语料分析和部分语音标记才能完成,这是一项繁重的工作。它’看到这样的资源可以在线公开发布真的很酷。


29

2010年7月

兰迪和不规则动词的半衰期

昨晚我遇到了 中华音, 雨雯满族回声 晚餐和进口啤酒。我们进行了热烈的聊天,话题涉及英语和汉语语言学,科幻小说和(邪恶的天才)乔尔·马丁森(Joel Martinsen),再到西格洛特乐队,以及他们如何欺骗兰迪学习满语。

我们开始谈论一些我们最喜欢的语言学文章, 语言记录 或其他地方,我提到了英语中不规则动词的半衰期。我想给兰迪发一个链接,但我很沮丧地发现哈佛大学数学家埃雷兹·利伯曼(Erez Lieberman)的原始文章 现在在收费墙后面。您所能找到的只是链接到曾经免费提供的文章的文章。

但是我挖了一些(我们’从正规化到“digged,” I’我猜),最终我发现了看起来像是原始文章的免费副本, 量化语言的进化动力,由NIH的朋友提供。不幸的是’仍然缺少原始论文中包含的伟大图表,该图表按频率对不规则动词进行排序,并给出了每个规则化的时间估计(以年为单位)。 (不过,本文中有一个以文本文件格式链接的无序列表。)

这和中文有什么关系?一世’d喜欢看现代汉语的类似研究。当然,汉语动词没有词形变化,所以它不会’关于不规则动词的正则化。但这可能与某些单词的可变发音有关(例如 角色, 要么 说服)或字符选择(是 要么 ?)。中国学术界仍然有很多人痴迷于标准化,什么是“correct,” so you don’看不到很多客观研究,但那种态度赢得了’永远持续下去。中国语料库语言学还比较年轻,但是’取得了长足的进步,我非常希望将来能看到这种研究。

您想看哪种类型的研究?