微博是个可爱又可畏的东西。微网民们每天1亿多条信息,晒晒心情发发嗲,偶尔还能逼走个领导人。哭闹的小孩听到父母要把自己的糗事在微博上“微”曝光,立马收声。荷兰人叶达安(Daan van Esch)对微博也很痴迷,甚至建了一个微博语料库,来分析大家在微博上究竟说什么。
“爱情”很热门
在传统媒体将中国人简化为各类统计数字的情况下,莱顿大学汉学院硕士生叶达安认为,微博展示了中国人更为人性的一面。“通过微博,我了解到原来中国人和我们也一样,‘爱情’是微博上非常热门的话题。”
“我希望能把微博当成一面镜子,从中看到中国的网友们都在想什么。”莱顿大学汉学院硕士生叶达安解释自己建这个“莱顿微博语料库”(Leiden Weibo Corpus)的初衷时说。
[media:image]
“大山”启蒙
当然,叶达安对中文语言的痴迷也是他建语料库的原因。喜欢挑战的叶达安在16岁时开始自学中文。他原来的选择是日文,但做石油贸易的父亲当时告诉他,中国在 未来将十分重要。一次去中国天津出差,父亲给他带了第一份中文学习资料,就是跟着那位满口标准中文的加拿大人“大山”学中文。
叶达安不仅爱中国古贤留下的平仄顿挫,更为网络一代的语言涂鸦而着迷。“什么叫‘我在生病ing’,‘打酱油’是什么意思······”微博上所展示的中文语言的变迁,对于这位新生代的汉学研究者来说,显然十分诱人。
微博词条分析
他所建立的这个语料库,是世界上首个可对微博词条进行整合分析的系统资料库。系统不仅可以按照城市、性别等对微博进行检索,还可以对某个特定话题或者词语的使用进行地理分布分析。
譬如,在微博语料库中搜“荷兰”二字,可以发现,这个词在海外用户的微博中出现的频率最高。其中,位于荷兰的微博用户发出的帖子中,每100万字中出现了 1616.1次“荷兰”这个词,位居榜首。同时,这个语料库与许多现有的网络资源统相整合,例如MBDG中英词典、谷歌翻译等,便于包括母语非中文的人士 使用。
“锁匙”还是“钥匙”
中 文词语的实际使用其实就是叶达安建这个微博语料库的出发点。他说,去年10月,一位美国学汉语的朋友问他,究竟在什么情况下用“锁匙”,什么情况下用“钥 匙”。他当时也对此一知半解,但这反倒给了他一个启示:如果中文也有一个语料库,分析各个词的实际用法,或许能帮助他解决这个问题。
在与新浪以及教授接洽联系之后,去年12月份,他开始用自己中学“无所事事”时自学的编程知识,编写语料库程序。短短两个月时间,他便完成了编程。
微博语料库在4今年月底正式推出以来,已经得到世界各地的关注。在他发出语料库介绍以及链接的最初半个小时内,已有200多人上他的语料库。目前也已有英 国、美国、台湾和荷兰等全球各地的学府开始使用他的微博语料库来进行汉学研究,其中包括微博中各种表情的使用、微博上的藏文、中文中ing的用法、以及 语气词的用法等。语料库受人欢迎的程度也让叶达安受宠若惊。
继续扩大
他希望,莱顿微博语料库能提供一个相对稳定的微博信息库存,就算过10年20年,研究人员还能从中搜索到今天人们在微博上所说的话。
由于资金有限,叶达安目前仅在语料库中存入了2012年1月份新浪微博上的一小部分信息。但这也已经包括大约510多万条信息,1亿多个词条。他正在积极联系资源,希望继续更新这个微博语料库,让它继续扩大。
“语言不断在变迁。我希望学习中文的外国人在学习正规语法结构时,也能使用现活的语言。”叶达安说。他今年就要从汉学院毕业了,但他希望今后能继续“享受”和“学习”中文。