|
语料库的分类 | |||
作者:admin 文章来源:本站原创 点击数: 更新时间:2011-11-16 |
|
||
说明:引用此文请注明出处,并务请保留后面的有效链接地址,谢谢!
语料库的分类 语料库根据收录语料的内容和属性不同,通常可分为以下四种类型: ■异质型语料库 异质型语料库(Heterogeneous corpus)指没有特定的语料收集原则,广泛收集并原样存储各种语料。如英国牛津大学计算中心的OTA文本档案库。 ■同质型语料库 同质型语料库(Homogeneous)指只收集同一类内容的语料。例如收集与军事的文本的美国TIPSTER语料库。另外,还有国内的新华社“新闻语料库”、北京大学计算语言学所与富士通公司合作开发的“日报语料库”、香港城市大学语言资讯中心的中文五地区共时语料库(Linguistic Variety in Chinese Communities)等。 ■系统型语料库 系统型语料库(Systematic)指根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实。如:北京语言大学的“现代汉语语料库系统”、北京语言大学与香港理工大学合作的“现代汉语语料库”、北京语言大学与清华大学合作的“现代汉语语料库”、清华大学中文系的“清华TH语料库”、语言文字工作委员会语用所的“现代汉语语料库”等。 ■专用型语料库 专用型语料库(Specialized)指只收集用于某一特定用途的语料。如:美国卡耐基-梅隆大学为儿童心理语言学而的CHILDES语料库、为珍藏人文科学著作和资料而的美国北美人文科学语料库等。 |
|||
文章录入:admin 责任编辑:admin | |||
【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口】 |
|
||||||
| 网站地图 | 版权申明 | 设为首页 | 加入收藏 | 会员中心 | 取回密码 | 友情链接 | 用户留言 | 管理登录 | ||||
|