首页 机构概况 科研成果 应用对策研究 重大科研项目 重点学科 专家学者 学术交流 三公经费公开
进入政务邮箱
咨询留言板
站内搜索:
导航栏
咨询留言板
科研成果
应用对策研究
重大科研项目
 
友情链接
“蒙古语语料库”一期工程言语语料库首批成果展示
来源:     2016-04-06 10:58
------------------------------------------------------------
   

  “内蒙古民族文化建设研究工程”数据库

  “蒙古语语料库”一期工程言语语料库

  首批成果展示

  “蒙古语语料库”建设工程言语语料库,是搭建在“内蒙古民族文化建设研究工程”数据库大平台上的重要语料库成果之一。经内蒙古自治区社会科学院建议申请、自治区人民政府批准,我区于2005年启动了“蒙古语语料库”建设工程。该工程分两期实施,即在2005-2014年建成“言语语料库”,为一期工程;在2015-2024年建成“文献语料库”,为二期工程。

  截止2014年11月,在一期工程完成中国8省区、蒙古国5省市、俄罗斯2个共和国境内97个采集点搜集6725人、4192个小时自然口语语料和4000多小时书面语语料的收集工作,并建成8000小时语料或8000万词“言语语料库”(已于2014年11月通过专家评审鉴定,专家组认为其成果质量达到国内外先进水平)的基础上,于2015年开始实施二期工程。

  建立“蒙古语语料库”旨在大规模搜集真实言语语料和限量收集珍贵文献语料,重点是在中国八省自治区、蒙古国四省一市、俄罗斯布里亚特共和国和卡尔梅克共和国境内搜集蒙古语、达斡尔语、鄂温克语、鄂伦春语自然口语语料,以及收集我国现行蒙古文历史文献和现代文献语料。建成这样的少数民族语言大型语料库有利于国家语言资源安全,有利于民族语言资源保护,有利于民族语言文字信息化进程,有利于民族文化遗产保护。

  “蒙古语语料库”建设工程实施十年来,根据自治区领导“一次规划,多年实施”的指示精神,“着重抓好蒙古语自然口语语料的搜集、书面语料的收集、语料标注加工和创建原始语料管理系统的工作”。2007年1月确定了一期工程三大目标,即“搜集言语语料、收集文献语料和创建蒙古语等三少民族语言资源库”做出了调整部署,并将“收集文献语料”工作安排在二期工程进行。至此,“蒙古语语料库”建设工程一期工程主要目标和任务被确定为搜集自然口语语料、收集书面语料和标注部分自然口语语料,并建立原始语料管理系统。

  同时,完成了4000多小时蒙古语新闻、故事和义务教育《语文》课本等书面语料的收集工作,以及200小时的自然口语语料国际音标标注和传统蒙古文转写工作。

  “蒙古语语料库”言语语料库,由如下三部分组成:

  (一)档案文件以采集点为单位向检索者提供发音人信息、发音人授权书、发音人状态、搜集点、录音设备、录音地点、录音时间、文件名、文件长度、谈话主题和录音人信息等。

  (二)检索界面是通过地图点击方法,检索采集点,根据发音人信息和谈话主题选择语料,经授权可试听和复制。它具有编辑加工功能,但无删除功能,还将永久保留每一次复制记录。

  (三)资源系统除计算机可读的自然口语视频语料外,另备份了DVD和CD两种形式,并保存了原始录制文件。

  目前公开展示发布的是200个小时自然口语精选语料中的30个小时的未标注语料和10个小时的国际音标标注及传统蒙古文转写的原始语料部分。今后还将分批陆续发布。

编辑: 陈君      
内蒙古社会科学院版权所有 内蒙古新闻网站技术支持
地址:内蒙古呼和浩特市大学东街129号 邮编:010010
您是第 位访客