学术论文
  • 文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果.目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法.该方法基本框架是一个双向LSTM的编码—解码模型,在此基础上引入了藏文字嵌入、注意力机制和多任务学习法.实验结果表明,该文提出的方法在藏文律诗生成结果中BLEU值和ROUGE值分别能达到59.27% 、62.34%,并无需任何人为的特征设置.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 语言是现实生活中最主要的信息交流方式。语言模型是语言研究中的一项基础工作,能够提供有效的词表征以及词序列的概率化表示,可以应用于语音识别、机器翻译、手写体识别和句法分析等相关研究。目前,语言模型在英语、汉语和日语等语料相对充足语言领域已经取得了比较理想的效果。而针对藏语的相关研究仍处在初级阶段,由于藏语语料资源的匮乏和研究人员的稀少,严重制约了藏语语言模型的研究发展。在此背景下,本文从藏语自身的语言特点着手:一方面构建了藏语语料库,以验证本文研究结果的合理性;另一方面是从藏语形态结构出发,解决在有限的语料中获取更加有效的信息来补充资源缺乏的问题。 

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:

    运行环境:

    资源大小:

    文件格式:

  • 本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析.本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 藏文虚词"???"类是藏文语法中的非依他关联词,共有14个虚词.是藏文语法中的基础,并且是藏文信息处理的基础研究内容之一.本文结合藏文虚词添接规则和正则表达式对虚词"???"类进行识别算法研究.以6本初中藏文教科书作为实验语料,通过实验得出藏文虚词"???"类识别准确率达到99.94%.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 机器理解藏文语句存在灵活性差和复杂性高的问题.为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法.通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句.实验结果显示,与其他语言复述生成方法不同,该方法根据藏文句子中组块数量的不同,通过一个句子可以生成一个或多个,甚至上千个句义相同的复述句并且准确率达到93.4%,可应用于藏汉机器翻译、机器翻译评测和藏文问答系统等领域.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 随着人工智能的发展,循环神经网络语言模型(RNNLM)在很多语音、自然语言处理相关领域表现出了很好的性能,从而超过了传统的N元语法模型(N-gram)成为主流的语言模型建模方法。但目前对于藏语来说,研究条件的限制和训练数据的匮乏,给藏语RNNLM的研究造成了诸多困难,使得N-gram语言模型仍然占据主要位置。本研究主要从模型训练技巧和藏语特性探究两个方面出发,来解决藏语RNNLM训练数据匮乏的问题。分别提出了插值语言模型、使用领域自适应的循环神经网络语言模型以及结合藏文部件的循环神经网络语言模型。同时,为了验证提出的方法的有效性,本研究中不仅使用困惑度(perplexity,简写为PPL)来评价语言模型,还搭建了完整的语音识别系统,并使用将语言模型应用于语音识别中后得到的字级别识别结果作为评价指标。实验中包括两个训练数据,大小分别为150万字和2130万字,测试集共有12.6万字。实验结果表明,和传统的3-gram语言模型相比,使用插值语言模型PPL相对降低了16.1%,字错误率(CER)相对降低了6.3%;使用领域自适应的语言模型PPL相对降低了34.2%。和标准的 RNN 语言模型相比,结合藏语部件的 RNN 语言模型取得了13.5%的相对PPL降低。该研究解决了训练藏语循环神经网络面临的数据匮乏问题,从而提高了藏语语言模型的性能。

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 藏语是语序非常灵活的一种语言,藏语词法分析和句法分析等浅层研究不能很好地满足藏语自然语言理解的需求.从简单句型的藏语句子出发,研究了基于投射的藏语语义依存分析,构建了藏语语义依存树库,设计了语义依存弧类型分析特征模板.最后通过最大熵分类模型,对人工分析过的语义依存弧的句子进行依存弧的类型分析并进行标注,为今后的语义依存分析提供新的思考视角和更好的理论支撑.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 现阶段是信息化的时代,也是科技化的时代。随着云计算、大数据、人工智能等诸多领域的快速发展,神经网络语言模型也在跟随时代前进的脚步,在语音识别、光学识别技术、自然语言处理等方面也彰显着神经网络语言模型特有的性能和效果,从而在一定含义上超过了基于语法、语义的语言模型建模,也超过了基于统计的、传统的N元文法语言模型建模,成为现阶段最主要的前沿点。但在藏语方面,作为少数民族语言来说,研究条件的缺乏和训练数据的匮乏等诸多影响因素给研究造成了困难,使得传统的N元文法语言模型在藏语研究方面占据很重要的位置。本论文在已了解语言模型理论知识的前提下,结合对神经网络理论知识的认识,对藏语语种进行语言模型的构建,构建基于神经网络的藏语语言模型,通过对神经网络的细节研究实验,例如:改变模型参数等方法来实验,来了解和验证神经网络语言模型的效果性和性能性,选取传统的基于统计的N元文法语言模型作为比对,构造基于N元文法、神经网络下的藏语语言模型,目的是得到性能更好、效果更佳的藏语语言模型。同时,在研究的进行过程中,为了匹配提出的方法的有效性、严谨性,本论文不仅使用语言模型的直接评判标准困惑度作为指标来评价语言模型,还将语言模型应用于具体的应用上,通过实验藏文文本校对上的字级别字正确率来间接观察语言模型的好坏。实验中通过改变神经网络语言模型中隐藏层神经元个数和利用上下文字向量等特征来进行实验,解决了基于统计的语言模型不能获取长距离约束的问题。同时在文本校对实验中,也同样通过调整隐藏层神经元个数等特征来训练模型。最后,在实验结果中发现,与传统的N元文法语言模型相对比,使用神经网络语言模型,困惑度降低了许多,改变隐藏层的神经元个数,也不同程度地影响了语言模型的困惑度。在此基础上,通过嵌入字向量特征,发现语言模型困惑度降低了,语言模型性能相应地提高。在后续的自然语言处理任务中,神经网络语言模型在具体的文本校对上对字级别的字正确率也提高了。实验结果表明,实验优化后的藏语神经网络语言模型性能和效果要优于传统的基于统计的N元文法模型,同时也提高了在具体应用文本校对上的关于藏语语言模型的性能和效果。

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 在互联网和人工智能日新月异的发展中,若能从非结构化的藏文律诗文本中提取结构化数据时,不仅能推动机器自动写诗的能力,而且在藏文智能信息处理中具有非常大的研究价值。该文首先介绍了律诗自动生成的研究背景和现状。然后进一步了解了自然语言处理领域中备受关注的词向量、循环神经网络、长短期记忆网络、编码器解码器模型以及注意力机制等的基本思路和数学原理。最后实现了如何从藏文网页或者电子书籍中获取藏文文本的方法,其中包括了从 ePub文件类型中获取藏文文本的流程及其代码,还有藏文文本中获取藏文律诗的抽取算法及其代码。通过抽取算法共收集了373636首藏文律诗,从中各抽取500首分别作为验证集和测试集,剩余的作为训练集。  本文的主要生成模型借鉴了汉语律诗的自动生成模型。在藏文律诗生成模型中包含了三个小模型,分别是训练单个诗句的诗句模型、训练多个诗句的诗块模型以及训练主题生成首句的诗字模型,其中最基本的框架是一个基于双向 LSTM的端到端模型。这三个小模型所使用的训练数据不一样,因此需要承担的任务也不同。每个模型的编码器中都使用了双向 LSTM,主要是为了突出每个藏文诗句中的核心词,使得模型能够很好地捕捉到藏文诗句中的重要信息,而不用平等地看待诗句中的所有字信息。训练每个模型时源诗句和目标诗句都使用了正序,这样有利于LSTM和注意力机制更好地从藏文律诗中学习相同词位上使用相同音节个数的规律,同时会保证藏文新律诗的节奏一致性问题。通常在藏文律诗中比喻词和源喻词处在相同的位置上,所以使用了局部注意力机制,这样不仅能加快计算速度,而且其生成结果没有明显下降。每个模型中引用了从藏文律诗语料中预先训练好的藏文音节向量来初始输入值,而不用随机值来初始化,这样既可以加快模型收敛的时间,又可以提升各个模型的生成结果。总之,藏文律诗生成模型在测试数据上BLEU值和ROUGE值分别能达到67.43%和68.81%,说明藏文律诗生成模型能生成具有一定流程度和忠实度的藏文新律诗。

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:

    运行环境:

    资源大小:

    文件格式:

  • 藏文虚词在歧义消解、句法、句型和语义处理等方面起着重要的语法作用.该文在分析传统藏文虚词研究成果的基础上,统计了面向自然语言处理的藏文虚词及特征,提出了基于规则和最大熵模型相结合的藏文虚词识别策略.实验表明,该方法识别藏文虚词的准确率、召回率和F1值分别达98.39% 、98.75% 、98.57%.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 藏语自然语言的句法、语义分析不仅是藏文信息处理技术向智能化发展的前提和基础,还可以为目前藏语词法领域所遇到分词单位不一致,词性标记不统一等问题及相关技术瓶颈提供理论支撑与技术方案,在藏语自然语言处理中起到承前启后的作用.  藏语语言学有着悠久的历史,也已经形成了比较完整的文法体系,但是藏语传统语法注重虚词的语音形式和语法功能,不太考究概念之间的语义关系及句子成分之间的结构问题.所以,从信息处理的角度来说,藏语传统语法难以实现形式化.面向自然语言处理的藏语句法、语义分析研究正处于起步阶段.因为藏语传统语法中缺少语法结构方面的描述,所以目前有些研究机构和专家学者借鉴和采用汉语句法理论和语义分析方法对藏语进行句法语义分析.而这种研究方法有以下几个问题值得思考:  首先,语言是通过形式表达意义,在意义对形式的依赖方面,汉、藏两种语言选择了截然不同的方式,使之表现出各自的特点.汉语和藏语虽被认为同属一个语系,这种"同属"尚处于假设当中.从句子的结构来看,藏汉两种语言异大于同,现代汉语句子结构主要是靠词的"次序",而藏语更多地依靠"格标记"或"格助词".所以,这两种语言所遵循的语法规则是不同的.其次,现代汉语句子的语义层要经过主语化才能与句法结构相联系,其表层句法和深层语义分析是两个不同的语言学研究层面,因而采取了"先句法后语义"的研究策略.藏语句子的深层语义是通过"格标记"或"格助词"直接体现在句子的外层结构中,所以其句法、语义应该"一体化",不分先后.最后,词汇的词性划分主要取决于其语法功能.采用现代汉语的基于短语结构的标准语法去描述藏语句子结构,不仅额外增加了一项研究内容,还会大大缩小藏语语法的句子生成能力,也导致了藏语分词单位划分及其词性标记的不统一.  所以,"什么样的语法体系既能体现藏语自身的语法特点,又能便于形式化"这是一个具有理论高度的研究课题. 

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

  • 目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息.该文提出了一种改进的藏文抽取式摘要生成方法.该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要.实验结果表明,该方法能有效提升摘要质量.该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法.

    请注册登录之后,访问资源详细内容,并下载资源!

    下载

    资料名称:

    资源分类:学术论文

    资源分享者:

    资源介绍:

    研究方向:

    联系方式:

    来源:省部共建藏语智能信息处理及应用国家重点实验室

    运行环境:

    资源大小:

    文件格式:

首页上页12345...22下页尾页