广 告
科技长廊 >>  信息技术>> 汉语缩略语的自动处理技术
[专题]科技文章
热 

汉语缩略语的自动处理技术
作者:转载    转贴自:科技长廊    点击数:794    文章录入: zhaizl

缩略语在自然语言中十分常见。人们在运用语言时,总是力求经济、简单。通过对词或多词缩略,较好地起到了精炼表达的效果。例如,由“奥林匹克运动会申办委员会”缩略为“奥申委”,压缩了3/4的汉字。
然而,缩略语的大量使用,形成了自然语言处理中未登录新词的主要词源,导致了中文信息处理在分词、词性标注、词义确定与歧义排除、命名实体识别和实体共指消解等诸多问题上的严重障碍;同时,由于原形式与缩略形式在表层上的不同,对信息检索、关键词抽取等应用也造成了影响。例如,以“欧洲经济与货币联盟”作为检索条目,对含有“欧盟”的文本可能会漏检,反之亦然。由此可见,缩略语处理是自然语言处理中一项重要的基础性工作。
缩略语处理包括多个方面,如,缩略语自动识别,缩略式与原形式关系的确定,缩略语歧义的消解等。北京大学信息科学技术学院计算语言学研究所的孙栩、王厚峰教授和王波于2008年7月发表于《计算机科学技术学报》(JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY)第4期:23(4)上的文章“Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression(缩略语预测:基于支持向量回归的统计学习方法)”报道了他们在汉语缩略语自动处理方面的最新研究成果。文章报道的内容是三位作者在缩略语识别和缩略语歧义消解等缩略语自动处理研究基础上的进一步深入,主要就缩略语自动预测进行了研究。
所谓缩略语预测,就是给定了一个完整的形式(如,欧洲经济与货币联盟),预测最可能的缩略语(如,欧盟)。文章提出了一个基于机器学习的缩略语预测方法,将预测看作为可信值估算和排序问题;以支持向量回归(SVR)作为估算器,得到候选缩略语和它们对应的SVR函数值,此值用于对候选缩略语排序,最后选择排序高的候选为可能的缩略语。
缩略语预测可以用于多个应用领域,特别在信息检索中。当加入缩略语作为关键词扩展查询时,可以大大降低漏检。作者曾在人民日报1个月的语料上,查询相关“欧盟”的文章,如果以“欧洲经济与货币联盟”作为检索词,则只能得到不到实际文章20%的检索结果,因为很多文章含有“欧盟”但不含“欧洲经济与货币联盟”。通过加入缩略语进行扩展后,则可以检索到与“欧盟”和“欧洲经济与货币联盟”相关的所有文章。
  • 上一篇文章: 电信研究院:移动核心网发展趋势

  • 下一篇文章: 谷歌研发出“深度Q网络”计算程序
  •   最新5篇热点文章
      最新5篇推荐文章
      相关文章
    ·给ueditor编辑器赋值[307]
    ·第一性原理计算中电子关联效应…[620]
    ·关节炎药万络增加患心脏病风险[620]
    ·NASA最新行星际探索任务:火星…[621]
    ·南亚热带地带性森林固碳动态规…[621]
    ·C# Request.ServerVariables2[699]
    ·Request.ServerVariables[703]
    ·浅析C# List实现原理[704]
    ·浅析C# List实现原理[705]
    ·龙芯3a7000最新进展[705]
    ·病毒在微型马达帮助下自我组装[2578]
    ·郑成功长啥样? 生前最接近本人画像被修复[2686]
     
    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)