首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

汉语框架语义知识库及软件描述体系

2024-05-03 来源:华拓网
维普资讯 http://www.cqvip.com 第21卷第5期 中文信息学报 JOURNAL OF CHINESE INFORMATION PROCESSING Vol_21,No.5 Sep.,2007 2007年9月 文章编号:1003-0077(2007)05-0096-06 汉语框架语义知识库及软件描述体系 郝晓燕 ,刘伟。,李茹。,刘开瑛。 (1.太原理工大学计算机与软件学院,山西太原030024; 2.山西大学计算机与信息技术学院,山西太原030006) 摘 要:汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言 学研究及自然语言处理研究。该工程的结果包括两部分:汉语框架语义知识库(即词典资源)和相关软件。其中, 汉语框架网络知识库包括框架库、句子库和词元库三部分,相关软件主要包括汉语框架语义知识库管理系统和基 于Web的展示系统。本文介绍了汉语框架语义知识库的语义描述体系以及软件描述体系。 关键词:计算机应用;中文信息处理;汉语框架网络;框架语义;描述体系;软件 中图分类号:TP391 文献标识码:A Description Systems of the Chinese FrameNet Database and Software Tools HAO Xiao—yah ,LIU Wei。。LI Ru ,LIU Kai-ying (1.Academe of Computer&Software Engineering,Taiyuan University of Technology,Taiyuan,Shanxi 030024, China;2.School of Computer&Information Technology,Shanxi University,Taiyuan,Shanxi 030006,China) Abstract:The Chinese FrameNet project is producing a lexicon of Chinese for both human use and NLP applications, based on the principles of Fillmore’S Frame Semantics.It includes tWO parts.One part is the Chinese FrameNet databse(CFN),which contains frames bank,sentences bank,and 1exica1 unit bank.The other part iS a suite of soft— ware tools related tO the CFN,which includes the database management system and the Web~based demonstration system.The paper will give a brief introduction about the description systems of these tWO parts. Key words:computer application;Chinese information processing;Chinese FrameNet;Frame Semantics;descrip— tion system;software tools 的框架语义学[2 为理论基础、以加州大学伯克利 1 引言 汉语框架网络工程是以框架语义学为理论基础 分校的FrameNet[4 为参照、以汉语真实语料为依据 的供计算机使用的汉语词汇语义知识库,研究内容 涉及语义知识库内容的编写、辅助软件的开发和应 用研究等。 的基于语料库的计算词典编纂工程,用于语言学、计 算语言学研究及自然语言处理研究。该工程的结果 包括两部分:汉语框架语义知识库(Chinese FrameNet database,简称CFN)l_1](即词典资源)和 汉语框架语义知识库(CFN)由框架库、句子库 和词元库三部分组成。目前,CFN课题组已就汉语 1 760个词元构建了130个框架,涉及动词词元 相关软件。汉语框架语义知识库包括框架库、句子 库和词元库三部分。相关软件主要包括汉语框架语 义知识库管理系统和基于Web的展示系统。 汉语框架语义知识库(CFN)是一个以Fillmore 收稿日期:2007—04—10定稿日期:2007—06—26 1 428个、形容词词元140个、事件名词(即有配价的 名词)词元192个,标注了8 200条句子;涉及认知 领域用词、科普文章常用谓词以及部分中国法律用 词。框架库以框架为单位,对词语进行分类描述,明 基金项目:国家863高技术研究发展计划资助项目(2006AA01Z142) 作者简介:郝晓燕(197O一),女,博士生,主要研究方向为自然语言处理;刘伟(1982一),男,硕士生,研究方向为自然语言 处理;李茹(1963一),女,教授,研究方向为智能信息处理。 维普资讯 http://www.cqvip.com 5期 郝晓燕等:汉语框架语义知识库及软件描述体系 97 确给出框架的定义和这些词语共有的语义角色(框 语义学认为,框架是词语理解的背景和动因,因此, 架元素),并进而描述该框架和其他框架之间的概念 关系;句子库记录带有框架语义标注信息的句子,即 按照框架库所提供的框架和框架元素类型,标注句 子的框架语义信息和句法信息,它可以作为训练数 据供计算机处理语言使用;词元库记录词元的语义 搭配模式和框架元素的句法实现方式,它们是从句 子库提供的标注结果中自动生成的。 可以根据背景框架的不同,对词语(主要是动词、形 容词和事件名词)进行分类描述。传统的格语法的 “格角色”是相对于所有词汇而言的,而框架元素仅 适用于具有共同背景框架的一小组词语,摆脱了格 语法难以确定的问题,具有个性特征的框架元素更 适合用来描述自然语言语义。例如“波动、增加、提 高、减少、降低”等汉语词语有共同的意义基础—— 2OO6年1o月l1日,国内有关专家对“有限汉 语框架语义知识库构建技术研究”课题进行了科技 成果鉴定。与会专家认为,该课题“运用框架语义分 析方法构建汉语框架语义知识库,开创性地研制了 汉语框架、框架元素体系以及句子标注体系。…… 在信息处理用汉语框架语义研究领域中达到了国际 领先水平。”课题组目前就有限范围的词语所取得的 都表示实体的某种属性从某个值变成另一个值,因 此,汉语框架语义知识库(CFN)的框架库中用一个 框架“量变”进行描述,该框架涉及的框架元素包括 (括号中的字母是标记符号):ent(实体),att(属 性),vall(初值),val2(终值),diff(变幅),val—ran (值区间)等等。 框架元素分为核心框架元素和非核心框架元 素。核心框架元素是一个框架在概念理解上的必有 成分,它们在不同的框架中类型和数量不同,显示出 框架的个性,以上所列举的框架元素都属于“量变” 框架的核心框架元素。非核心框架元素并不显示框 阶段性成果,为扩展领域的CFN构建提供了成熟的 技术和样本。本文即对汉语框架语义知识库的三个 部分及软件的描述体系分别总结说明,并提出后期 工作展望。 2 汉语框架语义知识库(CFN)的语义 描述体系 2.1 CFN框架库 架的个性,表达时间、空间、环境条件、原因、目的等 外围语义成分。 框架库中每个框架都按照以下四方面进行描 述:(1)框架的定义;(2)框架元素的基本定义以及 部分框架元素的示例;(3)该框架所涉及的词元;(4) “框架”(Frame)是跟一些激活性语境(Motiva— ting Context)相一致的一个结构化的范畴系统,是 框架和框架之间的抽象关系。例如“波动、增加、提 储存在人类认知经验中的图式化情境;框架中的各 种参与者称为框架元素(Frame Elementsc),它们在 高、减少、降低”等汉语词语有共同的意义基础—— 都表示数量变化,归为一个框架进行描述,表1简略 地展示了该框架的内容。 使用中与“语义角色”、“格角色”等概念相当。框架 表1 CFN框架库记录样例 框架名 量 变 定义 该框架表示实体在某个维度上(即某属性)的相对位置发生变化,其属性值从初值变至终值。 实体(Ent) 在某属性上具有一定量值的事物。 属性(att) 初值(val1) 实体的有数量变化的属性。 西瓜经人工辅助授粉,坐果率可圈实体的属性值变化的起点。 到8oZ一90%。 终值(val2) 核心框架元素 初状态(inis) 实体最后达到的量值。 西瓜经人工辅助授粉,坐果率可衄O 至25 。 到80 ̄/o一90 ̄/o。 到 实体经历属性值变化之前的状态。 军事课程从原来占总学时的15 唧2个普钙咖到拥有工业硅终状态(finis) 塞笪经历星 值的变化之后所达到的状态。 厂里新建分支企业,使产品由一 、氟硅酸钠、复合肥等6个品种。 变幅(diff) 值区间(val实体在某维度上变动的幅度。 坐瓜率可衄约2o%。 ran) 星丝值的变动范围。 今年头8个月,国际市场黄金价格一直在每盎司380 387 美元之间圆。 维普资讯 http://www.cqvip.com 98 中文信息学报 续表 框架名 量 变 环境条件事件发生时所处的事理、物理环境或所需要的条件。 在遭受同样特大旱灾的 (cir) 情况下,牲畜的死亡率由70年代的10 ̄./o衄到1993年的3 以下。 属性值往往随着某一因素的变化而增加或减少,这种因素或者表示出某种变化 倚变因素(cor) 趋势,或者由一系列有序数值组成,还有可能仅仅是一个时间的推移。 棉纱价 格随着棉花调拨价上升而衄。 动作时间量(dur) 量变持续的时间数量。 倚变起点(cor1) 与塑堕相对应的时间、地点、状况等因素。 丛堕笪到玩好我国恩格尔系数衄。 非核心框架元素 倚变终点(cor2) 和丝堕相对应的时间、地点、状况等因素。 从吃饱型塑我国恩格尔系数衄。 修饰(manr) 该元素是一个杂类,它们无法归人以上各类非核心元素,笼统归人该元素。 路径(path) 表示在起点和终点之间所经的变化方向。 价格不断旦 圃。 空间(place) 量变发生的地点。 速度(speed) 属性值变化的速度。 产量鱼 衄。 时间(time) 量变发生的时问。 父框架 子框架 增殖 总框架 框架关系 分框架 后续过程 结果状态 数量 参照 词元 波动v,增加v,增长v,提高v,减少v,降低v.上升v,攀升v,升v,增v,下降v,降v 表1中,框架和框架之问的关系主要包括继承 关系(父框架与子框架)、总分关系(总框架与分框 2.2 CFN句子库 架)、因果关系和参照。其中,因果关系分为后续 CFN句子库的句子标注语料来源于“121篇阅 过程与结果状态:有些事件不仅需要动作发出者 读理解文本”和“北京大学CCL现代汉语语料库”。 和动作对象,还需要有一个致使该动作发生的人 我们为词元选取句子时,注意了选择不同的语义搭 或事物,这样的事件对应的框架就会导致另一个 配模式,保证句子库的多样性。 动作发生,称之为后续过程;动作发生以后,总会 CFN句子标注,是以框架库为基础,针对一个 引起事物的状态发生变化,因此该动作又导致了 句子,确定一个词元和该词元所属框架,给框架元素 某种状态的形成,称之为结果状态。如“提高”有 所在的成分标记框架元素、短语类型和句法功能三 两个义项:比原来高(如“产量提高了80 9/6”);使 种信息。例如,句子“军人由于受条件的限制,打电 比原来高(如“新技术提高了产量”)。这两个义项 话发传真都不是太方便,同时他们也想通过写信提 作为两个词元分别归入框架[量变]和[使量变]。 高自己的文化水平。”的标注结果如下(去掉了句子 框架[使量变]所表示的动作过程致使数量发生了 标号、分词、词性标注标记): 变化(即[量变]);发生数量改变以后,形成了某~ 例1.军人由于受条件的限制,打电话发传真都 量度状态(即[数量])。“参照”严格地说并不代表 不是太方便,同时<ent—np—subj—S他们>也< 现实中各个概念之间的关系,而是为了使用户更 supp想><runs—PP—adva通过写信><tgt提高 加准确地理解框架的含义,提示一些与原框架相 ><att~np—obj—S自己的文化水平>。 似、容易引起混淆的框架。 tgt是目标词标记,目标词“提高”属于[量变]框 维普资讯 http://www.cqvip.com

5期 郝晓燕等:汉语框架语义知识库及软件描述体系 99 架;(ent)实体、(runs)方式、(supp)支撑词等是框架 元素标记;np(名词短语)、PP(介词短语)等是短语 类型标记;SUbj(主语)、subj—S(有支撑词支配的主 3 汉语框架语义知识库(CFN)的 软件描述体系 构建现代汉语框架语义知识库是一个庞大的 工程,无论是框架编辑、句子标注,还是实现基于 语)、adva(状语)、obj(宾语)等是句法功能标记。其 他标记依此类推。 一个框架涉及多个词元,用同一个框架的框架 元素集合进行标注;反过来,一个多义词代表多个词 元,属于几个不同的框架,即用不同的框架元素进行 表示,有了这样的信息,一个应用系统就有可能区分 出同一个词形在不同的使用环境中的不同意义。 与基于格语法的语义分析方法相比,CFN提供 web的信息展示,都需要有一批软件来支撑,以便 提高效率,并使得构建结果形式一致,成为结构化 的在线数据库 ],同时能够使用户方便的看到我 们的成果并得到自己想要的信息。相关软件主要 包括汉语框架语义知识库管理系统和基于Web的 展示系统。 3.1 汉语框架语义知识库管理系统 的框架元素数量多、类型细化,突出了框架的个性, 在语义表示深度上具有明显的优势。 2.3 CFN词元库 词元库针对每一个词元,记录词元所在义项的 具体含义以及该词元的句子标注报告,句子标注报 告包括各个框架元素的句法实现情况以及目标词的 语义搭配模式,它们是利用软件工具,从标注好的句 子中自动汇总出来的。 通过参照美国的框架网络数据库结构【5],并结 合汉语框架网络自身的特点对CFN框架数据库进 行了设计。数据库以语义框架为核心进行信息存 储,通过词元与语义框架的联系、词元与标注句子的 联系,在逻辑上形成框架库、词元库和标注句子库。 在此基础上设计的语义知识库管理系统,实现了对 框架信息的编辑(框架信息包括框架基本信息、框架 CFN的每一个词语都从真实语料中抽象出框架 元素的句法实现方式,力求跳出由“意义到意义”描述 的局限,因为只有形式特征,才是机器可用的。值得 元素信息、词元信息、框架关系信息、框架句子信 息)、对框架信息的查询(如框架总体信息展示、框架 信息分类查询、图形化关系示意)、句子标注符设置、 句子句法语义辅助标注等功能,并将数据信息以不 同的视角呈现给不同的用户。系统功能结构如图1 所示。 注意的是,CFN并没有直接刻画动词的语义角色选 择限制属性,但它基于真实语料,总结出了哪一个或 哪一些语言成分可以充当动词的语义角色,而不是从 直觉出发对角色的选择限制进行预测,这可能要比人 工描述的结果更具体、更准确,也更有实用价值。 l汉语框架语义知iR库管理系统 l —L _上_ 统 上 —L -上_ 上 —L ._L- 上 登 框 框 词 框 框 框 框 图 习 架 架 兀 架 架 架 架 形 身 基 兀 信 大 例 总 信 化 份 太 素 息 系 句 体 息 关 验 信 信 兰 信 信 分 系 证 息 息 息 息 息 类 展 查 意 询 系 框架信息编辑 l框架信息查询l 例句标、生 符设置 句 I用户信息管理J 帮 J_ —L 上 子 上 通 短 句 苴 句 用 用 语 法 他 法 户 非 类 功 标 语 口 核 型 能 注 义 令 L、 信 信 符 辅 设 兀 息 息 设 助 置 系 设 设 置 标 设 置 置 注 置 上 用 户 信 息 管 理 助 文 档 图1 汉语框架语义知识库管理系统的功能结构图 篇幅所限,以下主要介绍词元的句子标注报告 及句子句法语义辅助标注的的描述体系。 3.1.1句子标注报告 词元库针对每一个词元,记录词元所在义项的 语义搭配模式。 [1]框架元素的句法功能抽取 框架元素的句法功能抽取是针对已标注好的句 子文件,提取出其中的框架元素的句法功能的实现 所采用的一种方法。其统计样式如图2所示。 图2中0代表最少出现的个数是零个,n代表 具体含义以及该词元的句子标注报告。句子标注报 告包括各个框架元素的句法功能抽取以及目标词的 维普资讯 http://www.cqvip.com

1OO 中文信息学报 最多出现n次,n的个数没有限制;内部的大括弧为 一表最多出现n次,n的个数没有限制;内部的大括弧 个单一个体,其分为两个部分,第一个部分是短语 为一个单一个体,其分为三行,自上而下分别是框架 元素、短语类型和句法功能。外部的大括弧表示所 类型,第二个部分是句法功能。一个框架元素可以 搭配多个单一个体,即一个框架元素可以有多个短 语类型和句法功能;外部的大括弧表示所统计内容 统计内容由多个单一个体组成,最少出现的单一个 体为一个,最多为n个。 由多个框架元素组成,最少出现的单一个体为一个, 最多为n个。 jf FEj fPT GF 1 l l j j0 1  0 图2句法功能抽取样式图 多个句子与一个句子抽取出的句法功能模式类 似,但不同的是如果短语类型和句法功能一致则标 注数量与出现次数都加1,如果不一致则只将标注 数量加1;句法功能模式的提取仅限于框架中定义 的元素和标注过程中用到的通用非核心元素。 句法功能记录的是词元所支配的框架元素的句 法特点,句法功能的抽取是统计每个框架在已标文 本中出现的次数,以及此框架元素作为某种短语类 型及句法功能所出现的次数,这样统计出的框架元 素与某一特定词元搭配时所充当的短语类型及句法 功能,为以后可能用到的这一特定词元所具有的特 定信息做准备。具体的实现方式是:从数据库中读 入一个框架元素,然后从文本中读人一个句子,查找 此框架元素是否在这个句子中出现,如果出现则抽 取出其相应的短语类型和句法功能,抽取完后再检 查这个句子中是否还有此框架元素出现,如果出现 则按上面的步骤继续抽取,如果没有则读人下一个 句子,直至文本文件全部处理完;然后再从数据库中 读人下一个框架元素进行同样的处理,直至所有框 架元素全部处理完成。需要强调的是,这里处理的 不仅仅是框架中所定义的框架元素,还包括框架中 没有定义的但在实际标注过程中用到的通用非核心 元素。 [2]框架的语义搭配模式抽取 配价模式抽取针对的是已标注好的句子文件, 对某一已给定的词元进行其配价模式的抽取,格式 仿照英文FrameNet[3]中所给出的样式。其统计样 式如下: FE I I GFPT 。 图3 配价模式统计样式图 图3中的0代表最少出现的个数是零个,n代 多个句子与一个句子抽取出的配价模式类似, 但不同的是如果配价模式一致则只写入短语类型与 句法功能,并将Total后的数字加1;抽取的配价模 式中的元素包括框架中定义的核心元素与非核心元 素,还包括通用非核心元素,也包括只有框架元素而 没有短语类型和句法功能的元素,例如“tgt”,同时 还包括零形式(有定零形式和无定零形式)。 配价模式是词元库中最重要的一个组成部分, 它将为计算机在今后理解语义方面发挥不可估量的 作用。配价模式记录的是词元与框架元素的组合方 式,框架元素出现时的短语类型与句法功能在这里 不作为主要划分依据,即同一词元的两个句子中出 现的框架元素相同并且出现次序也相同,那么不论 框架元素所充当的是什么短语类型与句法功能,我 们均认为这两个句子同属于一个配价模式;并且在 这里词元与框架元素的组合方式是有先后顺序的, 即同一词元的两个句子中如果出现的框架元素相 同,但是出现顺序不同,则我们认为这两个句子的配 价模式不同。 3.1.2句子句法语义辅助标注软件 句子句法语义辅助标注软件主要实现对已经过 分词软件加工后的句子文件标注。软件设计为用右 键弹出三级子菜单进行标注,即针对一个句子,给定 一个词元和该词元所属框架,根据预定的标记集合, 交互地对句子进行标注,标注目标词元所支配的成 分的框架元素类型、短语类型和句法功能三种信息。 句子句法语义辅助标注软件目的是为了减少句 子标注人员在标注过程中出现的格式问题和拼写错 误问题,同时也为词元库的自动生成保证标注质量。 3.2基于Web的展示系统 基于web的展示系统是一个基于浏览器/服务 器架构的系统,内嵌CFN网站。用户通过浏览器可 以进行注册,用于商业用途和研究用途的用户(机 构)将获得不同级别的权限,同时下载资料的范围也 有所不同。 系统可以从数据库(框架库和句子库)中归纳出 各种用途的报告,如框架信息报告、词元信息报告、 (下转第138页) 维普资讯 http://www.cqvip.com

138 中文信息学报 2007焦 基于统计方法的阿拉伯语到英语的机器翻译系统,其他一些 现在我们同样可以说: 语言的翻译和其他方面的应用也取得了很大的进展。计算 The World—Wide—Web is made of Language,SO Compu— 语言学一个好的趋势是和语音研究团体的联系更加紧密了。 tational Linguistics is very important. 但也有一个令人担心的现象,就是我们和语言学家变得疏远 致谢: 了。他表示,希望计算语言学能够像物理学一样赢得人们的 感谢孙茂松、王海峰、赵军、车万翔给本文提出的修改意 尊敬。 见。感谢王海峰给作者转发了ACL Newsletter No.6,使作者 物理学之所以重要的原因是: 得以修正了原文中的一些数字。感谢《中文信息学报》编辑部 Everything is made of particles,SO Physics is very im— 将本文初稿转发给上述老师修改补充,使本文更加完美。 portant. (A2接第100页) 每个词元的标注句子链接(这些句子就是各种语义 中文信息处理前沿进展,中国中文信息学会成立二十 结构模式的具体实现,都标注了语义信息)、框架元 五周年学术会议论文集[c].2006,11:64—71. 素的句法实现方式汇总表、词元的语义搭配模式汇 L厶 Charles J.Fillmore.Frame semantics and the nature 总表、框架一框架关系图示报告,也可以进行框架元 of language[A].In:Annals of the New York Acade— my of Sciences:Conference OD the Origin and Develop— 素、短语类型和句法功能的分别提取以及演示等。 ment of Language and Speech[C].1976,280:20—32. [3] Charles J.Fillmore,Charles Wooters,and Collin F. 4结语 Baker.2001.Building a large lexical data bank which provides deep semantics[A].In:Proceedings of the CFN构建工程量大,难度很高,目前课题组只 15th Pacific Asia Conference OD Language,Informa— 能在有限领域下开展工作,但是,已经探索了一条可 tion and Computation[C].HongKong:2001,3-26. [4] Charles J.Fillmore,Collin F.Baker et a1.The Berke— 行的技术路线,取得了阶段性成果,为实现语义 ley FrameNet project[A].In:Proceedings of COL— Web中的语义知识共享以及智能化、个性化的Web ING/ACLEC],Montreal,Canada:1998.86—90. 服务提供了基础资源。近期我们计划扩展到其他领 [5] Collin F.Baker,Charles J.Fillmore and Beau Cronin. 域,继续构建一批框架,并将其应用到阅读理解式问 The Structure of the Framenet Database[J].Interna— 答系统和智能搜索系统等应用研究中,以检验CFN tional Journal of Lexicography,2003,1 6(3):281— 296. 的实践效果。研究小组近期正在进行基于CFN的 1-6]Charles J.Fillmore,Collin F.Baker and H.Sato. 句法语义角色自动标注软件的设计与开发,目的是 The FrameNet Database and Software Tools["A].In: 开发高性能的汉语句法语义分析器,为进行大规模 Proceedings of the Third International Conference OD 真实文本的语义信息标注提供有力支持。 Lan-guage Resources and Evaluation[c].Las Pal~ mas,Spain:2002. 参考文献: [1]刘开瑛,由丽萍.汉语框架语义知识库构建工程[A] 

因篇幅问题不能全部显示,请点此查看更多更全内容