5期 郝晓燕等:汉语框架语义知识库及软件描述体系 99 架;(ent)实体、(runs)方式、(supp)支撑词等是框架 元素标记;np(名词短语)、PP(介词短语)等是短语 类型标记;SUbj(主语)、subj—S(有支撑词支配的主 3 汉语框架语义知识库(CFN)的 软件描述体系 构建现代汉语框架语义知识库是一个庞大的 工程,无论是框架编辑、句子标注,还是实现基于 语)、adva(状语)、obj(宾语)等是句法功能标记。其 他标记依此类推。 一个框架涉及多个词元,用同一个框架的框架 元素集合进行标注;反过来,一个多义词代表多个词 元,属于几个不同的框架,即用不同的框架元素进行 表示,有了这样的信息,一个应用系统就有可能区分 出同一个词形在不同的使用环境中的不同意义。 与基于格语法的语义分析方法相比,CFN提供 web的信息展示,都需要有一批软件来支撑,以便 提高效率,并使得构建结果形式一致,成为结构化 的在线数据库 ],同时能够使用户方便的看到我 们的成果并得到自己想要的信息。相关软件主要 包括汉语框架语义知识库管理系统和基于Web的 展示系统。 3.1 汉语框架语义知识库管理系统 的框架元素数量多、类型细化,突出了框架的个性, 在语义表示深度上具有明显的优势。 2.3 CFN词元库 词元库针对每一个词元,记录词元所在义项的 具体含义以及该词元的句子标注报告,句子标注报 告包括各个框架元素的句法实现情况以及目标词的 语义搭配模式,它们是利用软件工具,从标注好的句 子中自动汇总出来的。 通过参照美国的框架网络数据库结构【5],并结 合汉语框架网络自身的特点对CFN框架数据库进 行了设计。数据库以语义框架为核心进行信息存 储,通过词元与语义框架的联系、词元与标注句子的 联系,在逻辑上形成框架库、词元库和标注句子库。 在此基础上设计的语义知识库管理系统,实现了对 框架信息的编辑(框架信息包括框架基本信息、框架 CFN的每一个词语都从真实语料中抽象出框架 元素的句法实现方式,力求跳出由“意义到意义”描述 的局限,因为只有形式特征,才是机器可用的。值得 元素信息、词元信息、框架关系信息、框架句子信 息)、对框架信息的查询(如框架总体信息展示、框架 信息分类查询、图形化关系示意)、句子标注符设置、 句子句法语义辅助标注等功能,并将数据信息以不 同的视角呈现给不同的用户。系统功能结构如图1 所示。 注意的是,CFN并没有直接刻画动词的语义角色选 择限制属性,但它基于真实语料,总结出了哪一个或 哪一些语言成分可以充当动词的语义角色,而不是从 直觉出发对角色的选择限制进行预测,这可能要比人 工描述的结果更具体、更准确,也更有实用价值。 l汉语框架语义知iR库管理系统 l —L _上_ 统 上 —L -上_ 上 —L ._L- 上 登 框 框 词 框 框 框 框 图 习 架 架 兀 架 架 架 架 形 身 基 兀 信 大 例 总 信 化 份 太 素 息 系 句 体 息 关 验 信 信 兰 信 信 分 系 证 息 息 息 息 息 类 展 查 意 询 系 框架信息编辑 l框架信息查询l 例句标、生 符设置 句 I用户信息管理J 帮 J_ —L 上 子 上 通 短 句 苴 句 用 用 语 法 他 法 户 非 类 功 标 语 口 核 型 能 注 义 令 L、 信 信 符 辅 设 兀 息 息 设 助 置 系 设 设 置 标 设 置 置 注 置 上 用 户 信 息 管 理 助 文 档 图1 汉语框架语义知识库管理系统的功能结构图 篇幅所限,以下主要介绍词元的句子标注报告 及句子句法语义辅助标注的的描述体系。 3.1.1句子标注报告 词元库针对每一个词元,记录词元所在义项的 语义搭配模式。 [1]框架元素的句法功能抽取 框架元素的句法功能抽取是针对已标注好的句 子文件,提取出其中的框架元素的句法功能的实现 所采用的一种方法。其统计样式如图2所示。 图2中0代表最少出现的个数是零个,n代表 具体含义以及该词元的句子标注报告。句子标注报 告包括各个框架元素的句法功能抽取以及目标词的 维普资讯 http://www.cqvip.com
1OO 中文信息学报 最多出现n次,n的个数没有限制;内部的大括弧为 一表最多出现n次,n的个数没有限制;内部的大括弧 个单一个体,其分为两个部分,第一个部分是短语 为一个单一个体,其分为三行,自上而下分别是框架 元素、短语类型和句法功能。外部的大括弧表示所 类型,第二个部分是句法功能。一个框架元素可以 搭配多个单一个体,即一个框架元素可以有多个短 语类型和句法功能;外部的大括弧表示所统计内容 统计内容由多个单一个体组成,最少出现的单一个 体为一个,最多为n个。 由多个框架元素组成,最少出现的单一个体为一个, 最多为n个。 jf FEj fPT GF 1 l l j j0 1 0 图2句法功能抽取样式图 多个句子与一个句子抽取出的句法功能模式类 似,但不同的是如果短语类型和句法功能一致则标 注数量与出现次数都加1,如果不一致则只将标注 数量加1;句法功能模式的提取仅限于框架中定义 的元素和标注过程中用到的通用非核心元素。 句法功能记录的是词元所支配的框架元素的句 法特点,句法功能的抽取是统计每个框架在已标文 本中出现的次数,以及此框架元素作为某种短语类 型及句法功能所出现的次数,这样统计出的框架元 素与某一特定词元搭配时所充当的短语类型及句法 功能,为以后可能用到的这一特定词元所具有的特 定信息做准备。具体的实现方式是:从数据库中读 入一个框架元素,然后从文本中读人一个句子,查找 此框架元素是否在这个句子中出现,如果出现则抽 取出其相应的短语类型和句法功能,抽取完后再检 查这个句子中是否还有此框架元素出现,如果出现 则按上面的步骤继续抽取,如果没有则读人下一个 句子,直至文本文件全部处理完;然后再从数据库中 读人下一个框架元素进行同样的处理,直至所有框 架元素全部处理完成。需要强调的是,这里处理的 不仅仅是框架中所定义的框架元素,还包括框架中 没有定义的但在实际标注过程中用到的通用非核心 元素。 [2]框架的语义搭配模式抽取 配价模式抽取针对的是已标注好的句子文件, 对某一已给定的词元进行其配价模式的抽取,格式 仿照英文FrameNet[3]中所给出的样式。其统计样 式如下: FE I I GFPT 。 图3 配价模式统计样式图 图3中的0代表最少出现的个数是零个,n代 多个句子与一个句子抽取出的配价模式类似, 但不同的是如果配价模式一致则只写入短语类型与 句法功能,并将Total后的数字加1;抽取的配价模 式中的元素包括框架中定义的核心元素与非核心元 素,还包括通用非核心元素,也包括只有框架元素而 没有短语类型和句法功能的元素,例如“tgt”,同时 还包括零形式(有定零形式和无定零形式)。 配价模式是词元库中最重要的一个组成部分, 它将为计算机在今后理解语义方面发挥不可估量的 作用。配价模式记录的是词元与框架元素的组合方 式,框架元素出现时的短语类型与句法功能在这里 不作为主要划分依据,即同一词元的两个句子中出 现的框架元素相同并且出现次序也相同,那么不论 框架元素所充当的是什么短语类型与句法功能,我 们均认为这两个句子同属于一个配价模式;并且在 这里词元与框架元素的组合方式是有先后顺序的, 即同一词元的两个句子中如果出现的框架元素相 同,但是出现顺序不同,则我们认为这两个句子的配 价模式不同。 3.1.2句子句法语义辅助标注软件 句子句法语义辅助标注软件主要实现对已经过 分词软件加工后的句子文件标注。软件设计为用右 键弹出三级子菜单进行标注,即针对一个句子,给定 一个词元和该词元所属框架,根据预定的标记集合, 交互地对句子进行标注,标注目标词元所支配的成 分的框架元素类型、短语类型和句法功能三种信息。 句子句法语义辅助标注软件目的是为了减少句 子标注人员在标注过程中出现的格式问题和拼写错 误问题,同时也为词元库的自动生成保证标注质量。 3.2基于Web的展示系统 基于web的展示系统是一个基于浏览器/服务 器架构的系统,内嵌CFN网站。用户通过浏览器可 以进行注册,用于商业用途和研究用途的用户(机 构)将获得不同级别的权限,同时下载资料的范围也 有所不同。 系统可以从数据库(框架库和句子库)中归纳出 各种用途的报告,如框架信息报告、词元信息报告、 (下转第138页) 维普资讯 http://www.cqvip.com
138 中文信息学报 2007焦 基于统计方法的阿拉伯语到英语的机器翻译系统,其他一些 现在我们同样可以说: 语言的翻译和其他方面的应用也取得了很大的进展。计算 The World—Wide—Web is made of Language,SO Compu— 语言学一个好的趋势是和语音研究团体的联系更加紧密了。 tational Linguistics is very important. 但也有一个令人担心的现象,就是我们和语言学家变得疏远 致谢: 了。他表示,希望计算语言学能够像物理学一样赢得人们的 感谢孙茂松、王海峰、赵军、车万翔给本文提出的修改意 尊敬。 见。感谢王海峰给作者转发了ACL Newsletter No.6,使作者 物理学之所以重要的原因是: 得以修正了原文中的一些数字。感谢《中文信息学报》编辑部 Everything is made of particles,SO Physics is very im— 将本文初稿转发给上述老师修改补充,使本文更加完美。 portant. (A2接第100页) 每个词元的标注句子链接(这些句子就是各种语义 中文信息处理前沿进展,中国中文信息学会成立二十 结构模式的具体实现,都标注了语义信息)、框架元 五周年学术会议论文集[c].2006,11:64—71. 素的句法实现方式汇总表、词元的语义搭配模式汇 L厶 Charles J.Fillmore.Frame semantics and the nature 总表、框架一框架关系图示报告,也可以进行框架元 of language[A].In:Annals of the New York Acade— my of Sciences:Conference OD the Origin and Develop— 素、短语类型和句法功能的分别提取以及演示等。 ment of Language and Speech[C].1976,280:20—32. [3] Charles J.Fillmore,Charles Wooters,and Collin F. 4结语 Baker.2001.Building a large lexical data bank which provides deep semantics[A].In:Proceedings of the CFN构建工程量大,难度很高,目前课题组只 15th Pacific Asia Conference OD Language,Informa— 能在有限领域下开展工作,但是,已经探索了一条可 tion and Computation[C].HongKong:2001,3-26. [4] Charles J.Fillmore,Collin F.Baker et a1.The Berke— 行的技术路线,取得了阶段性成果,为实现语义 ley FrameNet project[A].In:Proceedings of COL— Web中的语义知识共享以及智能化、个性化的Web ING/ACLEC],Montreal,Canada:1998.86—90. 服务提供了基础资源。近期我们计划扩展到其他领 [5] Collin F.Baker,Charles J.Fillmore and Beau Cronin. 域,继续构建一批框架,并将其应用到阅读理解式问 The Structure of the Framenet Database[J].Interna— 答系统和智能搜索系统等应用研究中,以检验CFN tional Journal of Lexicography,2003,1 6(3):281— 296. 的实践效果。研究小组近期正在进行基于CFN的 1-6]Charles J.Fillmore,Collin F.Baker and H.Sato. 句法语义角色自动标注软件的设计与开发,目的是 The FrameNet Database and Software Tools["A].In: 开发高性能的汉语句法语义分析器,为进行大规模 Proceedings of the Third International Conference OD 真实文本的语义信息标注提供有力支持。 Lan-guage Resources and Evaluation[c].Las Pal~ mas,Spain:2002. 参考文献: [1]刘开瑛,由丽萍.汉语框架语义知识库构建工程[A]
因篇幅问题不能全部显示,请点此查看更多更全内容