电视资料编目标准设计及应用说明
王付生
北京中科大洋科技发展股份有限公司 新闻媒资产品总监
内容提要:本文对电视资料编目标准设计目的、标准编制的一些指导性原则、设计依据进行了较为详细的说明,同时简单介绍标准的主要内容和使用方法,对不同类型的节目、不同规模的电视台如何在业务中更好的应用编目标准给出了一些参考建议。
1. 电视资料编目标准设计说明
1.1. 编目标准设计目的
随着广播电视事业的发展,节目采编、制作、播出等环节对节目资料再利用的需求越来越高,媒体资产管理系统的建设和应用也在全国各电视台广泛展开。为规范媒资管理系统的建设,保证系统中编目数据的有效和规范,迫切需要行业内有一个适合数字化网络化制播环境的音像节目资料编目标准,方便节目的编目和检索查询使用。
狭义的讲广播电视音像资料编目规范(以下简称编目标准)的制定是为了服务于媒体资产管理系统的建设,通过标准的制定和实施使得音像资料编目数据库能有统一的设计依据,同时也为系统建成后编目数据的加工生产提供指导性依据。广义上说,编目标准的制定不仅仅对媒资系统的建设和应用有重要意义,同时由于广播电视制作播出环境的数据化网络化发展,标准中提出的编目项目将对广播电视节目采编、制作、存储、交换、播出、接收等各个环节信息的规范化收集整理起到借鉴作用,同时方便海量珍贵的音像、文字和图片信息资料的再利用。
1.2. 编目标准设计指导原则
为保证编目标准真正符合实际使用需求,兼顾大型电视台对节目详细描述的需要和小型电视台方便开展业务的需要,在标准的编制过程中主要遵循了以下指
导原则: 1.2.1. 实用性原则
制定音像资料元数据标准的目的是想向用户更充分地揭示信息资源,因此用户需求应作为最终的权衡标准,特别是在结构与格式的设计、元素的增加与取舍、语义规则的制定等方面,要尽可能地从用户的角度出发,增加系统与用户间的交互渠道,如开放式的词表系统的使用,增加提供用户反馈的元素等,为用户提供多层次的检索体系。 1.2.2. 简单性原则
如果标准设计的过于复杂会给实施中带来太大的工作量,造成编目工作难以实际开展进行,因此标准编制过程中就考虑在著录实践时应较为简单,易于掌握,尤其要考虑著录人员除编目员外,还会有一些编导、记者等,要方便一线人员的理解和使用。但一味追求简单性,易导致标引不够精确,会降低检索结果的准确度和精度,标准编制过程中注意到了简单性和标引有效性的结合。 1.2.3. 灵活性原则
由于不同类型节目的特性不尽相同,例如新闻类节目和专题类节目、体育类节目和综艺类节目,编目的标引的时候其选择的主要著录项目是由很大不同的,著录深度和广度也不尽相同,因此无法使用一刀切的办法,只使用一个元数据标准集合来描述众多类型的节目和素材,而是需要根据具体的节目类型来确定不同的标引深度以及不同的元数据集合。但是,为了保证标引的有效性,还需要规定一个最小必选集,最小必选集保证了依据编目标准标引的节目,其必要的描述信息已经被识别和录入系统。 1.2.4. 元数据易交换性原则
媒资系统在建设应用的过程中不可避免的要和许多其他系统交换信息,特别是节目资料的编目信息。因此标准制定过程中也考虑了在所携信息损失最小的前提下,可方便地转换为其它系统常用的元数据。这要求在设计元数据标准时,
要非常慎重地考虑元数据标准解释的元素的语义解释和元数据结构两个重要的方面,其中与目前较为通行的被广泛支持的元数据标准如Dublin Core 等的语义解释一致更为重要。
为方便不同信息系统之间的数据交换,编目规范决定选用XML作为数据交换的标准。XML是一种自描述的、数据结构化的语言,特别适合在不同的应用程序间交换数据。标准中给出了本编目规范的标记语言,也就是编目规范的XML的Schema定义,通过本标准Schema校验的XML文件可在不同的使用者之间进行数据交换而不必关心他们的使用环境。 1.2.5. 可扩展性原则
由于各个电视台和电台在业务需求上有相当大的差异,元数据标准只能提供最广泛意义上的描述,一些特殊应用背景的性质内容,并不纳入,但一些具体应用可能会要求更为细致精确的描述,应允许使用者在不破坏已规定的标准内容,如元素的语义解释的条件下,扩充一些元素、子元素或属性值。编目标准在使用说明的有关章节对标准的扩展应用提供了指导性原则。
1.3. 标准设计参考依据
在编目标准制定之前,广电行业的音像节目资料管理曾经使用过GY 47-87《音像资料著录规则》,本标准的制定也在一定程度上参考了《音像资料著录规则》的一些思路,同时通过对国内有关单位媒体资源管理系统开发和应用情况开展的调查研究,和对当前国际上各类资料编目技术及标准的分析,同时也考虑到我国电视和广播资料的特点,起草小组提出了广播电视音像资料编目规范的基本框架。广播电视音像资料编目规范分为两个相对独立的部分,即电视资料部分和广播资料部分,本文所讲述的标准的应用主要指电视资料部分标准的适用问题。
本标准基本采用了当前国际上普遍应用的DC(Dublin Core)元数据的主要思想,在DC15个基本元数据项的基础上,根据我国电视音像资料编目的特点,进行了适当扩充,并在此基础上开发了多种试标引软件,进行了大量试标引验证工作,通过试标引工作对标准草案进行了验证和修改,形成了本标准的基本著录项。
2. 标准内容简介
2.1. 编目标准组成部分
编目标准的电视资料部分主体内容包括以下几个部分: 2.1.1. 电视节目资料编目的元数据层次结构
该部分定义了电视节目资料编目的元数据框架,同时使用列表的形式给出了标准中的每个具体的编目项目在DC15元素项中的分配,同时简要描述了每个元数据项的名称、英文标识、是否必须选用、是否可多值。根据电视节目资料本身的特点,电视资料部分的元数据项总体上分为四个层次,从上到下分别是节目层、片段层、场景层、镜头层。每个层次分别包含相应的元素类,在元素类下面是各层对象的具体编目元数据项。例如场景层包括5种元素类:题名、主题、描述、格式、和关联,而描述元素类包含“内容描述”、“事件发生日期”、“现场同期声”等3个具体的编目元数据项。 2.1.2. 元数据项目的定义
该部分分别按照节目层、片段层、场景层、镜头层中的编目项目的顺序,给出了所有编目项目的严格定义。
每个编目项目的定义包括名称、英文名称、解释、使用方式、最大使用频率、数据类型等6个角度。
其中名称是该编目项目的正式名称,通常采用了在节目生产管理中普遍使用的编目项目名称,但个别项目也经过了编目标准起草小组以及各方专家的详细论证和反复斟酌,对DC元数据中已有的项目进行了适当取舍,对照电视节目的特点进行了一定的改造,例如场景层对应于“正题名”的编目项目就被重新命名为“场景名”;
英文名称定义了该编目项目在用于交换时应使用的英文标识;
解释是对该编目项目的内涵和外延的界定,用来规范标准使用过程中,不同人员对编目项目的理解,界定该编目项目描述了编目对象哪个方面的信息;
使用方式定义了该编目项目是否必须被标注,分为3种情况:必选、可选、有则必选。必选表明该编目项目必须标注;可选表明该编目项目可以根据需要选择性的使用;有则必选表明在编目对象的该信息可以获取时就必须标注。
最大使用频率定义了该编目项目是否可以多值,分为2种情况:可重复、不可重复。可重复说明该编目项目可以被赋予多个值,例如某节目的关键词可以有多个,“关键词”编目项的最大使用频率就是可重复;不可重复表明该编目项目只能被赋予一个值,例如给定一个电视节目,它的制式只能是PAL或NTSC等制式中的一种,那么“制式”编目项的最大使用频率就是不可重复。
数据类型定义了一个编目项目在计算机管理系统中应该使用什么样的数据类型,分为:字符型、日期型、时间型、数值型、文本型、枚举型等6种。大多数编目项目和所有未指明数据类型的编目项目其数据类型均为字符型;时间型主要用于描述编目对象的入点、出点和实长,应按照HH∶MM∶SS∶FF的格式表示。其中HH为整数小时,大小不限,MM表示分钟(00-59),SS表示秒(00-59),FF表示图像对应的帧编号(PAL制:00-24,NTSC制:00-29),首位为0时,应用0填满,中间的分隔符为半角冒号;枚举型主要用于一些标注内容为限定词表的编目项目,如制式为枚举型,对应的限定词表为“PAL、NTSC、SECAM”,表示制式只能从PAL、NTSC、SECAM三种中选择一个进行标注。 2.1.3. 基于XML规范的编目信息内容格式
为满足媒体资产管理系统之间的数据交换需要,标准的本部分定义了适用于电视音像资料的编目信息描述的内容格式,该格式基于XML规范定义,主要用于编目信息的交换。媒体资产管理系统将内部的编目数据导出时应生成符合编目信息内容格式的编目数据文件,其他依据本标准设计的媒资系统则可直接导入该数据文件,不必重新编目。 2.1.4. 元数据项使用说明
该部分针对编目元数据项在定义中不便详细说明的内容进行深入解释,主要解决以下问题:解释类似编目项目之间的不同使用方法,避免名称相近的编目项目在使用中容易造成的混淆;给出大部分编目项目的实际例子,方便使用人员