Skip to main content

ExtractMediaMetadata

描述:

从包含音频、视频、图片和其它文件类型的流文件中提取内容元数据(metadata),该组件依赖于Apache Tika项目进行文件格式检测以及解析,它从媒体文件(包括音频、视频等)提取一长串元数据类型。注意:在不同的升级过程中,提取到的属性名称以及内容可能有变,因为解析是通过Tika工具实现的,而Tika工具又依赖于其它项目来提取元数据。想了解支持的文件类型等更详细信息的话,可以访问http://tika.apache.org/。

标签:

media, file, format, metadata, audio, video, image, document, pdf, 媒体, 元数据, 音频, 视频

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
属性数最大值100指定要添加到流文件中的最大属性个数。处理的时候标签的顺序不能保证,默认情况下,它将处理所有的标签。
属性长度最大值100指定单个属性值的最大长度。当一个元数据项包含多个值时,这些值会被合并在一起,直到长度达到该最大长度值,然后在后面添加",..."字符串,表示额外的值被丢弃了。如果单个值的长度比该值还大,那么它将被截断,并在后面添加"(truncated)"字符串,以表示发生了截断。
元数据键过滤器正则表达式,标识从解析器接收到的哪些元数据键应该添加到流文件属性中。如果为空,则所有的元数据键都将被加到流文件属性中。
元数据键前缀添加到元数据键的前缀文本,元数据的键将添加到流文件的属性中。建议以类似"."或"-"的分隔符结尾,组件默认不添加分隔符。

支持表达式语言 (支持流属性和变量)

连线:

名字描述
success任何成功提取媒体元数据的流文件都将被路由到此连线。
failure任何提取媒体元数据失败的流文件都将被路由到此连线。

读取属性:

未提供。

写入属性:

名字描述
<Metadata Key Prefix><attribute>The extracted content metadata will be inserted with the attribute name <Metadata Key Prefix><attribute>, or <attribute> if "Metadata Key Prefix" is not provided.

状态管理:

该组件不保存状态。

限制:

该组件没有限制

输入流要求:

组件必须提供输入流。

系统资源考量:

未提供。