Skip to main content

ExtractAvroMetadata

描述:

从Avro数据文件的头部提取元数据信息

标签:

avro, schema, metadata, 元数据

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置.

名字默认值允许值列表描述
指纹算法CRC-64-AVRO
- CRC-64-AVRO
- MD5
- SHA-256
用于生成Schema指纹的算法。可选择基于AVRO推荐的指纹生成算法
元数据键列表一个逗号分隔的键列表,指示要从avro文件头中提取的键/值对。键'avro.schema'可用于抽取全部Avro Schema信息为JSON格式,并且 'avro.codec'可以用于提取编解码器名称(如果存在)
计算条目禁止
- 启用
- 禁止
如果启用计算,则统计数据流的条目数,并设置为属性'item.count'。 计数是通过读取块和获取每个块的项数来完成的,因此避免了去序列化。统计的条目数为数据文件的顶层项。例如,对于类型为record的记录,该值为记录数;对于类型是array的数组,则该值为数组的大小

连线:

名字描述
success成功抽取元数据的数据将输出到此连线
failure由于不能解析数据为Avro或其他不能抽取,将路由到此失败连线

读取属性:

未提供。

写入属性:

名字描述
schema.typeSchema的类型(比如,record, enum, 等等)
schema.name当类型为record, enum 或 fixed时的schema名字,否则为主类型的名字
schema.fingerprint指纹算法的16进制字符串
item.count数据流的条目录,仅当《计算条目》启用是有效

状态管理:

该组件不保存状态。

限制:

该组件没有限制

输入流要求:

组件必须提供输入流。

系统资源考量:

未提供。