ExtractAvroMetadata
描述:
从Avro数据文件的头部提取元数据信息
标签:
avro, schema, metadata, 元数据
参数:
如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置.
名字 | 默认值 | 允许值列表 | 描述 |
---|---|---|---|
指纹算法 | CRC-64-AVRO | - CRC-64-AVRO - MD5 - SHA-256 | 用于生成Schema指纹的算法。可选择基于AVRO推荐的指纹生成算法 |
元数据键列表 | 一个逗号分隔的键列表,指示要从avro文件头中提取的键/值对。键'avro.schema'可用于抽取全部Avro Schema信息为JSON格式,并且 'avro.codec'可以用于提取编解码器名称(如果存在) | ||
计算条目 | 禁止 | - 启用 - 禁止 | 如果启用计算,则统计数据流的条目数,并设置为属性'item.count'。 计数是通过读取块和获取每个块的项数来完成的,因此避免了去序列化。统计的条目数为数据文件的顶层项。例如,对于类型为record的记录,该值为记录数;对于类型是array的数组,则该值为数组的大小 |
连线:
名字 | 描述 |
---|---|
success | 成功抽取元数据的数据将输出到此连线 |
failure | 由于不能解析数据为Avro或其他不能抽取,将路由到此失败连线 |
读取属性:
未提供。
写入属性:
名字 | 描述 |
---|---|
schema.type | Schema的类型(比如,record, enum, 等等) |
schema.name | 当类型为record, enum 或 fixed时的schema名字,否则为主类型的名字 |
schema.fingerprint | 指纹算法的16进制字符串 |
item.count | 数据流的条目录,仅当《计算条目》启用是有效 |
状态管理:
该组件不保存状态。
限制:
该组件没有限制
输入流要求:
组件必须提供输入流。
系统资源考量:
未提供。