Skip to main content

PutHBaseRecord

描述:

通过记录读取服务将输入数据流的内容写入HBase行中

标签:

hadoop, hbase, put, record, 写入, 记录

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
读取服务控制器服务API:
RecordReaderFactory
实现:
ParquetReader
GrokReader
SyslogReader
Syslog5424Reader
CSVReader
AvroReader
JsonPathReader
JsonTreeReader
ScriptedReader
XMLReader
指定用于解析输入数据流的内容和数据Schema的读取服务配置
HBase客户端服务控制器服务API:
HBaseClientService
实现:
HBase_1_1_2_ClientService
指定用于访问HBase的配置服务
表名指定读取的HBase的表名

支持表达式语言 (支持流属性和变量)
行标识字段名指定输入数据中作为行标识的JSON元素的字段名

支持表达式语言 (支持流属性和变量)
行数据类型字符串
- 字符串将行id的值存储为UTF-8字符串
- 二进制将行id的值存储为二进制字节数组。它期望行id是一个二进制格式的字符串
指定将数据插入HBase时使用的行ID的数据类型。默认行为是将行id转换为UTF-8字节数组。 选择Binary将把二进制格式的字符串转换为正确的byte[]表示形式,如果在HBase中使用二进制行键,则应该使用二进制选项
空字段值策略跳过
- 空字节如果希望每个字段都存在,即使它有一个空值,也可以使用它覆盖现有字段,或者放置一个空占位符值。
- 跳过跳过字段(根本不处理)
将空字段值处理为空字符串或直接跳过它们
列族指定用于插入数据的列族

支持表达式语言 (支持流属性和变量)
Default Visibility StringWhen using visibility labels, any value set in this field will be applied to all cells that are written unless an attribute with the convention "visibility.COLUMN_FAMILY.COLUMN_QUALIFIER" is present on the flowfile. If this field is left blank, it will be assumed that no visibility is to be set unless visibility-related attributes are set. NOTE: this configuration will have no effect on your data if you have not enabled visibility labels in the HBase cluster.

支持表达式语言 (支持流属性和变量)
Visibility String Record Path RootA record path that points to part of the record which contains a path to a mapping of visibility strings to record paths
时间戳字段Specifies the name of a record field whose value should be used as the timestamp for the cells in HBase. The value of this field must be a number, string, or date that can be converted to a long. If this field is left blank, HBase will use the current time.

支持表达式语言 (支持流属性和变量)
分批数量1000一次执行中要处理的数据流的最大数量。 流文件将按表进行分组,每个表执行一个写入操作
复杂字段处理策略文本
- 失败如果字段中包含任何复杂类型的值,将直接路由到失败连线
- 警告不包含到行数据中并提示警告
- 忽略静默状态的忽略而不包含到行数据中写入HBase
- 文本使用复杂字段的字符串表示形式作为列的值
指定如何处理复杂类型的字段值,比如字段的值不是一个单纯的文本
输出类型字符串
- 字符串将每个字段的值存储为UTF-8字符串
- 字节每个字段的值存储为从JSON的类型的字节表示形式。
指定如何在HBase中存储每个字段的值。 默认方式是转换每个JSON值为字符串并存储为UTF-8字节.选择"字节"将从JSON中解释每个字段的类型,并将值转换为该类型的字节表示,这意味着整数将存储为该整数的字节表示

动态参数:

名字描述
visibility.<COLUMN FAMILY>visibility label for <COLUMN FAMILY>Visibility label for everything under that column family when a specific label for a particular column qualifier is not available.
支持表达式语言 (支持流属性和变量)
visibility.<COLUMN FAMILY>.<COLUMN QUALIFIER>visibility label for <COLUMN FAMILY>:<COLUMN QUALIFIER>.Visibility label for the specified column qualifier qualified by a configured column family.
支持表达式语言 (支持流属性和变量)

连线:

名字描述
success输入数据流成功存储到HBase的数据输出到此连线
failure数据不能写入到HBase将输出到此连线

读取属性:

名字描述
restart.index当需要重做未进入HBase的记录的一部分时读取“restart.index”

写入属性:

名字描述
restart.index当批处理无法插入HBase时写入“restart.index”

状态管理:

该组件不保存状态。

限制:

该组件没有限制

输入流要求:

组件必须提供输入流。

系统资源考量:

未提供。