Skip to main content

GetHBase

描述:

该组件通过指定的表从HBase中读取记录。处理器跟踪它接收到的单元格的时间戳,以便当新记录被推送到HBase时,它们将自动被读取。每个记录将输出为JSON格式,比如: {"row": "<row key>", "cells": { "<column 1 family>:<column 1 qualifier>": "<cell 1 value>", "<column 2 family>:<column 2 qualifier>": "<cell 2 value>", ... }}。针对每个接收到的记录,数据朔源的RECEIVE 事件“//<table name>/<row key>”被发送, 其中是行建为UTF-8编码

标签:

hbase, get, ingest

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
HBase客户端服务控制器服务API:
HBaseClientService
实现:
HBase_1_1_2_ClientService
指定用于访问HBase的配置服务
缓存服务控制器服务API:
DistributedMapCacheClient
实现:
HBase_1_1_2_ClientMapCacheService
CouchbaseMapCacheClient
DistributedMapCacheClientService
RedisDistributedMapCacheClientService
指定用于管理数据读取状态的的服务配置,为了新节点可以重新开始而避免重复数据
表名指定读取的HBase的表名
指定读取由逗号分隔的<colFamily>:<colQualifier>对,为了返回所有列,可不指定列名(qualifier),仅提供列族(Family) <colFamily1>,<colFamily2>.
授权指定给扫描器的授权列表,如果单元没有使用可见性标签,这将被忽略。

支持表达式语言 (仅支持变量)
过滤表达式指定用于扫描的过滤表达式。当设置《列》参数时该参数无效
初始时间范围
- 无
- 当前时间
用于表的第一次扫描的时间范围。没有人会在第一次扫描时拉出整个表,“当前时间”将从该点向前读取。
字符编码UTF-8指定用于HBase编码数据的字符集编码

连线:

名字描述
success成功从HBase读取的数据输出到此连线

读取属性:

未提供。

写入属性:

名字描述
hbase.table获取行数据的表名
mime.type设置为application/json

状态管理:

范围描述
CLUSTER读取HBase数据之后,列出的单元的最新时间戳和传输的所有单元的最新时间戳都被存储。这就可以使组件仅读取新添加的或修改的文件列表,而不需要存储所有的文件名或路径而导致性能问题。状态存储是跨节点的,并只运行在主节点上,如果有新的主节点,将从上次的位置开始处理而避免重复数据

限制:

该组件没有限制

输入流要求:

组件禁止提供输入流。

系统资源考量:

未提供。