Skip to main content

PutKudu

描述:

该组件将使用配置的记录服务从输入数据流中读取记录,并写入到指定的Kudu服务的表中。该表名的schema必须在组件的属性中设置,或在源中设置。如果读取记录时出错,或者写入到Kudu时出错,数据流将被作为异常处理。

标签:

put, database, NoSQL, kudu, HDFS, record, 数据库, 写入, 记录

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
Kudu 主节点请列出所有Kudu主节点的ip和端口组合(如,端口7051),如果需要,请使用逗号分隔。

支持表达式语言 (仅支持变量)
表名数据将要存入到的Kudu表名

支持表达式语言 (仅支持变量)
跳过头部行包含
- 跳过
- 包含
弃用。 用来忽略头部行,然而这应该使用记录读取器来达到该目标。(比如, CSVReader 中的 "把首行当做头部行" 这个属性 )
记录服务控制器服务API:
RecordReaderFactory
实现:
ParquetReader
GrokReader
SyslogReader
Syslog5424Reader
CSVReader
AvroReader
JsonPathReader
JsonTreeReader
ScriptedReader
XMLReader
该服务将从流入的流文件中读取记录。
写入操作插入
- 插入
- 插入并忽略重复
- 更新插入
请指定该组件的具体操作类型. 其中“插入并忽略重复”操作类型将忽略重复的行内容。
刷新模式AUTO_FLUSH_BACKGROUND
- AUTO_FLUSH_SYNC
- AUTO_FLUSH_BACKGROUND
- MANUAL_FLUSH
设置Kudu会话的新的刷新模式。AUTO_FLUSH_SYNC: 当操作持久化成功则返回调用,否则抛出异常。AUTO_FLUSH_BACKGROUND: 当操作被追加到缓冲区后返回调用。该调用正常情况下仅执行快速的in-memory操作,但遇到缓冲区已满且另一个缓冲区也在被刷新时,该操作将等待之。MANUAL_FLUSH: 当操作被追加到缓冲区后返回调用,但如果缓冲区已满则抛出KuduException异常。
分批处理的容量大小100指定单次执行最多处理的流文件的个数,范围在1到100000之间。请根据内存大小,行数据大小设置合适的值。你可以逐步增大该值来找到最合适的设置以达到最佳性能。

支持表达式语言 (仅支持变量)

连线:

名字描述
success流文件成功存储到Kudu后将路由到此处
failure流文件无法发往Kudu时将被路由到此处

读取属性:

未提供。

写入属性:

名字描述
record.count已成功写入到Kudu的记录条数

状态管理:

该组件不保存状态。

限制:

该组件没有限制

输入流要求:

组件必须提供输入流。

系统资源考量:

未提供。