PutKudu
描述:
该组件将使用配置的记录服务从输入数据流中读取记录,并写入到指定的Kudu服务的表中。该表名的schema必须在组件的属性中设置,或在源中设置。如果读取记录时出错,或者写入到Kudu时出错,数据流将被作为异常处理。
标签:
put, database, NoSQL, kudu, HDFS, record, 数据库, 写入, 记录
参数:
如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.
名字 | 默认值 | 允许值列表 | 描述 |
---|---|---|---|
Kudu 主节点 | 请列出所有Kudu主节点的ip和端口组合(如,端口7051),如果需要,请使用逗号分隔。 支持表达式语言 (仅支持变量) | ||
表名 | 数据将要存入到的Kudu表名 支持表达式语言 (仅支持变量) | ||
跳过头部行 | 包含 | - 跳过 - 包含 | 弃用。 用来忽略头部行,然而这应该使用记录读取器来达到该目标。(比如, CSVReader 中的 "把首行当做头部行" 这个属性 ) |
记录服务 | 控制器服务API: RecordReaderFactory 实现: ParquetReader GrokReader SyslogReader Syslog5424Reader CSVReader AvroReader JsonPathReader JsonTreeReader ScriptedReader XMLReader | 该服务将从流入的流文件中读取记录。 | |
写入操作 | 插入 | - 插入 - 插入并忽略重复 - 更新插入 | 请指定该组件的具体操作类型. 其中“插入并忽略重复”操作类型将忽略重复的行内容。 |
刷新模式 | AUTO_FLUSH_BACKGROUND | - AUTO_FLUSH_SYNC - AUTO_FLUSH_BACKGROUND - MANUAL_FLUSH | 设置Kudu会话的新的刷新模式。AUTO_FLUSH_SYNC: 当操作持久化成功则返回调用,否则抛出异常。AUTO_FLUSH_BACKGROUND: 当操作被追加到缓冲区后返回调用。该调用正常情况下仅执行快速的in-memory操作,但遇到缓冲区已满且另一个缓冲区也在被刷新时,该操作将等待之。MANUAL_FLUSH: 当操作被追加到缓冲区后返回调用,但如果缓冲区已满则抛出KuduException异常。 |
分批处理的容量大小 | 100 | 指定单次执行最多处理的流文件的个数,范围在1到100000之间。请根据内存大小,行数据大小设置合适的值。你可以逐步增大该值来找到最合适的设置以达到最佳性能。 支持表达式语言 (仅支持变量) |
连线:
名字 | 描述 |
---|---|
success | 流文件成功存储到Kudu后将路由到此处 |
failure | 流文件无法发往Kudu时将被路由到此处 |
读取属性:
未提供。
写入属性:
名字 | 描述 |
---|---|
record.count | 已成功写入到Kudu的记录条数 |
状态管理:
该组件不保存状态。
限制:
该组件没有限制
输入流要求:
组件必须提供输入流。
系统资源考量:
未提供。