Skip to main content

FetchParquet

描述:

从Parquet中读取数据并作为记录数据流输出。 原始的Parquet文件将保持不变,数据流的内容将被替换为选中类型的记录。该组件可与ListHDFS 或 ListFile组件联合使用通过文件列表来获取内容

标签:

parquet, hadoop, HDFS, get, ingest, fetch, source, record, 获取, 获得, 记录

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
Hadoop配置指定由逗号分隔符分隔的多个Hadoop配置文件。如果不设置,则Hadoop将搜索类路径(classpath)查找'core-site.xml' 和 'hdfs-site.xml'文件,或还原为默认配置。 为了使用 swebhdfs, 可查看 '高级设置' 的 PutHDFS 文档

支持表达式语言 (仅支持变量)
Kerberos证书服务控制器服务API:
KerberosCredentialsService
实现:
KeytabCredentialsService
指定用于Kerberos授权的证书服务配置
Kerberos Principal指定用于认证的Kerberos principal。 需要设置在 orchsym.properties 配置文件中设置 orchsym.kerberos.krb5.file

支持表达式语言 (仅支持变量)
Kerberos Keytab指定用于关联Principal认证的Kerberos keytab。 需要设置在 orchsym.properties 配置文件中设置 orchsym.kerberos.krb5.file

支持表达式语言 (仅支持变量)
Kerberos重新登录时长4 hours尝试Kerberos重新登录的时长。注:该参数以被弃用,并组件执行没有影响。现在重新登录将自动发生

支持表达式语言 (仅支持变量)
额外类路径指定将添加到类路径的并以逗号分隔的多个文件或目录。 当指定目录时,所有目录下的文件将被添加到类路径中,但并不迭代包含子目录中的文件
文件名${path}/${filename}指定读取的文件名

支持表达式语言 (支持流属性和变量)
记录输出服务控制器服务API:
RecordSetWriterFactory
实现:
CSVRecordSetWriter
FreeFormTextRecordSetWriter
AvroRecordSetWriter
JsonRecordSetWriter
XMLRecordSetWriter
ParquetRecordSetWriter
ScriptedRecordSetWriter
指定记录数据输出的服务配置

连线:

名字描述
retry如果无法读取文件的内容,则数据流将路由到此连线,但如果再次尝试,则可能在将来能够路由到此连线。这通常表示可再次尝试读取。
success一旦成功更新文件内容到数据流中将输出到此连线
failure如果无法读取文件内容,再次尝试也无法处理则输出到此失败连线。例如,如果找不到文件或存在权限问题,则会发生这种情况。

读取属性:

未提供。

写入属性:

名字描述
fetch.failure.reason当数据流路由到“failure”连线时,将添加此属性,表示无法从给定文件系统提取文件的原因。
record.count输出数据流结果中记录数

状态管理:

该组件不保存状态。

限制:

要求权限说明
读文件系统提供操作者在HDFS或本地文件系统中读取任何文件的能力

输入流要求:

组件必须提供输入流。

系统资源考量:

未提供。

参考:

PutParquet