GetHDFSSequenceFile
描述:
从HDFS中获取序列文件并作为数据流输出
标签:
hadoop, HDFS, get, fetch, ingest, source, sequence file, 读取, 获得, 序列文件
参数:
如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.
名字 | 默认值 | 允许值列表 | 描述 |
---|---|---|---|
Hadoop配置 | 指定由逗号分隔符分隔的多个Hadoop配置文件。如果不设置,则Hadoop将搜索类路径(classpath)查找'core-site.xml' 和 'hdfs-site.xml'文件,或还原为默认配置。 为了使用 swebhdfs, 可查看 '高级设置' 的 PutHDFS 文档 支持表达式语言 (仅支持变量) | ||
Kerberos证书服务 | 控制器服务API: KerberosCredentialsService 实现: KeytabCredentialsService | 指定用于Kerberos授权的证书服务配置 | |
Kerberos Principal | 指定用于认证的Kerberos principal。 需要设置在 orchsym.properties 配置文件中设置 orchsym.kerberos.krb5.file 支持表达式语言 (仅支持变量) | ||
Kerberos Keytab | 指定用于关联Principal认证的Kerberos keytab。 需要设置在 orchsym.properties 配置文件中设置 orchsym.kerberos.krb5.file 支持表达式语言 (仅支持变量) | ||
Kerberos重新登录时长 | 4 hours | 尝试Kerberos重新登录的时长。注:该参数以被弃用,并组件执行没有影响。现在重新登录将自动发生 支持表达式语言 (仅支持变量) | |
额外类路径 | 指定将添加到类路径的并以逗号分隔的多个文件或目录。 当指定目录时,所有目录下的文件将被添加到类路径中,但并不迭代包含子目录中的文件 | ||
目录 | 指定读取文件的HDFS目录 支持表达式语言 (仅支持变量) | ||
递归子目录 | 是 | - 是 - 否 | 决定是否递归读取子目录中的文件 |
保留源文件 | 删除 | - 保留 - 删除 | 决定是否在成功读取之后删除源文件, 如果保留,文件可能被重复读取,可用于测试 |
文件过滤正则 | 指定文件的Java正则表达式过滤设置。如果设置,仅匹配的文件将被读取,否则读取所有文件 | ||
仅匹配名字 | 是 | - 是 - 否 | 如果选择是,则《文件过滤正则》将只匹配文件名,否则,子目录名将与文件名一样进行匹配 |
忽略.文件 | 忽略 | - 忽略 - 不 | 如果忽略,则以点(“.”)开头的文件将被忽略 |
最晚时间间隔 | 0 sec | 指定读取文件的修改时间小于当前平台时间的时间间隔,任何比该时间间隔新的文件将被忽略。支持 纳秒ns, 毫秒ms, 秒s(sec), 分钟m(mins), 小时h(hour/hours), 天d(day/days), 周w(week/weeks)。比如2小时前,设置为2 h,或2 hours | |
最早时间间隔 | 指定读取文件的修改时间大于当前平台时间的时间间隔,任何比该时间间隔旧的文件将被忽略。支持 纳秒ns, 毫秒ms, 秒s(sec), 分钟m(mins), 小时h(hour/hours), 天d(day/days), 周w(week/weeks)。比如2小时前,设置为1 d,或1 day | ||
轮询间隔 | 0 sec | 指定下次处理目录列表需要等待多长时间 | |
分批数量 | 100 | 根据运行安排,在每次迭代读取的最大文件数量。 | |
IO缓存大小 | 用于缓存文件内容的内存大小,该设置将覆盖Hadoop配置 | ||
压缩编码 | 原始 | - 原始 - 默认 - BZIP - GZIP - LZ4 - LZO - SNAPPY - 自动发现 | 指定创建序列文件的文件压缩编码 |
内容输出 | 仅有值 | - 仅有值 - 键值对 | 指定输入数据流的内容是序列文件的键值对还是只有值 |
连线:
名字 | 描述 |
---|---|
success | 所有成功读取到的文件数据将输出到此连线 |
读取属性:
未提供。
写入属性:
名字 | 描述 |
---|---|
filename | 从HDFS读取的文件名 |
path | HDFS中的相对路径,比如,《目录》参数设置为/tmp,则从/tmp目录读取文件的该路径属性为"./". 如果选择《递归子目录》,且文件的路径为/tmp/abc/1/2/3,则该路径属性为"abc/1/2/3". |
状态管理:
该组件不保存状态。
限制:
要求权限 | 说明 |
---|---|
读文件系统 | 基于当前平台可访问的权限,提供相应的读取文件操作权限。 |
写文件系统 | 基于当前平台可访问的权限,提供相应的写入文件操作权限。 |
输入流要求:
组件禁止提供输入流。
系统资源考量:
未提供。