Skip to main content

PutHDFS

描述:

将输入数据流的内容写入到HDFS文件中

标签:

hadoop, HDFS, put, copy, filesystem, 拷贝, 写入

参数:

如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.

名字默认值允许值列表描述
Hadoop配置指定由逗号分隔符分隔的多个Hadoop配置文件。如果不设置,则Hadoop将搜索类路径(classpath)查找'core-site.xml' 和 'hdfs-site.xml'文件,或还原为默认配置。 为了使用 swebhdfs, 可查看 '高级设置' 的 PutHDFS 文档

支持表达式语言 (仅支持变量)
Kerberos证书服务控制器服务API:
KerberosCredentialsService
实现:
KeytabCredentialsService
指定用于Kerberos授权的证书服务配置
Kerberos Principal指定用于认证的Kerberos principal。 需要设置在 orchsym.properties 配置文件中设置 orchsym.kerberos.krb5.file

支持表达式语言 (仅支持变量)
Kerberos Keytab指定用于关联Principal认证的Kerberos keytab。 需要设置在 orchsym.properties 配置文件中设置 orchsym.kerberos.krb5.file

支持表达式语言 (仅支持变量)
Kerberos重新登录时长4 hours尝试Kerberos重新登录的时长。注:该参数以被弃用,并组件执行没有影响。现在重新登录将自动发生

支持表达式语言 (仅支持变量)
额外类路径指定将添加到类路径的并以逗号分隔的多个文件或目录。 当指定目录时,所有目录下的文件将被添加到类路径中,但并不迭代包含子目录中的文件
目录文件将写入的目录,如果不存在将创建

支持表达式语言 (支持流属性和变量)
冲突解决策略失败
- 替换如果存在,替换掉
- 忽略忽略数据流并路由到成功连线
- 失败惩罚数据流并路由到失败连线
- 追加追加到已存在的文件中,否则创建新文件
决定当输出目录中已经存在具有相同名称的文件时应该如何处理
块大小指定写入HDFS的每个块的大小,该设置将覆盖Hadoop配置
IO缓存大小用于缓存文件内容的内存大小,该设置将覆盖Hadoop配置
备份数HDFS将要备份每个文件的数量。该设置将覆盖Hadoop配置
权限掩码用于决定写入HDFS的文件权限且用八进制数表示的权限掩码,该设置将覆盖Hadoop配置的 dfs.umaskmode
远程拥有者在写入文件后,改变HDFS文件的拥有者。仅当该平台以拥有修改拥有者权限的HDFS超级用户权限的用户身份运行时,此操作才有效。

支持表达式语言 (支持流属性和变量)
远程组在写入文件后,改变HDFS文件的组。仅当该平台以拥有修改组权限的HDFS超级用户权限的用户身份运行时,此操作才有效。

支持表达式语言 (支持流属性和变量)
压缩编码原始
- 原始不压缩
- 默认默认的 ZLIB压缩
- BZIPBZIP压缩
- GZIPGZIP压缩
- LZ4LZ4压缩
- LZOLZO 压缩 - 假定LD_LIBRARY_PATH已设置相应的jar并可用
- SNAPPYSnappy压缩
- 自动发现将尝试自动检测压缩编码
指定创建序列文件的文件压缩编码

连线:

名字描述
success成功将输入数据流写入到HDFS的数据到此连线
failure由于某些原因而不能写入HDFS的数据将输出到此失败连线

读取属性:

名字描述
filename用于写入HDFS的输入数据流上的文件名属性

写入属性:

名字描述
filename写入的HDFS文件名
absolute.hdfs.path文件的绝对路径

状态管理:

该组件不保存状态。

限制:

要求权限说明
写文件系统基于当前平台可访问的权限,提供相应的写入文件操作权限。

输入流要求:

组件必须提供输入流。

系统资源考量:

未提供。

参考:

GetHDFS