ListFile
描述:
从本地文件系统中检索文件列表。针对每个文件创建一个输出流,以便可以与FetchFile组件配合使用。此组件仅在群集模式下的主节点上运行。如果主节点发生变化,则新主节点将从上一节点停止的位置继续,而不会产生重复数据。与GetFile不同,此组件从不从本地文件系统中删除任何文件。
标签:
file, get, list, ingest, source, filesystem, 文件, 文件列表
参数:
如下列表中,必填参数则标识为加粗. 其他未加粗参数,则表示为可选参数。表中同时提到参数默认值设置, 并且 参数还支持 表达式语言.
名字 | 默认值 | 允许值列表 | 描述 |
---|---|---|---|
读取目录 | 从该目录中读取文件列表 支持表达式语言 (仅支持变量) | ||
迭代子目录 | 是 | - 是 - 否 | 选择是否迭代处理子目录 |
读取目录位置 | 本地 | - 本地 - 远程 | 指定读取目录的位置。用于确定状态的存储位置,在本地还是集群中。 |
文件过滤器 | \..* | 仅选取名称与给定正则表达式匹配的文件 | |
路径过滤器 | 当能够<迭代子目录>时,只扫描路径与给定正则表达式匹配的子目录 | ||
包含文件属性 | 包含 | - 包含 - 禁用 | 是否包含诸如最后修改时间和拥有者信息作为数据流属性,依据使用的文件系统,收集此信息可能会带来问题,因此应该禁用。远程文件共享尤其如此。 |
最早文件修改时间 | 0 sec | 文件被读取的最早修改时间限定,任何小于此时间量的文件(根据最后修改日期)将被忽略 | |
最晚文件修改时间 | 文件被读取的最晚修改时间限定,任何超过此时间量的文件(根据上次修改日期)都将被忽略 | ||
最小文件大小限定 | 0 B | 能被读取的最小文件大小 | |
最大文件大小限定 | 能被读取的最大文件大小 | ||
忽略隐藏文件 | 忽略 | - 忽略 - 不忽略 | 选择是否忽略隐藏文件 |
目标系统时间戳精度 | 自动检测 | - 自动检测 - 毫秒 - 秒 - 分钟 | 指定目标系统的时间戳精度。为了使用正确的时间戳精度,用于获取准确的文件。 |
连线:
名字 | 描述 |
---|---|
success | 成功读取目录下文件列表的数据流输出 |
读取属性:
未提供。
写入属性:
名字 | 描述 |
---|---|
filename | 从文件系统读取的文件名称 |
path | 基于读取目录的文件相对路径。例如,如果<读取目录>参数设置为/tmp,则从/tmp中读取的文件的path属性将设置为./。如果<迭代子目录>参数设置为true并且从/tmp/abc/1/2/3中读取文件,则path属性将设置为abc/1/2/3 |
absolute.path | The absolute.path is set to the absolute path of the file's directory on filesystem. For example, if the Input Directory property is set to /tmp, then files picked up from /tmp will have the path attribute set to "/tmp/". If the Recurse Subdirectories property is set to true and a file is picked up from /tmp/abc/1/2/3, then the path attribute will be set to "/tmp/abc/1/2/3/". |
file.owner | 文件的所有者。可能无法在所有文件系统上运行 |
file.group | 文件的组所有者。可能无法在所有文件系统上运行 |
file.size | 文件大小 |
file.permissions | 文件的读/写/执行权限。 |
file.lastModifiedTime | The timestamp of when the file in filesystem was last modified as 'yyyy-MM-dd'T'HH:mm:ssZ' |
file.lastAccessTime | The timestamp of when the file in filesystem was last accessed as 'yyyy-MM-dd'T'HH:mm:ssZ' |
file.creationTime | The timestamp of when the file in filesystem was created as 'yyyy-MM-dd'T'HH:mm:ssZ' |
状态管理:
范围 | 描述 |
---|---|
LOCAL, CLUSTER | After performing a listing of files, the timestamp of the newest file is stored. This allows the Processor to list only files that have been added or modified after this date the next time that the Processor is run. Whether the state is stored with a Local or Cluster scope depends on the value of the <Input Directory Location> property. |
限制:
该组件没有限制
输入流要求:
组件禁止提供输入流。
系统资源考量:
未提供。