本文共 1701 字,大约阅读时间需要 5 分钟。
Azure Data Factory:映射数据流(Mapping Data Flow)详细指南
在Azure Data Factory中,映射数据流(Mapping Data Flow)是一项强大的数据整理与转换功能,类似于SSIS的数据流设计。其核心组件包括Source、转换(Transformation)和Sink(Destination),通过数据流图(Data Flow Graph)连接各组件,实现数据从源到目的地的流转与转换。
创建数据流面板
进入Data Factory
打开Azure Data Factory,切换到“Author”面板,导航至“Factory Resources”,选择“Data flows”,然后点击右侧的“...”(Actions),选择“New mapping dataflow”创建新数据流面板。 初始面板结构
新建后的数据流面板命名为dataflow1,面板中央是绘图区域,可向画布添加Source、转换组件和Sink。 配置Source
添加Source
点击画布上的“Add Source”,创建一个源组件,默认命名为source1。源右侧的“+”号提示可添加转换功能。 源属性设置
选中Source后,底部显示Source settings面板,用于设置源属性。常用设置包括: - Source type:通常选择“Dataset”,表示从数据集获取数据。
- Partition settings(分区设置):优化数据流性能,支持设置Partition type、Partition option及Number of partitions。
- Inspect面板:查看数据流元数据,包括列数、列变化、数据类型等。
转换功能配置
添加转换
在Source右下角的“+”号处点击,启用转换功能。转换功能分为四大类: - Join:用于将多个Source连接,实现数据合并。
- Conditional Split:根据条件将单个Source拆分为多个输出流。
- Exists:需要两个输入流(Left stream和Right stream),根据Exist type输出匹配或不匹配的数据。
- Union:将多个输入流合并为单个输出流。
- Lookup:基于Lookup stream匹配Primary stream中的数据,输出匹配结果。
2. Schema Modifier(字段修改器)
- Derive Column:根据数据计算新字段。
- Select:选择需要保留的字段。
- Aggregate:对数据进行聚合运算。
- SurrogateKey:根据源主键生成代理主键。
- Pivot和Unpivot:实现数据的透视和逆透视操作。
- Windows:定义基于窗口的聚合运算。
- Flatten:将嵌套数据(如JSON)展平成多个字段。
- Rank:为数据字段赋予排名。
3. Row Modifier(行修改器)
- Filter:过滤数据流中的行。
- Sort:对数据行进行排序。
- Alter Row:对行数据进行插入、删除、更新或更新插入(Upsert)操作。
4. Destination(目的地)
Sink用于指定数据存储目标,配置数据存储位置及数据格式。
数据流运行与监控
调试数据流
在发布数据流前,需先启用数据流的“Data flow debug”功能,完成调试后再发布。 添加数据流活动
在Pipeline面板中添加Data flow活动,配置活动设置: - 在“Data flow”中引用所需的数据流。
- 设置 Azure IR(Integration Runtime),默认使用默认IR。
- 可设置日志级别,Verbose为默认选项。
监控数据流
数据流作为Pipeline中的活动,需在Pipeline runs中查看执行情况。通过监控数据流,可以跟踪数据转换过程中的错误和性能指标。 通过以上步骤,可以在 Azure Data Factory中高效配置并运行映射数据流,完成数据的转换与集成任务。
转载地址:http://kuxyz.baihongyu.com/