Azure Data Factory：映射数据流（Mapping Data Flow）详细指南

在Azure Data Factory中，映射数据流（Mapping Data Flow）是一项强大的数据整理与转换功能，类似于SSIS的数据流设计。其核心组件包括Source、转换（Transformation）和Sink（Destination），通过数据流图（Data Flow Graph）连接各组件，实现数据从源到目的地的流转与转换。

创建数据流面板

进入Data Factory

打开Azure Data Factory，切换到“Author”面板，导航至“Factory Resources”，选择“Data flows”，然后点击右侧的“...”（Actions），选择“New mapping dataflow”创建新数据流面板。

初始面板结构

新建后的数据流面板命名为dataflow1，面板中央是绘图区域，可向画布添加Source、转换组件和Sink。

配置Source

添加Source

点击画布上的“Add Source”，创建一个源组件，默认命名为source1。源右侧的“+”号提示可添加转换功能。

源属性设置

选中Source后，底部显示Source settings面板，用于设置源属性。常用设置包括：

Source type：通常选择“Dataset”，表示从数据集获取数据。

Partition settings（分区设置）：优化数据流性能，支持设置Partition type、Partition option及Number of partitions。

Inspect面板：查看数据流元数据，包括列数、列变化、数据类型等。

转换功能配置

添加转换

在Source右下角的“+”号处点击，启用转换功能。转换功能分为四大类：

1. 多输入/输出（Multiple inputs/outputs）

Join：用于将多个Source连接，实现数据合并。

Conditional Split：根据条件将单个Source拆分为多个输出流。

Exists：需要两个输入流（Left stream和Right stream），根据Exist type输出匹配或不匹配的数据。

Union：将多个输入流合并为单个输出流。

Lookup：基于Lookup stream匹配Primary stream中的数据，输出匹配结果。

2. Schema Modifier（字段修改器）

Derive Column：根据数据计算新字段。

Select：选择需要保留的字段。

Aggregate：对数据进行聚合运算。

SurrogateKey：根据源主键生成代理主键。

Pivot和Unpivot：实现数据的透视和逆透视操作。

Windows：定义基于窗口的聚合运算。

Flatten：将嵌套数据（如JSON）展平成多个字段。

Rank：为数据字段赋予排名。

3. Row Modifier（行修改器）

Filter：过滤数据流中的行。

Sort：对数据行进行排序。

Alter Row：对行数据进行插入、删除、更新或更新插入（Upsert）操作。

4. Destination（目的地）

Sink用于指定数据存储目标，配置数据存储位置及数据格式。

数据流运行与监控

调试数据流

在发布数据流前，需先启用数据流的“Data flow debug”功能，完成调试后再发布。

添加数据流活动

在Pipeline面板中添加Data flow活动，配置活动设置：

在“Data flow”中引用所需的数据流。

设置 Azure IR（Integration Runtime），默认使用默认IR。

可设置日志级别，Verbose为默认选项。

监控数据流

数据流作为Pipeline中的活动，需在Pipeline runs中查看执行情况。通过监控数据流，可以跟踪数据转换过程中的错误和性能指标。

通过以上步骤，可以在 Azure Data Factory中高效配置并运行映射数据流，完成数据的转换与集成任务。

转载地址：http://kuxyz.baihongyu.com/

你可能感兴趣的文章