将数据流存储配置为使用 Azure Data Lake Gen 2
- 版本 :2023.1(当前版本)
将数据流存储配置为使用 Azure Data Lake Gen 2
默认情况下,Power BI 中使用的数据存储在由 Power BI 提供的内部存储中。 通过将数据流与 Azure Data Lake Storage Gen 2 (ADLS Gen2) 集成,可以将数据流存储在组织的 Azure Data Lake Storage Gen2 帐户中。 这实际上使你可以将自己的存储引入 Power BI 数据流,并在租户或工作区级别建立连接。
使用 ADLS Gen 2 工作区或租户连接的原因
附加数据流后,Power BI 配置并保存引用,以便你现在可以将数据读写到自己的 ADLS Gen 2。 Power BI 将数据存储为 CDM 格式,该格式将捕获有关数据的元数据以及数据流本身生成的实际数据。 这会解锁许多强大的功能,使 CDM 格式的数据和相关元数据现在可用在扩展性、自动化、监视和备份方案中。 通过使此数据在自己的环境中可用和可广泛访问,你可以使在组织中创建的见解和数据变得大众化。 它还让你能够进一步创建可识别 CDM 的解决方案(例如 Power Platform、Azure 中的自定义应用程序和解决方案,以及可通过合作伙伴和 ISV 生态系统使用的解决方案)或者创建只是能够阅读 CSV 的解决方案。 你的数据工程师、数据科学家和分析师现在可以处理、使用和重新使用 ADLS Gen 2 中收集展示的一组通用数据。
可以通过两种方法配置要使用的 ADLS Gen 2 存储:可以使用租户分配的 ADLS Gen 2 帐户,也可以在工作区级别引入自己的 ADLS Gen 2 存储。
先决条件
若要引入自己的 ADLS Gen 2 帐户,就必须在存储帐户层具有所有者权限。 资源组或订阅级别的权限将不起作用。 即使你是管理员,也必须为自己分配所有者权限。 当前不支持防火墙后面的 ADLS Gen2 存储帐户。
必须在启用了分层命名空间 (HNS) 的情况下创建存储帐户。
必须在与 Power BI 租户相同的 Azure Active Directory 租户内创建 Azure 存储帐户。
用户必须具有存储 Blob 数据所有者角色、存储 Blob 数据读取者角色和存储帐户级别的所有者角色(范围应为此资源,而不是继承)。 任何已应用的角色更改可能需要几分钟才能同步,并且必须在 Power BI 服务中完成以下步骤之前进行同步。
Power BI 工作区租户区域应与存储帐户区域相同。
需要 TLS(传输层安全性)版本 1.2(或更高版本),以确保终结点的安全。 Web 浏览器和使用 TLS 1.2 之前的 TLS 版本的其他客户端应用程序将无法连接。
不支持在多重身份验证 (MFA) 后将数据流与 ADLS Gen 2 连接。
最后,你可以从管理门户连接到任何 ADLS Gen 2,但如果直接连接到工作区,则必须先确保工作区中没有数据流,然后再进行连接。
下表描述了 ADLS 的权限以及 ADLS Gen 2 和 Power BI 所需的 Power BI 的权限:
操作 ADLS 权限 最低的 Power BI 权限
将 ADLS Gen 2 连接到 Power BI 租户 所有者 Power BI 管理员
将 ADLS Gen 2 连接到工作区 所有者 工作区管理员
创建写回到连接的 ADLS 帐户的 Power BI 数据流 不适用 工作区参与者
使用 Power BI 数据流 不适用 工作区查看器
在工作区级别连接到 Azure Data Lake Gen 2
导航到没有数据流的工作区。 选择“工作区设置”。 选择“Azure 连接”选项卡,然后选择“存储”部分。
如果管理员已经配置了租户分配的 ADLS Gen 2 帐户,则会显示“使用默认 Azure 连接”选项。 可以使用两个选项:
通过选中名为“使用默认 Azure 连接”的框来使用租户配置的 ADLS Gen 2 帐户,或
选择“连接到 Azure”以指向新的 Azure 存储帐户。
当选择“连接到 Azure”时,Power BI 会检索你有权访问的 Azure 订阅的列表。 填写下拉列表,并选择有效的 Azure 订阅、资源组和启用了分层命名空间选项(即 ADLS Gen2 标志)的存储帐户。
完成选择后,选择“保存”,此时已成功将工作区连接到你自己的 ADLS Gen2 帐户。 Power BI 会自动为存储帐户配置所需权限,并设置将向其写入数据的 Power BI 文件系统。 此时,此工作区中每个数据流的数据都将直接写入该文件系统,该文件系统可与其他 Azure 服务配合使用,为所有组织或部门数据创建单个源。
了解配置
配置 Azure 连接是一个可选设置,具有可选择设置的其他属性:
租户级存储,以便设置默认值,和/或
工作区级存储,以便指定每个工作区的连接
如果希望仅使用集中式数据湖或希望将此设置为默认选项,则可以选择配置租户级存储。 我们不会自动开始使用默认值来使配置更灵活,因此,你可以根据需要灵活地配置使用此连接的工作区。 如果你配置租户分配的 ADLS Gen 2 帐户,则仍需将每个工作区配置为使用此默认选项。
你可以选择性地(或另外)将工作区级的存储权限配置为单独的选项,这可以实现完全的灵活性,以便按工作区在工作区上设置特定的 ADLS Gen 2 帐户。
概括而言,如果允许租户级存储和工作区级存储权限,则工作区管理员可以选择使用默认的 ADLS 连接,或者选择配置不同于默认存储帐户的其他存储帐户。 如果未设置租户存储,则工作区管理员可以选择按工作区在工作区上配置 ADLS 帐户。 最后,如果选择了租户级存储并不允许使用工作区级存储,则工作区管理员可以选择将其数据流配置为使用此连接。
了解 ADLS Gen 2 工作区连接的结构和格式
在 ADLS Gen 2 存储帐户中,所有数据流都存储在文件系统的 powerbi 容器中。
powerbi 容器的结构如下所示:
数据流将数据存储在 ADLS Gen 2 的文件夹层次结构中的位置取决于工作区是位于共享容量还是 Premium 容量中。 下表显示了每个容量类型刷新后的文件结构。
高级容量 共享容量
/
/