Amazon EMR Hadoop Hive
- 版本 :2022.1 及更高版本
本文介绍如何将 Tableau 连接到 Amazon EMR (Elastic MapReduce) Hadoop Hive 数据库并设置数据源。 注意:从版本 2018.2 开始,Tableau 仅支持 Amazon EMR Hadoop Hive,不支持 Impala。亚马逊不再提供 Impala 驱动程序。
开始之前
在开始之前,请收集以下连接信息:
承载要连接到的数据库的服务器的名称和端口号
身份验证方法:
无身份验证
克贝罗斯
用户名
用户名和密码
Microsoft Azure HDInsight Service(从版本 10.2.1 开始)
传输选项取决于您选择的身份验证方法,可以包括以下内容:
二元的
萨萨尔
断续器
登录凭据取决于您选择的身份验证方法,并且可以包括以下内容:
用户名
密码
领域
主机 FQDN
服务名称
HTTP 路径
是否连接到 SSL 服务器?
(可选)每次 Tableau 连接时运行的初始 SQL 语句
需要驱动程序
此连接器需要驱动程序才能与数据库通信。您的计算机上可能已经安装了所需的驱动程序。如果您的计算机上未安装该驱动程序,Tableau 将在连接对话框中显示一条消息,其中包含指向驱动程序下载页面,您可以在其中找到驱动程序链接和安装说明。
注意:确保使用最新的可用驱动程序。要获取最新的驱动程序,请参阅Amazon EMR Hadoop Hive在“Tableau 驱动程序下载”页上。
建立连接并设置数据源
启动 Tableau,然后在“连接”下,选择“Amazon EMR Hadoop Hive”。有关数据连接的完整列表,请选择“到服务器”下的“更多”。然后执行以下操作:
输入承载数据库的服务器的名称和要使用的端口号。
In the Authentication drop-down list, select the authentication method to use. The information you are prompted to provide depends on the authentication method you choose.
If the Transport drop-down list is available, select the type of transport to use.
(Optional) Select Initial SQL to specify a SQL command to run at the beginning of every connection, such as when you open the workbook, refresh an extract, sign in to Tableau Server, or publish to Tableau Server. For more information, see Run Initial SQL.
Select Sign In.
Select the Require SSL option when connecting to an SSL server.
If Tableau can't make the connection, verify that your credentials are correct. If you still can't connect, your computer is having trouble locating the server. Contact your network administrator or database administrator.
On the data source page, do the following:
(Optional) Select the default data source name at the top of the page, and then enter a unique data source name for use in Tableau. For example, use a data source naming convention that helps other users of the data source figure out which data source to connect to.
From the Schema drop-down list, select the search icon or enter the schema name in the text box and select the search icon, and then select the schema.
In the Table text box, select the search icon or enter the table name and select the search icon, and then select the table.
Drag the table to the canvas, and then select the sheet tab to start your analysis.
Use custom SQL to connect to a specific query rather than the entire data source. For more information, see Connect to a Custom SQL Query.
Sign in on a Mac
If you use Tableau Desktop on a Mac, when you enter the server name to connect, use a fully qualified domain name, such as mydb.test.ourdomain.lan, instead of a relative domain name, such as mydb or mydb.test.
Alternatively, you can add the domain to the list of Search Domains for the Mac computer so that when you connect, you need to provide only the server name. To update the list of Search Domains, go to System Preferences > Network > Advanced, and then open the DNS tab.
使用 Hadoop Hive 数据
使用日期/时间数据
Tableau 本身支持时间戳和日期类型。但是,如果将日期/时间数据存储为 Hive 中的字符串,请确保将其存储为 ISO 格式 (YYYY-MM-DD)。您可以创建一个计算字段,该字段使用 DATEPARSE 或 DATE 函数将字符串转换为日期/时间格式。使用数据提取时使用 DATEPARSE(),否则使用 DATE()。有关详细信息,请参阅日期函数。
有关 Hive 数据类型的详细信息,请参阅日期在Apache Hive网站上。
返回空值
当您在 Tableau 9.0.1 及更高版本以及 8.3.5 及更高版本的 8.3.x 版本中打开工作簿时,将返回 NULL 值,该工作簿是在早期版本中创建的,并且日期/时间数据以 Hive 不支持的格式存储为字符串。若要解决此问题,请将字段类型更改回字符串,并使用 DATEPARSE() 或 DATE() 创建一个计算字段来转换日期。使用数据提取时使用 DATEPARSE(),否则使用 DATE() 函数。
高延迟限制
Hive 是一个面向批处理的系统,尚不能以非常快的周转时间回答简单的查询。此限制可能使浏览新数据集或试验计算字段变得困难。一些较新的SQL-on-Hadoop技术(例如,Cloudera的Impala和Hortonworks的Stringer项目)旨在解决这一限制。