发布主题：全部产品安装创建图表地图应用计算、参数、集技巧小Tips 其它服务器应用数据准备

举个栗子！Tableau 技巧（27）：如何在 Tableau 中用 Python（技术干货，建议收藏）

发布于： 2021-05-20

自从 Tableau10.2 发版，技术宅们欣喜若狂：Tableau 中终于可以用 Python 啦！不过，究竟怎么用？很多用户就不是很清楚了。

关于 Python 在 Tableau 的用法，我查阅相关资料，找到了这篇内容完整并且满满干货的分享文章。英文原文链接接：https://github.com/tableau/TabPy/blob/master/server.md

在这里，我将原文做了翻译，分享给技术达人们！

本期《举个栗子》，阿达要给大家分享的 Tableau 技巧是：如何在 Tableau 中用 Python。

在 Tableau 中用 Python，首先需要添加 TabPy 服务器。TabPy 服务器是 Tableau 的 Python 集成的服务器组件，它是一个基于 Tornado 和其他 Python 库的 Python 进程。

Part 1：在Linux / MacOS上安装

在基于 Linux 的系统上，您可以使用脚本 setup.sh 从头开始安装 TabPy。

首先点击 TabPy 存储库着陆页右上角的绿色克隆或下载按钮并下载 zip 文件。解压缩后，导航到终端窗口中包含 setup.sh 的文件夹，然后键入 ./setup.sh。

在 MacOSX 上，您可能还需要通过键入以下命令来为文件授予权限：chmod + x setup.sh

该脚本执行以下操作：

- 下载并安装Anaconda，除非Anaconda在PATH或文件夹Anaconda在当前文件夹中找到。 Anaconda提供了一套详尽的Python包，包括可由服务器执行的Python代码使用的ML相关库。

- 创建一个名为Tableau-Python-Server的Python环境（如果尚不存在）。然后脚本激活环境，并将服务器文件夹添加到PYTHONPATH（这是服务器脚本在同一个文件夹中查找其Python依赖项所必需的）。

- 将所需的Python包安装到新环境以及客户端软件包中，因为它包含服务器所依赖的常用功能。

- 初始化服务器，显示安装位置和下次启动服务的说明。

安装完成后，或根据启动服务器的说明运行startup.sh时，应该会看到如下输出：

INFO：__ main __：{“INFO”：“Loading state from state file”}

INFO：__ main __：{“INFO”：“Initializing tabpy”}

INFO：__ main __：{“INFO”：“Done initializing tabpy”}

INFO：__ main __：{“INFO”：“Web service listening on port 9004”}

此时，服务器可以远程执行Python代码或部署Python函数。

您可以通过终止进程来停止服务器（例如，使用CTRL-C）。

Part 2：在 Windows 上安装

在 Windows 上，您可以使用脚本 setup.bat 从头开始安装 TabPy。

首先点击TabPy存储库着陆页右上角的绿色克隆或下载按钮并下载zip文件。解压缩后，使用Windows命令行导航到包含setup.bat的文件夹，然后键入setup.bat。

脚本执行以下步骤：

- 下载并安装Anaconda，在当前用户帐户下，例如C：\ users \ yourUserName \，除非Anaconda在PATH中或具有注册表项。 Anaconda提供了一套详尽的Python包，包括可由服务器执行的Python代码使用的ML相关库。

- 创建一个名为Tableau-Python-Server的Python环境（如果尚不存在）。脚本然后激活环境。

- 将所需的Python包安装到新环境以及客户端软件包中，因为它包含服务器所依赖的常见功能。

初始化服务器，显示安装位置和下次启动服务的说明。

安装完成后，或者根据启动服务器的说明运行startup.bat时，应该会看到如下输出：

INFO：__ main __：{“INFO”：“Loading state from state file”}

INFO：__ main __：{“INFO”：“Initializing tabpy”}

INFO：__ main __：{“INFO”：“Done initializing tabpy”}

INFO：__ main __：{“INFO”：“Web service listening on port 9004”}

此时，服务器可以远程执行Python代码或部署Python函数。

您可以通过终止可以在Windows任务管理器中看到的python2.7进程来停止服务器。（按Ctrl + Shift + Esc访问任务管理器）

Part 3：手动安装

如果您熟悉Python环境并且已经设置了一个，或者不喜欢使用Anaconda，并且只想启动服务器进程，则可以跳过安装脚本，安装依赖项并直接从命令行运行该进程。手动安装说明假定Conda或Python被定义为PATH的一部分。

它是可选的，但建议您为此项目创建一个新的Conda环境：

conda create --name Tableau-Python-Server python = 2.7 anaconda

上面的示例创建了一个Python 2.7环境，但Python 2.7+和Python 3.5+都支持Tableau Python Server。

现在激活新创建的环境。

在Linux / MacOS上：

source Tableau-Python-Server

在Windows上：

activate Tableau-Python-Server

由于TabPy在PyPI上可用，您可以通过简单的运行以下命令进行安装。

pip install tabpy-server

随着软件包的安装，您将看到命令行中列出的安装位置。这些可能看起来像/Users/username/anaconda/envs/Tableau-Python-Server/lib/python2.7/site-packages或\ Users \ username \ anaconda \ envs \ Tableau-Python-Server \ lib \ site-packages，取决于你的环境。

导航到site-packages下的tabpy_server文件夹，并分别在Windows和Linux / MacOS上运行startup.bat或startup.sh。您可以指定自定义端口号作为参数。 startup.bat 9001。

Part 4：更新TabPy

您可以使用pip中的--upgrade选项来更新到较新版本。

pip install --upgrade tabpy-server

为了使其成功，如果您在Conda环境中安装了TabPy，请确保它处于活动状态。

Part 5：扩展环境

如果您的功能取决于未包含的Python软件包，则需要将它们安装到Python环境中，以使其可用于服务器进程。

以下代码段假设您已经运行setup.sh或setup.bat，它创建了一个Conda环境，并在该环境中启动了服务器进程。

通过添加包名称，它可用于在服务器中执行的任何Python代码：

在Linux / MacOS上：

/Anaconda/bin/source activate Tableau-Python-Server

pip install _names_of_packages_here_

在Windows上：

/ Anaconda / Scripts / activate Tableau-Python-Server

pip install _names_of_packages_here_

如果您在默认的Python框架中安装了没有Anaconda的TabPy，那么您可以通过以下方式实现：

pip install _names_of_packages_here_

您可以在服务器进程运行时在单独的终端中执行此操作 - 无需重新启动。

Part 6：REST接口

服务器进程暴露了几个REST API以获取状态并执行Python代码并查询已部署的方法。

http：get :: / info

获取有关服务器的静态信息。

☞示例请求：

GET /info HTTP/1.1

Host: localhost:9004

Accept: application/json

☞响应示例：

HTTP / 1.1 200 OK

Content-Type：application / json

{“description”：“”，

“creation_time”：“0”，

“state_path”：“/ Users / username / my-server-state-folder”，

“server_version”：“dev”，

“name”：“my-server-name”}

- description是在state.ini文件中硬编码的字符串，可以在那里编辑。

- creation_time是自1970-01-01以来的创建时间（以秒为单位），硬编码在state.ini文件中，可在其中进行编辑。

- state_path是服务器的状态文件路径（服务器启动时环境变量TABPY_STATE_PATH的值）。

- server_version是由服务器提供的硬编码字符串（在server / common / config.py中定义）。客户可以使用此信息进行兼容性检查。

☞使用卷曲

curl -X GET http：// localhost：9004 / info

http：get :: / status

获取部署端点的运行时状态。如果在服务器中未部署端点，则返回的数据是空的JSON对象。

☞示例请求：

GET /status HTTP/1.1

Host: localhost:9004

Accept: application/json

☞响应示例：

HTTP / 1.1 200 OK

Content-Type：application / json

{"clustering": {

"status": "LoadSuccessful",

"last_error": null,

"version": 1,

"type": "model"},

"add": {

"status": "LoadSuccessful",

"last_error": null,

"version": 1,

"type": "model"}

}

☞使用卷曲：

curl -X GET http：// localhost：9004 / status

http：get :: / endpoints

获取部署的端点及其静态信息的列表。如果在服务器中未部署端点，则返回的数据是空的JSON对象。

☞示例请求：

GET /endpoints HTTP/1.1

Host: localhost:9004

Accept: application/json

☞响应示例：

HTTP / 1.1 200 OK

Content-Type：application / json

{"clustering":

{"description": "",

"docstring": "-- no docstring found in query function --",

"creation_time": 1469511182,

"version": 1,

"dependencies": [],

"last_modified_time": 1469511182,

"type": "model",

"target": null},

"add": {

"description": "",

"docstring": "-- no docstring found in query function --",

"creation_time": 1469505967,

"version": 1,

"dependencies": [],

"last_modified_time": 1469505967,

"type": "model",

"target": null}

}

☞使用卷曲：

curl -X GET http：// localhost：9004 / endpoints

http：get :: / endpoints /：endpoint

获取特定部署端点的描述。端点必须首先部署在服务器中。

☞示例请求：

GET /endpoints/add HTTP/1.1

Host: localhost:9004

Accept: application/json

☞响应示例：

HTTP / 1.1 200 OK

Content-Type：application / json

{"description": "", "docstring": "-- no docstring found in query function --",

"creation_time": 1469505967, "version": 1, "dependencies": [],

"last_modified_time": 1469505967, "type": "model", "target": null}

☞使用卷曲：

curl -X GET http：// localhost：9004 / endpoints / add

http：post :: / evaluate

执行一个Python代码块，用提供的值替换命名参数。

预期的POST主体是一个带有两个元素的JSON字典：

- 包含传递给代码的参数值的值的关键数据data。这些值是按键名称（_arg1，_arg2等）的特定约定的键值对。

- 包含Python代码（一行或多行）的值的关键脚本scritp。对参数名称的任何引用将根据数据被其值替代。

☞示例请求：

POST /evaluate HTTP/1.1

Host: localhost:9004

Accept: application/json

{"data": {"_arg1": 1, "_arg2": 2}, "script": "return _arg1+_arg2"}

☞响应示例：

HTTP / 1.1 200 OK

Content-Type：application / json

☞使用卷曲：

curl -X POST http：// localhost：9004 / evaluate \

-d'{“data”：{“_arg1”：1，“_arg2”：2}，“script”：“return _arg1 + _arg2”}'

可以通过预定义的函数tabpy.query从代码块中调用已部署的函数。此函数的工作方式与客户端库的查询方法类似，并返回相应的数据结构。该功能必须首先作为服务器端点部署。

☞以下示例在部署deploy-function部分时调用端点集群：

POST /evaluate HTTP/1.1

Host: example.com

Accept: application/json

{ "data":

{ "_arg1": [6.35, 6.40, 6.65, 8.60, 8.90, 9.00, 9.10],

"_arg2": [1.95, 1.95, 2.05, 3.05, 3.05, 3.10, 3.15]

"script": "return tabpy.query('clustering', x=_arg1, y=_arg2)"}

☞下一个示例显示如何使用curl从终端调用评估;此代码查询部署在deploy-function中的方法add：

curl -X POST http：// localhost：9004 / evaluate \

-d'{“data”：{“_arg1”：1，“_arg2”：2}，

“script”：“return tabpy.query（\”add \“，x = _arg1，y = _arg2）[\”response \“]”}'

http：post :: / query /：endpoint

在指定的端点执行一个函数。该功能必须首先部署。

该界面希望具有数据键的JSON体，根据其原始定义指定函数的值。在下面的例子中，函数聚类被定义为两个参数x和y的签名，期望数字数组。

☞示例请求：

POST / query / clustering HTTP / 1.1

Host：localhost：9004

Accetp：application / json

{“data”：{

“x”：[6.35，6.40，6.65，8.60，8.90，9.00，9.10]，

“y”：[1.95，1.95，2.05，3.05，3.05，3.10，3.15]}}

☞响应示例：

HTTP / 1.1 200 OK

Content-Type：application / json

{“model”：“clustering”，“version”：1，“response”：[0，0，0，1，1，1，1]

“uuid”：“46d3df0e-acca-4560-88f1-67c5aedeb1c4”}

☞使用卷曲：

curl -X GET http：// localhost：9004 / query / clustering -d \

'{“data”：{“x”：[6.35，6.40，6.65，8.60，8.90，9.00，9.10]，

“y”：[1.95，1.95，2.05，3.05，3.05，3.10，3.15]}}'

今天的Tableau技巧你Get到了吗？把它分享给你的朋友吧~