从初始节点故障中恢复
- 版本 :2022.1 及更高版本
安装 Tableau 的第一台计算机(即“初始节点”)具有一些独特的特征。三个进程仅在初始节点上运行,不能移动到任何其他节点,除非在故障情况下,许可证服务(许可证管理器)、激活服务和 TSM 控制器(管理控制器)。Tableau Server 包含一个脚本,该脚本可自动将这些进程移动到其他现有节点之一,以便您可以完全访问 TSM 并保持 Tableau Server 运行。 另外两个进程最初包含在初始节点上,但可以添加或移动到其他节点,即 CFS(客户端文件服务)和协调服务。根据使用 CFS 和协调服务配置安装的方式,您可能还需要采取措施重新部署这些内容。
如果初始节点发生故障
如果初始节点存在问题,并且您的其他节点上有冗余进程,则无法保证 Tableau Server 将继续运行。在初始节点发生故障后,Tableau Server 可以继续运行长达 72 小时,直到缺少许可服务会影响其他进程。如果是这样,您的用户在初始节点失败后可能能够继续登录并查看和使用其内容,但您将无法重新配置 Tableau Server,因为您将无法访问管理控制器。
即使配置了冗余进程,Tableau Server 也可能在初始节点出现故障后无法继续运行。即使将安装配置为高可用性,也是如此。这意味着您应该尽快将两个唯一的进程移动到另一个正在运行的节点。如果初始节点由于可在相对较短的时间内恢复的原因(例如,可以更正的硬件故障)而发生故障,则应首先尝试在不使用以下过程的情况下恢复节点。
注意:本文中的步骤需要服务器停机,并且可能会造成中断,并且应仅在初始节点发生灾难性故障时使用。如果无法使初始节点再次运行,请使用以下步骤将关键 TSM 进程移动到群集中的另一个节点。
一般要求
Tableau Server 的 2021.1 版本已更新,具有改进的恢复功能。本主题中的过程是为 Tableau Server 2021.1 编写的。
如果您尝试从早期版本的 Tableau Server 恢复出现故障的节点,则必须执行该版本的过程。要查看 Tableau 联机帮助的存档版本,请参阅Tableau 帮助.
作为设置多节点 Tableau Server 安装过程的一部分,您应该已部署协调服务整体。下面的过程假定在初始节点出现问题之前部署了协调整体。有关部署协调服务整体的详细信息,请参 阅部署协调服务整体 。
此过程假定您已在运行协调服务的每个节点上配置了客户端文件服务 (CFS) 的实例。如果您没有添加其他 CFS 实例,则您唯一的实例位于初始节点上,并且您需要将至少一个 CFS 实例添加到另一个节点。您还需要重新填充 CFS。Tableau Server 至少需要一个 CFS 实例。有关详细信息,请参阅配置客户端文件服务和 Tableau Server 客户端文件服务。
注意:此操作包括您可能需要使用 TSM 命令行执行的步骤。要使用 TSM CLI,您需要管理员对安装中某个节点上的命令行具有访问权限,并且需要 TSM 管理员凭据才能运行 TSM 命令。
将 TSM 控制器、许可证服务和激活服务移动到另一个节点
如果初始节点有问题,则需要在另一个节点上启动 TSM 控制器、授权服务和激活服务。请按照以下步骤使用提供的脚本,并使 TSM 控制器、授权服务和激活服务在另一个节点上工作。move-tsm-controller
在仍在工作的节点上,运行控制器恢复脚本。为此,请打开命令提示符,导航到 Tableau Server 脚本目录(默认情况下:),然后键入以下命令:
C:\Program Files\Tableau\Tableau Server\packages\scripts.
move-tsm-controller -n
其中“nodeID”是您希望运行 TSM 控制器的节点的 ID。例如:
move-tsm-controller -n node2
关闭并重新打开命令窗口,并通过键入以下命令验证管理控制器是否在节点上运行:
tsm status -v
停止 Tableau Server。
此过程的其余部分包括一些带有该选项的命令。使用该选项运行命令时,该命令将在不考虑指定节点的状态的情况下运行。要使用 ,请指定失败的节点:
--ignore-node-status
--ignore-node-status
--ignore-node-status
tsm stop --ignore-node-status
例如,如果 node1 出现故障,请按如下方式运行该命令:
tsm stop --ignore-node-status node1
将许可证服务添加到节点:
tsm topology set-process -pr licenseservice -n
Remove the old License Service from the original node, where "nodeID" is the initial node that has failed:
tsm topology set-process -pr licenseservice -n
If you're using Server ATR, add the Activation Service to the node:
tsm topology set-process -pr activationservice -n
If you're using Server ATR, remove the old Activation Service from the original node, where "nodeID" is the initial node that has failed:
tsm topology set-process -pr activationservice -n
Important: In a cluster, if a node that is running your only instance of CFS fails, any files being managed by CFS will be lost, and you will need to repopulate CFS those files by reimporting certs and custom images, and making any related configuration changes. For a list of files managed by CFS, see Tableau Server Client File Service.
If the initial node had been running the Messaging Service, add the Messaging Service to this node:
tsm topology set-process -pr activemqserver -n node2 -c 1
(Optional) You can also add other processes that had been running on the initial node but are not running on this node. For example, to add an cache server:
tsm topology set-process -pr cacheserver -n node2 -c 1
Apply the changes:
tsm pending-changes apply --ignore-node-status
If the pending changes require a server restart, the command will display a prompt to let you know a restart will occur. This prompt displays even if the server is stopped, but in that case there is no restart. You can suppress the prompt using the option, but this does not change the restart behavior. If the changes do not require a restart, the changes are applied without a prompt. For more information, see tsm pending-changes apply.
pending-changes apply
--ignore-prompt
Restart the TSM Administration Controller:
net stop tabadmincontroller_0
net start tabadmincontroller_0
Note: You must run these commands as an administrator from a command prompt. Depending on how your computer is configured, you may need to run them in the folder.
C:\Windows\System32
Note: It may take a few minutes for tabadmincontroller to restart. If you attempt to apply pending changes in the next step before the controller has fully restarted, TSM will not be able to connect to the controller. You can verify that the controller is running by using the command. Tableau Server Administration Controller should be listed as "is running".
tsm status -v
Apply pending changes (there may not appear to be any, but this step is required):
tsm pending-changes apply --ignore-node-status
Activate the Tableau Server license on the new Controller node:
tsm licenses activate -k
Verify the license is properly activated:
tsm licenses list
If the initial node was running the Coordination Service, you need to deploy a new Coordination Service ensemble that does not include that node. If you have a three node cluster and the initial node was running the Coordination Service, you must deploy a new, single-instance Coordination Service ensemble on a different node and clean up the old ensemble. In this example, a single instance of the Coordination Service is being deployed to the second node:
tsm topology deploy-coordination-service -n node2 --ignore-node-status node1
If the initial node was running a File Store instance, you need to remove that instance:
tsm topology filestore decommission -n
Where is the initial node that has failed.
nodeID
Apply pending changes, using the flag if the new Coordination Service ensemble you deployed above is a single node ensemble:
--ignore-warnings
tsm pending-changes apply --ignore-node-status node1 --ignore-warnings
Remove the initial node, where is the initial node that has failed:
nodeID
tsm topology remove-nodes -n
Apply pending changes, using the flag if the new Coordination Service ensemble you deployed above is a single node ensemble:
--ignore-warnings
tsm pending-changes apply --ignore-warnings
Start Tableau Server:
tsm start
此时,您的服务器应该启动,并且您将能够使用 TSM 对其进行配置。下一步是替换初始节点,以便群集具有原始节点数。如何执行此操作取决于是否要重用失败的节点。我们建议您仅在能够确定该节点失败的原因并采取措施防止故障再次发生时才重用该节点。
如果您计划重用原始节点,则首先需要从中完全删除 Tableau。通过运行脚本来执行此操作。有关执行此操作的详细信息,请参阅从计算机中删除 Tableau 服务器。
tableau-server-obliterate
在全新计算机上,或在完全删除 Tableau 后的原始计算机上,使用原始安装程序和从现在运行管理控制器和授权服务的节点生成的引导文件来安装 Tableau。这将创建一个可配置为群集一部分的其他节点。有关如何添加节点的详细信息,请参阅安装和配置其他节点。
最佳做法是配置原始节点发生故障时丢失的任何进程,以确保群集是完全冗余的。您可能希望将进程从新的初始节点移动到新添加的附加节点,以复制原始配置。例如,如果初始节点仅运行网关和文件存储,则可能需要以相同的方式配置新的初始节点。
一旦节点启动并按所需方式运行,您还应该重新部署新的协调服务整体。有关详细信息,请参 阅部署协调服务整体 。
最后,如果尚未执行此操作,请将 CFS 实例添加到运行协调服务的每个节点。有关详细信息,请参阅配置客户端文件服务
在群集中,如果运行您唯一的 CFS 实例的节点发生故障,则 CFS 管理的所有文件都将丢失,您需要通过重新导入证书和自定义映像并进行任何相关的配置更改来重新填充 CFS 这些文件。有关 CFS 管理的文件列表,请参阅 Tableau Server Client File Service。