从初始节点故障中恢复
- 版本 :2022.1 及更高版本
安装 Tableau 的第一台计算机(即“初始节点”)具有一些独特的特征。三个进程仅在初始节点上运行,不能移动到任何其他节点,除非在故障情况下,许可证服务(许可证管理器)、激活服务和 TSM 控制器(管理控制器)。Tableau Server 包含一个脚本,该脚本可自动将这些进程移动到其他现有节点之一,以便您可以完全访问 TSM 并保持 Tableau Server 运行。
另外两个进程最初包含在初始节点上,但可以添加或移动到其他节点,即 CFS(客户端文件服务)和协调服务。根据使用 CFS 和协调服务配置安装的方式,您可能还需要采取措施重新部署这些内容。
如果初始节点发生故障
如果初始节点存在问题,并且您的其他节点上有冗余进程,则无法保证 Tableau Server 将继续运行。在初始节点发生故障后,Tableau Server 可以继续运行长达 72 小时,直到缺少许可服务会影响其他进程。如果是这样,您的用户在初始节点失败后可能能够继续登录并查看和使用其内容,但您将无法重新配置 Tableau Server,因为您将无法访问管理控制器。
即使配置了冗余进程,Tableau Server 也可能在初始节点出现故障后无法继续运行。即使将安装配置为高可用性,也是如此。这意味着您应该尽快将两个唯一的进程移动到另一个正在运行的节点。如果初始节点由于可在相对较短的时间内恢复的原因(例如,可以更正的硬件故障)而发生故障,则应首先尝试在不使用以下过程的情况下恢复节点。
注意:本文中的步骤需要服务器停机,并且可能会造成中断,并且应仅在初始节点发生灾难性故障时使用。如果无法使初始节点再次运行,请使用以下步骤将关键 TSM 进程移动到群集中的另一个节点。
一般要求
Tableau Server 的 2021.1 版本已更新,具有改进的恢复功能。本主题中的过程是为 Tableau Server 2021.1 编写的。
如果您尝试从早期版本的 Tableau Server 恢复出现故障的节点,则必须执行该版本的过程。要查看 Tableau 联机帮助的存档版本,请参阅Tableau 帮助.
作为设置多节点 Tableau Server 安装过程的一部分,您应该已部署协调服务整体。下面的过程假定在初始节点出现问题之前部署了协调整体。有关部署协调服务整体的详细信息,请参 阅部署协调服务整体 。
此过程假定您已在运行协调服务的每个节点上配置了客户端文件服务 (CFS) 的实例。如果您没有添加其他 CFS 实例,则您唯一的实例位于初始节点上,并且您需要将至少一个 CFS 实例添加到另一个节点。您还需要重新填充 CFS。Tableau Server 至少需要一个 CFS 实例。有关详细信息,请参阅配置客户端文件服务和 Tableau Server 客户端文件服务。
注意:此操作包括您可能需要使用 TSM 命令行执行的步骤。要使用 TSM CLI,您需要管理员对安装中某个节点上的命令行具有访问权限,并且需要 TSM 管理员凭据才能运行 TSM 命令。
将 TSM 控制器、许可证服务和激活服务移动到另一个节点
如果初始节点有问题,则需要在另一个节点上启动 TSM 控制器、授权服务和激活服务。请按照以下步骤使用提供的脚本,并使 TSM 控制器、授权服务和激活服务在另一个节点上工作。move-tsm-controller
在仍在工作的节点上,运行控制器恢复脚本。为此,请打开命令提示符,导航到 Tableau Server 脚本目录(默认情况下:),然后键入以下命令:
C:\Program Files\Tableau\Tableau Server\packages\scripts.
move-tsm-controller -n
其中“nodeID”是您希望运行 TSM 控制器的节点的 ID。例如:
move-tsm-controller -n node2
关闭并重新打开命令窗口,并通过键入以下命令验证管理控制器是否在节点上运行:
tsm status -v
停止 Tableau Server。
The remainder of this procedure includes some commands with the option. When a command is run with the option, the command will run without consideration of the status of the specified node. To use , specify the failed node:
--ignore-node-status
--ignore-node-status
--ignore-node-status
tsm stop --ignore-node-status
For example, if node1 has failed, run the command as follows:
tsm stop --ignore-node-status node1
Add the License Service to the node:
tsm topology set-process -pr licenseservice -n
Remove the old License Service from the original node, where "nodeID" is the initial node that has failed:
tsm topology set-process -pr licenseservice -n
If you're using Server ATR, add the Activation Service to the node:
tsm topology set-process -pr activationservice -n
If you're using Server ATR, remove the old Activation Service from the original node, where "nodeID" is the initial node that has failed:
tsm topology set-process -pr activationservice -n
重要:在群集中,如果运行您唯一的 CFS 实例的节点发生故障,则 CFS 管理的所有文件都将丢失,您需要通过重新导入证书和自定义映像并进行任何相关的配置更改来重新填充 CFS 这些文件。有关 CFS 管理的文件列表,请参阅 Tableau Server Client File Service。
如果初始节点一直在运行消息服务,请将消息服务添加到此节点:
tsm topology set-process -pr activemqserver -n node2 -c 1
(可选)您还可以添加已在初始节点上运行但未在此节点上运行的其他进程。例如,要添加缓存服务器:
tsm topology set-process -pr cacheserver -n node2 -c 1
应用更改:
tsm pending-changes apply --ignore-node-status
如果挂起的更改需要重新启动服务器,则该命令将显示一个提示,让您知道将重新启动。即使服务器已停止,也会显示此提示,但在这种情况下,不会重新启动。您可以使用该选项禁止显示提示,但这不会更改重新启动行为。如果更改不需要重新启动,则会在不提示的情况下应用更改。有关详细信息,请参阅应用 tsm 挂起更改。
pending-changes apply
--ignore-prompt
重新启动 TSM 管理控制器:
net stop tabadmincontroller_0
net start tabadmincontroller_0
注意:您必须以管理员身份从命令提示符处运行这些命令。根据计算机的配置方式,您可能需要在文件夹中运行它们。
C:\Windows\System32
注意:tabadmincontroller可能需要几分钟才能重新启动。如果在控制器完全重新启动之前尝试在下一步中应用挂起的更改,TSM 将无法连接到控制器。您可以使用该命令验证控制器是否正在运行。Tableau 服务器管理控制器应列为“正在运行”。
tsm status -v
应用挂起的更改(可能看起来没有任何更改,但此步骤是必需的):
tsm pending-changes apply --ignore-node-status
在新的“控制器”节点上激活 Tableau Server 许可证:
tsm licenses activate -k
验证许可证是否已正确激活:
tsm licenses list
如果初始节点正在运行协调服务,则需要部署不包含该节点的新协调服务整体。如果您有一个三节点群集,并且初始节点正在运行协调服务,则必须在另一个节点上部署新的单实例协调服务整体,并清理旧整体。在此示例中,协调服务的单个实例正在部署到第二个节点:
tsm topology deploy-coordination-service -n node2 --ignore-node-status node1
如果初始节点正在运行文件存储实例,则需要删除该实例:
tsm topology filestore decommission -n
其中 是出现故障的初始节点。
nodeID
应用挂起的更改,如果上面部署的新协调服务整体是单节点整体,则使用该标志:
--ignore-warnings
tsm pending-changes apply --ignore-node-status node1 --ignore-warnings
删除初始节点,其中是出现故障的初始节点:
nodeID
tsm topology remove-nodes -n
应用挂起的更改,如果上面部署的新协调服务整体是单节点整体,则使用该标志:
--ignore-warnings
tsm pending-changes apply --ignore-warnings
启动 Tableau Server:
tsm start
此时,您的服务器应该启动,并且您将能够使用 TSM 对其进行配置。下一步是替换初始节点,以便群集具有原始节点数。如何执行此操作取决于是否要重用失败的节点。我们建议您仅在能够确定该节点失败的原因并采取措施防止故障再次发生时才重用该节点。
如果您计划重用原始节点,则首先需要从中完全删除 Tableau。通过运行脚本来执行此操作。有关执行此操作的详细信息,请参阅从计算机中删除 Tableau 服务器。
tableau-server-obliterate
在全新计算机上,或在完全删除 Tableau 后的原始计算机上,使用原始安装程序和从现在运行管理控制器和授权服务的节点生成的引导文件来安装 Tableau。这将创建一个可配置为群集一部分的其他节点。有关如何添加节点的详细信息,请参阅安装和配置其他节点。
最佳做法是配置原始节点发生故障时丢失的任何进程,以确保群集是完全冗余的。您可能希望将进程从新的初始节点移动到新添加的附加节点,以复制原始配置。例如,如果初始节点仅运行网关和文件存储,则可能需要以相同的方式配置新的初始节点。
一旦节点启动并按所需方式运行,您还应该重新部署新的协调服务整体。有关详细信息,请参 阅部署协调服务整体 。
最后,如果尚未执行此操作,请将 CFS 实例添加到运行协调服务的每个节点。有关详细信息,请参阅配置客户端文件服务
在群集中,如果运行您唯一的 CFS 实例的节点发生故障,则 CFS 管理的所有文件都将丢失,您需要通过重新导入证书和自定义映像并进行任何相关的配置更改来重新填充 CFS 这些文件。有关 CFS 管理的文件列表,请参阅 Tableau Server Client File Service。