从节点故障中恢复
- 版本 :2022.1 及更高版本
如果其中一个服务器节点出现问题,并且您的其他节点上有冗余进程,Tableau Server 可以继续运行。在节点发生故障后,您的用户可以继续登录并查看和使用其内容,但他们可能会因节点故障而遇到性能下降的情况。此外,如果坏节点正在运行不再冗余的进程,则服务器发生灾难性故障的风险更大。这意味着您应该注意删除坏节点并尽快替换它。
如果节点由于可在相对较短的时间内恢复的原因(例如,可以更正的硬件故障)而发生故障,则应首先尝试在不使用以下过程的情况下使节点恢复。
注意:如果出现故障的节点是您的初始节点,则对 Tableau Server 安装有更大的影响。有关如何从初始节点故障中恢复的详细信息,请参阅从初始节点故障中恢复。
一般要求
Tableau Server 的 2020.1 版本已更新,具有改进的恢复功能。本主题中的过程是为 Tableau Server 2020.1 编写的。
如果您尝试从早期版本的 Tableau Server 恢复出现故障的节点,则必须执行该版本的过程。要查看 Tableau 联机帮助的存档版本,请参阅Tableau 帮助.
至少有一个正常运行的节点,其上有文件存储的实例。
至少有一个正常运行的节点,上面有一个存储库。
至少有一个正常运行的节点,其上带有客户端文件服务 (CFS)。
注意:此操作包括您可能需要使用 TSM 命令行执行的步骤。要使用 TSM CLI,您需要管理员对安装中某个节点上的命令行具有访问权限,并且需要 TSM 管理员凭据才能运行 TSM 命令。
删除故障节点
要从 Tableau Server 群集中删除出现故障的节点,请执行以下操作:
识别故障节点:
tsm status -v
故障节点的状态为“错误”,进程将显示为不可用。节点 ID 列为“节点
node3
node3: WIN-OO915SFASVH Status: ERROR 'Tableau Server Gateway 0' status is unavailable.
停止 Tableau Server。
此过程的其余部分包括一些带有该选项的命令。使用该选项运行命令时,该命令将在不考虑指定节点的状态的情况下运行。要使用 ,请指定失败的节点:
--ignore-node-status
--ignore-node-status
--ignore-node-status
tsm stop --ignore-node-status
例如,如果 node3 出现故障,请按如下方式运行该命令:
tsm stop --ignore-node-status node3
确定节点上运行的任何关键进程:
如果故障节点正在运行消息传递服务,则需要从故障节点中删除该服务,并将其添加到新节点。
从故障节点中删除它:
tsm topology set-process -pr activemqserver -n <nodeID> -c 0
将其添加到新节点:
tsm topology set-process -pr activemqserver -n <nodeID> -c 1
If the failed node was running the Coordination Service, you need to deploy a new ensemble before you can remove the node:
tsm topology deploy-coordination-service -n <good_nodeID> --ignore-node-status <failed_nodeID>
If the failed node was running the only instance of Client File Service (CFS), you need to configure a new instance of CFS on a working node. We recommend that you configure CFS on every node that is running the Coordination Service. For detail steps, see Configure Client File Service .
If the failed node was running File Store, you need to force-decommission File Store and remove it before you can remove the node.
tsm topology filestore decommission -n <nodeID> --delete-filestore
Apply pending changes (use option if you had a three node cluster and a single Coordination Service instance):
--ignore-warnings
tsm pending-changes apply --ignore-warnings --ignore-node-status <nodeID>
If the cluster was a three-node cluster and there are repositories on the remaining working nodes, you need to either remove one repository, or add a new node. This is because you are limited to a single instance of the repository when you have fewer than three nodes.
To remove one repository:
tsm topology set-process -n <nodeID> -pr pgsql -c 0
Run the command to remove the failed node. This adds the change to the pending changes list:
tsm topology remove-nodes -n <nodeID>
Verify the node removal is pending:
tsm pending-changes list
应用挂起的更改以删除节点:
tsm pending-changes apply
启动 Tableau Server:
tsm start
在新节点上安装 Tableau Server,并使用旧的故障节点一直在运行的进程配置该节点。
在全新计算机上,或在完全删除 Tableau 后的原始计算机上,使用原始安装程序和从初始节点生成的引导文件安装 Tableau。有关如何执行此操作的详细信息,请参阅安装和配置其他节点。
最佳做法是配置原始节点发生故障时丢失的任何进程,以确保群集是完全冗余的。
一旦节点启动并按所需方式运行,您还应该重新部署新的协调服务整体。有关详细信息,请参 阅部署协调服务整体 。
最后,如果尚未执行此操作,请将 CFS 实例添加到运行协调服务的每个节点。有关详细信息,请参阅配置客户端文件服务