天道酬勤,学无止境

cluster-computing

How to Set an existing ECS cluster to a compute environment in AWS Batch

问题 我在我的环境中运行了一个ECS cluster ,它配置了任务、存储库和服务以及自动缩放。 我正在发现AWS Batch服务,当我创建一个新的compute environment时,一个新的集群被添加到ECS服务中。 我想知道如何为我现有的集群设置compute environment ? 回答1 我知道这是一个很老的问题,而且情况并不完全相同,但我正在努力解决类似的问题,所以它可能对某人有帮助。 在我的情况下,Batch 覆盖了我的ECS_DISABLE_IMAGE_CLEANUP设置,导致我特殊的专用超高优先级作业队列(及其计算环境)丢失其图像,当它们必须再次被拉出时会导致令人讨厌的延迟。 为了解决这个问题,我必须创建一个启动模板(在 EC2 控制台中),将所有内容设置为“不要更改”,以及一些额外的“用户数据”(在高级部分的末尾): MIME-Version: 1.0 Content-Type: multipart/mixed; boundary="==MYBOUNDARY==" --==MYBOUNDARY== Content-Type: text/x-shellscript; charset="us-ascii" #!/bin/bash echo ECS_DISABLE_IMAGE_CLEANUP=true>>/etc/ecs/ecs.config --=

2022-07-11 10:01:38    分类:技术分享    amazon-web-services   cluster-computing   solution   amazon-ecs

IPython parallel on SGE cluster : Scikit-learn SVC parallel import causes engines to crash

问题 我使用 SGE 集群,IPcontroller 在头节点上运行,大约 50 个引擎在其他节点上运行(使用 QSUB 提交)。 引擎能够毫无问题地连接并注册到控制器。 我还可以使用 SSH 连接到头节点并查看引擎 ID 并运行简单的代码。 例如,这非常有效: %px %pylab inline parallel_result = lbView.map_sync(lambda x: x*rand(), range(32)) 但是,当我尝试运行以下行时,引擎会崩溃: %px from sklearn.svm import LinearSVC 出现以下错误: importing LinearSVC from sklearn.svm on engine(s) [Engine Exception] Traceback (most recent call last): File "/usr/global/anaconda/lib/python2.7/site-packages/ipyparallel/client/client.py", line 713, in _handle_stranded_msgs raise error.EngineError("Engine %r died while running task %r"%(eid, msg_id)) EngineError

2022-05-14 07:41:12    分类:技术分享    scikit-learn   ipython   cluster-computing   jupyter   ipython-parallel

Is RabbitMQ Clustering including scalability too?

问题 我想构建一个能够为性能而扩展的 RabbitMQ 系统。 我已经浏览了 RabbitMQ Clustering 的官方文档。 但是,它的集群似乎不支持可扩展性。 这是因为只有通过主队列我们才能发布/消费,即使主队列可以从集群的任何节点访问。 除了主队列所在的节点之外,我们无法处理任何发布/消费。 那我们为什么要集群呢? 回答1 那我们为什么要集群呢? 以确保可用性。 强制数据复制。 将负载/数据分布在不同节点上的队列中。 主队列可以存储在不同的节点上,并以小于集群节点数的因子进行复制。 除了主队列所在的节点之外,我们无法处理任何发布/消费。 客户端可以连接在集群的任何节点上。 该节点会将“请求”传输到主队列节点,反之亦然。 作为一个缺点,它会产生额外的跳跃。 回答2 回答标题中的问题Is RabbitMQ Clustering including scalability too? - 是的,这是通过简单地添加更多节点/从集群中删除一些节点来实现的。 当然,您必须考虑高可用性——即队列和交换镜像等。 只是为了说明以下几点: 但是,它的集群似乎不支持可扩展性。 这是因为只有通过主队列我们才能发布/消费,即使主队列可以从集群的任何节点访问。 发布是为了交换,队列与发布无关。 发布客户端仅发布到交换和路由密钥。 它不需要任何关于队列的知识。

2022-05-13 14:39:11    分类:技术分享    rabbitmq   cluster-computing   scalability

Is there multi master database with customizable replication level?

问题 回答1 您可以使用分布式缓存来实现此结果。 查看它们如何在 WAN 复制策略下工作。 例如,查看 NCache Wan 复制(桥接) PS:出于性能原因,分布式缓存将所有数据保存在内存中。 你也可以坚持下去。

2022-05-13 07:29:17    分类:技术分享    database   cluster-computing   replication   distributed   multi-master-replication

OpenMPI: Simple 2-Node Setup

问题 我在仅使用两个节点运行 OpenMPI 程序时遇到问题(其中一个节点是执行mpiexec命令的同一台机器,另一个节点是一台单独的机器)。 我将调用运行 mpiexec、 master和其他节点slave的机器。 在master和slave上,我都在~/mpi下的主目录中安装了 OpemMPI 我在master上有一个名为 ~/machines.txt 的文件。 理想情况下,~/machines.txt 应该包含: 掌握奴隶 但是,当我在master上运行以下命令时: mpiexec -n 2 --hostfile ~/machines.txt 主机名 输出,我收到以下错误: bash:orted:找不到命令 但是如果 ~/maschines.txt 只包含运行命令的节点的名称,它就可以工作。 ~/machines.txt: 掌握 命令: mpiexec -n 2 --hostfile ~/machines.txt 主机名 输出: 掌握掌握 我尝试在slave上运行相同的命令,并将 machines.txt 文件更改为仅包含slave ,它也有效。 我已确保我的.bashrc文件包含 OpenMPI 的正确路径。 我究竟做错了什么? 简而言之,只有当我尝试在远程机器上执行程序时才会出现问题,但我可以在执行命令的机器上完美地运行 mpiexec。 这让我相信这不是路径问题。

2022-05-07 18:11:23    分类:技术分享    parallel-processing   mpi   cluster-computing   openmpi

Cluster hangs/shows error while executing simple MPI program in C

问题 我正在尝试运行一个简单的 MPI 程序(多个数组添加),它在我的 PC 中完美运行,但只是挂起或在集群中显示以下错误。 我正在使用 open mpi 和以下命令执行 集群网络配置(master&node1) MASTER eth0 链路封装:以太网 HWaddr 00:22:19:A4:52:74 inet addr:10.1.1.1 Bcast:10.1.255.255 Mask:255.255.0.0 inet6 addr:fe80::222:19ff:fea4:5274/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packet:16914 错误: 0 丢弃:0 超限:0 帧:0 TX 数据包:7183 错误:0 丢弃:0 超限:0 载波:0 冲突:0 txqueuelen:0 RX 字节:2050581 (1.9 MiB) TX 字节:981632 (958.6 KiB) eth1 链路封装:以太网 HWaddr 00:22:19:A4:52:76 inet addr:192.168.41.203 Bcast:192.168.41.255 Mask:255.255.255.0 inet6 addr:fe80::222:19ff:fea4:5276/64 Scope:Link UP

2022-05-05 05:41:21    分类:技术分享    networking   network-programming   cluster-computing   mpi   openmpi

Installing Rmpi on LAM/MPI cluster

问题 我正在尝试在 LAM MPI 集群机器上安装Rmpi​​ 包。 以前我一直在编译和测试一些东西( mpi4py和小型 C++ 程序),所以我确信 MPI 本身可以工作。 但是,链接库时安装Rmpi​​ 包失败。 我的主要嫌疑人是在makefile中调用gcc而不是mpicc (我试图在配置中找到该行来更改它,但到目前为止找不到它)。 有人有在 LAM 上安装 Rmpi​​ 的经验,你是如何做到的? 建筑学 LAM MPI(或者如果存在 PBS MPI,我该如何检查?)。 可以肯定的一件事是,我有 mpicpp 文件,我认为这对所有 mpi 实现都不通用 R-2.15.2 rmpi_0.6-1 CentOS 5.5 版(最终版),x86_64 从 R 调用的命令 install.packages("Rmpi") 日志 trying URL 'http://cran.at.r-project.org/src/contrib/Rmpi_0.6-1.tar.gz' Content type 'application/x-gzip' length 92977 bytes (90 Kb) opened URL ================================================== downloaded 90 Kb * installing *source*

2022-05-04 15:34:53    分类:技术分享    r   cluster-computing   mpi

How to run a Scheduled Method in a Cluster for one Node and for All?

问题 我有一个在集群中运行的 Glassfish 3.1.2 和一个 EJB 3.1 应用程序。 我的应用程序中需要两种计划方法: 一种每天只运行一次(在单个节点上)的类型以及在所有节点上运行的其他类型(每 1-2 分钟)——它们不需要运行同步方式! 要求只是这种在每个节点上运行。 我不知道如何从这个集群开始 - 问题,这可能与@Schedule (以及如何)或我需要别的东西吗? 回答1 我遇到了完全相同的问题(需要一个cluster计时器和一个per node计时器)并遇到了这个问题。 因此,对于任何感兴趣的人: 如果你用@Schedule(..., persistent=true) 声明定时器,你会得到一个存储在定时器数据库中的cluster定时器(可以迁移) 如果您使用@Schedule(..., persistent=false) 声明计时器,您将获得一个未存储在计时器数据库中的node计时器(无法迁移) 回答2

2022-05-03 21:02:24    分类:技术分享    java   jakarta-ee   glassfish   ejb   cluster-computing

KD/Qtree Implementation

问题 我有以下路径数据: id1 p1 p2 0 1 7.935 5.103 1 1 7.934 5.112 2 1 7.936 5.102 3 1 7.938 5.145 4 2 7.930 5.191 5 2 7.945 5.161 6 2 7.954 5.127 在上述数据框中,(p1,p2)构成坐标数据,属于同一个“id1”的所有点构成一条单独的路径; 在上述 df rows(0-3) 中属于 id1 = 1 是一条路径,依此类推。 我正在尝试实现四叉树来分析这些轨迹。 为了实现四叉树,我尝试使用“pyqtree”https://github.com/karimbahgat/Pyqtree python 包。 代码中“len(spindex)”为项目总数,而bounding box,“bbox”格式为(xmin, ymin, xmax, ymax),“testitem”为交集bounding box,而len(matches ) 将给出交点中的节点数。 我正在尝试使用上面的 df 来实现四叉树。 请让我知道如何在代码中使用上述 df 作为“项目”。 然后如何为这些轨迹赋予不同的边界框。 此外,我将如何知道或查询树以查找哪些轨迹位于四叉树的哪个区域。 回答1 所以你要查询每条轨迹的位置,这意味着你需要为每条轨迹计算并插入bbox。 通常,这种类型的数据对于每个轨迹都有一行

2022-05-02 10:36:08    分类:技术分享    python   pandas   dataframe   cluster-computing   quadtree

Ignite read stale data from backup node

I ran into in-consistency data issues on ignite version 2.8.1. I have three nodes run as a cluster and the cache configuration as: CacheConfiguration<String, Balance> cacheConfiguration = new CacheConfiguration<>(Balance.class.getSimpleName()); cacheConfiguration.setIndexedTypes(String.class, Balance.class); cacheConfiguration.setSqlIndexMaxInlineSize(100); cacheConfiguration.setSqlSchema("PUBLIC"); cacheConfiguration.setAtomicityMode(CacheAtomicityMode.TRANSACTIONAL); cacheConfiguration.setCacheMode(CacheMode.PARTITIONED); cacheConfiguration.setBackups(4); cacheConfiguration

2022-05-01 07:22:01    分类:问答    backup   cluster-computing   Ignite