20-60s stream producer recovery time after node termination #395

albionb96 · 2023-08-07T11:02:31Z

albionb96
Aug 7, 2023

Describe the bug

Hi,

I tried some failovertest with both stream-perf-test-0.9.0 and stream-perf-test-0.12.0, and although I looked at all possible configuration parameters of the tool and also config parameters of the RabbitMQ Cluster, I was not able to remove or reduce the downtimes shown from the client metrics when a node is killed (leader node or a node with connections on it).

The downtimes vary from 20-60 seconds. I tried to run also the docker image format of the client inside my kubernetes cluster and there I had even longer downtimes. I don't know why it takes the client so long to automatically recover the connections.

Reproduction steps

Setup a 3-node RabbitMQ Cluster using the Operator Helm Chart: 3.4.2 (https://artifacthub.io/packages/helm/bitnami/rabbitmq-cluster-operator/3.4.2)

Which means RabbitMQ: 3.11.18 and Erlang: 25.3.2

The RabbitMQ Cluster is running on Openshift Cluster and the configuration is similar to "Production Ready" example as defined on https://github.com/rabbitmq/cluster-operator/blob/main/docs/examples/production-ready/rabbitmq.yaml
Add rabbitmq_stream plugin, set heartbeat to 10 and net_ticktime to 10 (I had long downtimes also when using the default 60)
Use Stream Perf Test Client: 0.9.0 or 0.12.0

The call during this failover test:
"java -jar stream-perf-test-0.9.0.jar --uris rabbitmq-stream://<<user>>:<<pass>>@<<load_balancer_ip>>:5552 --streams stream-queue-0 --delete-streams --prometheus --load-balancer -z 3000 --size 1024 --rate 1000 --batch-size 1 --max-length-bytes 2000000000"

"java -jar stream-perf-test-0.12.0.jar --uris rabbitmq-stream://<>:<>@<<load_balancer_ip>>:5552 -sac --streams stream-queue-0 --delete-streams --prometheus --load-balancer -z 3000 --size 1024 --rate 1000 --batch-size 1 --batch-publishing-delay 1 --max-length-bytes 2000000000"

Shutdown the VM where the leader node lives

Expected behavior

I would expect to not see any significant downtimes during these failovertests, but the metrics of the perf tool like: latency, rabbitmq_stream_published_total etc. show downtimes from 20-60seconds, which are too big I think when somebody wants to use rabbitMQ in HA fashion for a HA application which can accept let's say max 1-5 seconds of downtimes in case of failures.

Additional context

I don't know the internals of the java client in this case, but although it says that by default it will create only one consumer and producer I see in the connections overview more than one consumer connection:

michaelklishin · 2023-08-07T11:26:21Z

michaelklishin
Aug 7, 2023
Maintainer

You haven't provided a lot of details on what exactly you do in your test. Assuming that you restart a node hosting a stream leader replica, there are several factors at play:

How quickly a client detects that the peer is down. It takes time, like everything in distributed systems. RabbitMQ stream protocol uses a standard heartbeat mechanism. Just like with messaging protocols, we highly recommend against using values lower than 5s
If the node stopped hosted a stream leader replica, how long will a new leader election take. This can be tuned but usually takes a few seconds anyway
How quickly will the stream client reconnect to the node that hosts the newly elected leader

Overall, it can take 20 to 60s with all defaults. For a lot of environments, that would hardly be "very long". With heartbeat timeouts lowered to 5s I can see how it can get to the 10-15s range.

Even if some tuning would give you a sub-5s recovery time, there is a very real cost to this: the false positives when networks or peers slow down.

0 replies

michaelklishin · 2023-08-07T11:41:30Z

michaelklishin
Aug 7, 2023
Maintainer

In case of Kubernetes or similar container orchestration systems there is one more factor at play: if you use a LoadBalancer service and all stream client connections go through it, the connection rate is limited by how quickly the load balancer will detect upstream (RabbitMQ node) failure and starts directing reconnection attempts from the clients to other nodes.

This entirely depends on the type and configuration of the K8S service.

0 replies

michaelklishin · 2023-08-07T11:52:54Z

michaelklishin
Aug 7, 2023
Maintainer

EnvironmentBuilder#rpcTimeout is a method that lowers the interval after which the client assumes that an operation has timed out.

The default is 10s. Lowering this to 5s could help. I don't know if Stream PerfTest exposes this setting (likely not), and would not recommend very low values for the aforementioned real (not hypothetical) risk of false positives around timeouts.

6 replies

Zerpet Aug 7, 2023
Maintainer

I've reproduced a similar setup to yours, but running locally inside a VM, namely Rancher Desktop with Kubernetes. In this setup, I get recovery times of 7-10 seconds when I forcibly stop the stream leader. I'm running with the default net tick time and heart beats.

My setup is a lot more optimistic than yours, since I have every container running inside a single VM. If you have multiple VMs and your RabbitMQ Pods distributed accross different Kubernetes Nodes (a.k.a. VMs), your recovery time can increase to what you are describing, due to the added network round trip latency.

I also want to echo Michael's words regarding recovery times and false positives. Recovery times sub-5 seconds sound a bit too optimistic to me.

My other questions which is maybe related to this is: why does the PerfTest create so many consumer connection on one single node, when by default only one producer and one consumer should be created. We see also that no channels were created from the PerfTool.

This is probably related to the --load-balancer option. I get similar behaviour with the load balancer option. We probably should check whether those connections are needed, and close them otherwise.

Channels are a concept from AMQP. RabbitMQ Streams do not use channels.

albionb96 Aug 8, 2023
Author

@michaelklishin @Zerpet are there any other tuning parameters which can be set either in PerfTest client or in the Server config, in order to achieve better (shorter) downtimes, or the above-mentioned parameters are all we can set?

michaelklishin Aug 8, 2023
Maintainer

@albionb96 you are asking us to guess as to what may be taking the time in your test. We do not guess in this community.

Use logs from nodes, Kubernetes, and Stream PerfTest to at least initially narrow down the problem.
PerfTest likely does not expose the timeouts and recovery interval because it is not generally used to test how low a publisher recovery time can get. New settings can be introduced, this is open source software after all.

In any case, the approach of asking for settings to tweak without collecting data and narrowing down the biggest contributor is a really expensive way to troubleshoot distributed systems.

albionb96 Aug 8, 2023
Author

@michaelklishin the reason why I asked is because in your first comment you said that the time that my failovertest "is taking" is something expected by default. For me that statement means that there is no problem on my test-setup for which I need to look into logs or similar, because that behavior is normal. That's why I asked once again which parameters does the PerfTest or RabbitmqCluster offer to reduce these downtimes, because everything that I could find in the documentation, are the above-mentioned parameters.

I see, there are no other parameters PerfTest offers to reduce the heartbeat or similar. That feature may be introduced in the future.

Thank you

albionb96 Aug 23, 2023
Author

@Zerpet I wanted to ask you how did you forcibly stop the stream leader, because killing the pod forcefully with:
kubectl delete pod <pod-name> --force --grace-period=0,
still doesn't simulate the true failover. The RMQ node going down notifies the other nodes that is being shut down.

2023-08-17 12:17:31.321049+00:00 [warning] <0.24077.0> Error when retrieving broker metadata: <<"message-broker-server-0.message-broker-nodes.message-broker">> undefined[0m
2023-08-17 12:17:31.335644+00:00 [info] <0.534.0> rabbit on node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' down[0m
2023-08-17 12:17:31.341846+00:00 [info] <0.24083.0> __stream_1692274204190428037 [osiris_replica:handle_info/2] replica reader <44641.14564.0> exited with shutdown[0m
2023-08-17 12:17:31.347690+00:00 [info] <0.1132.0> rabbit_stream_coordinator: Leader monitor down with shutdown, setting election timeout[0m
2023-08-17 12:17:31.368062+00:00 [info] <0.534.0> node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' down: connection_closed[0m

albionb96 · 2023-08-23T19:29:47Z

albionb96
Aug 23, 2023
Author

Hi again,

during the last days I was focused on testing the RabbitMQ cluster a little bit more, and also was trying to gather logs from different places.

I created 3 extra VMs (which are in the same time Kubernetes Nodes) and I placed in each of them one of the RabbitMQ cluster pods.

In order to be sure that the failover delay is not coming because of the load-balancer, I started the PerfTool as a pod inside the Kubernetes cluster like this:

PerfTool as pod

containers:
      - args:
        - --uris
        - rabbitmq-stream://user:pass@**message-broker**
        - --delete-streams
        - --prometheus
        - -z
        - "5000"
        - -r
        - "1000"
        - -s
        - "1024"
        - --batch-size
        - "1"
        - --max-length-bytes
        - "2000000000"
        - -sac
        - --rpc-timeout
        - "5"
        image: pivotalrabbitmq/stream-perf-test:0.9.0
        imagePullPolicy: Always
        name: rabbitmq-stream-perf-test
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File

I run the same test with version 0.12.0
"message-broker" in this case is the main service which is automatically created from the RabbitMQ cluster operator, and has multiple ports and also has the tree RMQCluster pods as endpoints.

What happened:
After I shut down the VM where the leader node was living, the client printed out a bunch of error messages, which I will post in the following collapsed section.

Note: Errors happen sometimes after the second iteration of the failovertest. That means:

shutting down the leader,
re-joining it
shutting down the new elected leader.

PerfTool error messages

716, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
717, published 970 msg/s, confirmed 882 msg/s, consumed 882 msg/s, latency median/75th/95th/99th 3/3/3/3 ms, chunk size 1
12:11:34.010 [stream-perf-test-env-6] WARN  c.r.stream.impl.ProducersCoordinator - Error while re-assigning tracking consumer (stream 'stream')
com.rabbitmq.stream.StreamException: Error while creating stream connection to message-broker-server-1.message-broker-nodes.message-broker:5552
	at com.rabbitmq.stream.impl.Client.<init>(Client.java:339)
	at com.rabbitmq.stream.impl.Utils.lambda$null$6(Utils.java:132)
	at com.rabbitmq.stream.impl.Utils$ExactNodeRetryClientFactory.client(Utils.java:262)
	at com.rabbitmq.stream.impl.Utils.lambda$coordinatorClientFactory$7(Utils.java:133)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:671)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:546)
	at com.rabbitmq.stream.impl.ProducersCoordinator.addToManager(ProducersCoordinator.java:151)
	at com.rabbitmq.stream.impl.ProducersCoordinator.access$1700(ProducersCoordinator.java:59)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.recoverAgent(ProducersCoordinator.java:741)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.maybeRecoverAgent(ProducersCoordinator.java:717)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$null$11(ProducersCoordinator.java:689)
	at java.base/java.util.concurrent.ConcurrentHashMap$KeySetView.forEach(ConcurrentHashMap.java:4706)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$assignProducersToNewManagers$12(ProducersCoordinator.java:689)
	at java.base/java.util.concurrent.CompletableFuture$UniAccept.tryFire(CompletableFuture.java:718)
	at java.base/java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:510)
	at java.base/java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:2147)
	at com.rabbitmq.stream.impl.AsyncRetry.lambda$new$0(AsyncRetry.java:57)
	at com.rabbitmq.stream.impl.Utils$NamedRunnable.run(Utils.java:442)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:304)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
	at java.base/java.lang.Thread.run(Thread.java:833)
Caused by: java.net.UnknownHostException: message-broker-server-1.message-broker-nodes.message-broker: Name or service not known
	at java.base/java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method)
	at java.base/java.net.InetAddress$PlatformNameService.lookupAllHostAddr(InetAddress.java:933)
	at java.base/java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1529)
	at java.base/java.net.InetAddress$NameServiceAddresses.get(InetAddress.java:852)
	at java.base/java.net.InetAddress.getAllByName0(InetAddress.java:1519)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1377)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1305)
	at java.base/java.net.InetAddress.getByName(InetAddress.java:1255)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:156)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:153)
	at java.base/java.security.AccessController.doPrivileged(AccessController.java:569)
	at io.netty.util.internal.SocketUtils.addressByName(SocketUtils.java:153)
	at io.netty.resolver.DefaultNameResolver.doResolve(DefaultNameResolver.java:41)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:61)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:53)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:55)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:31)
	at io.netty.resolver.AbstractAddressResolver.resolve(AbstractAddressResolver.java:106)
	at io.netty.bootstrap.Bootstrap.doResolveAndConnect0(Bootstrap.java:206)
	at io.netty.bootstrap.Bootstrap.access$000(Bootstrap.java:46)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:180)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:166)
	at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:590)
	at io.netty.util.concurrent.DefaultPromise.notifyListenersNow(DefaultPromise.java:557)
	at io.netty.util.concurrent.DefaultPromise.notifyListeners(DefaultPromise.java:492)
	at io.netty.util.concurrent.DefaultPromise.setValue0(DefaultPromise.java:636)
	at io.netty.util.concurrent.DefaultPromise.setSuccess0(DefaultPromise.java:625)
	at io.netty.util.concurrent.DefaultPromise.trySuccess(DefaultPromise.java:105)
	at io.netty.channel.DefaultChannelPromise.trySuccess(DefaultChannelPromise.java:84)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.safeSetSuccess(AbstractChannel.java:990)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.register0(AbstractChannel.java:516)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.access$200(AbstractChannel.java:429)
	at io.netty.channel.AbstractChannel$AbstractUnsafe$1.run(AbstractChannel.java:486)
	at io.netty.util.concurrent.AbstractEventExecutor.runTask(AbstractEventExecutor.java:174)
	at io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:167)
	at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:470)
	at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:569)
	at io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:997)
	at io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
	at io.netty.util.concurrent.FastThreadLocalRunnable.run(FastThreadLocalRunnable.java:30)
	... 1 common frames omitted
12:11:34.015 [stream-perf-test-env-6] WARN  c.r.stream.impl.ProducersCoordinator - Error while re-assigning producer (stream 'stream')
com.rabbitmq.stream.StreamException: Error while creating stream connection to message-broker-server-1.message-broker-nodes.message-broker:5552
	at com.rabbitmq.stream.impl.Client.<init>(Client.java:339)
	at com.rabbitmq.stream.impl.Utils.lambda$null$6(Utils.java:132)
	at com.rabbitmq.stream.impl.Utils$ExactNodeRetryClientFactory.client(Utils.java:262)
	at com.rabbitmq.stream.impl.Utils.lambda$coordinatorClientFactory$7(Utils.java:133)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:671)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:546)
	at com.rabbitmq.stream.impl.ProducersCoordinator.addToManager(ProducersCoordinator.java:151)
	at com.rabbitmq.stream.impl.ProducersCoordinator.access$1700(ProducersCoordinator.java:59)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.recoverAgent(ProducersCoordinator.java:741)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.maybeRecoverAgent(ProducersCoordinator.java:717)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$null$11(ProducersCoordinator.java:689)
	at java.base/java.util.concurrent.ConcurrentHashMap$KeySetView.forEach(ConcurrentHashMap.java:4706)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$assignProducersToNewManagers$12(ProducersCoordinator.java:689)
	at java.base/java.util.concurrent.CompletableFuture$UniAccept.tryFire(CompletableFuture.java:718)
	at java.base/java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:510)
	at java.base/java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:2147)
	at com.rabbitmq.stream.impl.AsyncRetry.lambda$new$0(AsyncRetry.java:57)
	at com.rabbitmq.stream.impl.Utils$NamedRunnable.run(Utils.java:442)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:304)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
	at java.base/java.lang.Thread.run(Thread.java:833)
Caused by: java.net.UnknownHostException: message-broker-server-1.message-broker-nodes.message-broker
	at java.base/java.net.InetAddress$CachedAddresses.get(InetAddress.java:801)
	at java.base/java.net.InetAddress.getAllByName0(InetAddress.java:1519)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1377)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1305)
	at java.base/java.net.InetAddress.getByName(InetAddress.java:1255)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:156)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:153)
	at java.base/java.security.AccessController.doPrivileged(AccessController.java:569)
	at io.netty.util.internal.SocketUtils.addressByName(SocketUtils.java:153)
	at io.netty.resolver.DefaultNameResolver.doResolve(DefaultNameResolver.java:41)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:61)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:53)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:55)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:31)
	at io.netty.resolver.AbstractAddressResolver.resolve(AbstractAddressResolver.java:106)
	at io.netty.bootstrap.Bootstrap.doResolveAndConnect0(Bootstrap.java:206)
	at io.netty.bootstrap.Bootstrap.access$000(Bootstrap.java:46)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:180)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:166)
	at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:590)
	at io.netty.util.concurrent.DefaultPromise.notifyListenersNow(DefaultPromise.java:557)
	at io.netty.util.concurrent.DefaultPromise.notifyListeners(DefaultPromise.java:492)
	at io.netty.util.concurrent.DefaultPromise.setValue0(DefaultPromise.java:636)
	at io.netty.util.concurrent.DefaultPromise.setSuccess0(DefaultPromise.java:625)
	at io.netty.util.concurrent.DefaultPromise.trySuccess(DefaultPromise.java:105)
	at io.netty.channel.DefaultChannelPromise.trySuccess(DefaultChannelPromise.java:84)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.safeSetSuccess(AbstractChannel.java:990)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.register0(AbstractChannel.java:516)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.access$200(AbstractChannel.java:429)
	at io.netty.channel.AbstractChannel$AbstractUnsafe$1.run(AbstractChannel.java:486)
	at io.netty.util.concurrent.AbstractEventExecutor.runTask(AbstractEventExecutor.java:174)
	at io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:167)
	at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:470)
	at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:569)
	at io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:997)
	at io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
	at io.netty.util.concurrent.FastThreadLocalRunnable.run(FastThreadLocalRunnable.java:30)
	... 1 common frames omitted
12:11:53.642 [pool-7-thread-1] WARN  c.r.stream.impl.StreamConsumer - Error in consumer update listener
com.rabbitmq.stream.StreamException: Could not get stored offset for 'stream-1' on stream 'stream'
	at com.rabbitmq.stream.impl.StreamConsumer.getStoredOffsetSafely(StreamConsumer.java:302)
	at com.rabbitmq.stream.impl.StreamConsumer.lambda$new$4(StreamConsumer.java:162)
	at com.rabbitmq.stream.impl.StreamConsumer.consumerUpdate(StreamConsumer.java:415)
	at com.rabbitmq.stream.impl.ConsumersCoordinator$ClientSubscriptionsManager.lambda$new$9(ConsumersCoordinator.java:696)
	at com.rabbitmq.stream.impl.ServerFrameHandler$ConsumerUpdateFrameHandler.doHandle(ServerFrameHandler.java:741)
	at com.rabbitmq.stream.impl.ServerFrameHandler$BaseFrameHandler.handle(ServerFrameHandler.java:262)
	at com.rabbitmq.stream.impl.Client$StreamHandler.lambda$channelRead$1(Client.java:2526)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
	at java.base/java.lang.Thread.run(Thread.java:833)
Caused by: java.util.concurrent.ExecutionException: com.rabbitmq.stream.impl.AsyncRetry$RetryTimeoutException
	at java.base/java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:396)
	at java.base/java.util.concurrent.CompletableFuture.get(CompletableFuture.java:2073)
	at com.rabbitmq.stream.impl.StreamConsumer.getStoredOffsetSafely(StreamConsumer.java:292)
	... 11 common frames omitted
Caused by: com.rabbitmq.stream.impl.AsyncRetry$RetryTimeoutException: null
	at com.rabbitmq.stream.impl.AsyncRetry.lambda$new$0(AsyncRetry.java:64)
	at com.rabbitmq.stream.impl.Utils$NamedRunnable.run(Utils.java:442)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:304)
	... 3 common frames omitted
767, published 0 msg/s, confirmed 0 msg/s, consumed 58 msg/s, latency median/75th/95th/99th 0/0/0/0 ms, chunk size 1

Summary: published 143 msg/s, confirmed 143 msg/s, consumed 143 msg/s, latency 95th 0 ms, chunk size 1
13:22:27.094 [main] WARN  c.r.stream.impl.StreamEnvironment - Error while executing offset tracking registration closing sequence: Not possible to query offset for consumer stream-1 on stream stream for now, consumer status is NOT_AVAILABLE

It states that: java.net.UnknownHostException: message-broker-server-1.message-broker-nodes.message-broker: Name or service not known, but actually that hostname is valid. I run nslookup on the same pod and I could resolve this hostname, this hostname is automatically generated from the RMQ cluster operator. The "message-broker-nodes" in this case is the headless service created from the RMQ cluster operator.

I don't know if this is a bug, or not. If I use the --load-balancer flag during the PerfTest then I don't get these errors, but I don't know if it makes sense. I would expect that the Cluster Service which serves the cluster and comes from the RMQ cluster operator, is not to be seen as an load-balancer, by default this service is a ClusterIP service, and its' endpoints are to be accessed from everywhere in the cluster with the help of the headless service which also comes automatically from the RMQ Cluster Operator.

If you are interested to pursue the issue of the errors coming from the PerfTool, I can provide you with some more information below:

In order to better understand what is happening in the background I installed the hubble from cilium in order to catch the traffic and here are the results:

Traffic between PerfTool (Client) and RMQCluster

At the beginning:
message-broker-server-0 > leader node
message-broker-server-1 > follower
message-broker-server-2 > follower

After the failure:
message-broker-server-0 > stays down
message-broker-server-1 > leader
message-broker-server-2 > follower

We see that the client already (before the failure) has a connection with follower node-2 on port 48824 used as consumer or locator.
Aug 20 12:09:49.667: message-broker/stream-perf-test-bxtfq:48824 (ID:11161) -> message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: ACK)
Aug 20 12:09:49.667: message-broker/stream-perf-test-bxtfq:48824 (ID:11161) <- message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: ACK, PSH)


We also see that the client already (before the failure) has a connection with follower node-1 on port 55442 used as consumer or locator.
Aug 20 12:10:48.455: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:10:48.456: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK)

Here we see also the producer connection with leader node-0 on port 38018.
This is the last time the leader node returned a message to the client
Aug 20 12:11:03.815: message-broker/stream-perf-test-bxtfq:38018 (ID:11161) -> message-broker/message-broker-server-0:5552 (ID:24219) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:03.815: message-broker/stream-perf-test-bxtfq:38018 (ID:11161) <- message-broker/message-broker-server-0:5552 (ID:24219) to-endpoint FORWARDED (TCP Flags: ACK, PSH)

Somewhen after this message the failure happens (the VM where node-0 lives is shutdown).

We see that the client still tries over a period of 46 sec to contact the old leader(node-0) multiple times.
Aug 20 12:11:10.407: message-broker/stream-perf-test-bxtfq:38018 (ID:11161) -> message-broker/message-broker-server-0:5552 (ID:24219) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:17.127: message-broker/stream-perf-test-bxtfq:38018 (ID:11161) -> message-broker/message-broker-server-0:5552 (ID:24219) to-overlay FORWARDED (TCP Flags: ACK, PSH)

We see that the client even after the failure continues for some time to communicate with node-1 over the port which was used as consumer or locator, but then after some time this connection is closed.
Aug 20 12:11:22.363: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:22.364: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK)
Aug 20 12:11:24.936: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:24.936: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK)
Aug 20 12:11:28.625: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:28.625: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:11:28.626: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: RST)

Client tries another time to contact the old leader.
Aug 20 12:11:30.439: message-broker/stream-perf-test-bxtfq:38018 (ID:11161) -> message-broker/message-broker-server-0:5552 (ID:24219) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Here is the continuation of closing the connection on node-1.
Aug 20 12:11:31.198: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:11:31.198: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:31.198: message-broker/stream-perf-test-bxtfq:55442 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: RST)

For unknown reasons the client creates a new connection with the follower node-2
Aug 20 12:11:38.632: message-broker/stream-perf-test-bxtfq:59172 (ID:11161) -> message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: SYN)
Aug 20 12:11:38.632: message-broker/stream-perf-test-bxtfq:59172 (ID:11161) <- message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: SYN, ACK)
Aug 20 12:11:38.632: message-broker/stream-perf-test-bxtfq:59172 (ID:11161) -> message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: ACK)
Aug 20 12:11:38.633: message-broker/stream-perf-test-bxtfq:59172 (ID:11161) <- message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Aug 20 12:11:38.633: message-broker/stream-perf-test-bxtfq:59172 (ID:11161) -> message-broker/message-broker-server-2:5552 (ID:36478) to-endpoint FORWARDED (TCP Flags: ACK, PSH)


The last time the client tries to contact the old leader.
Aug 20 12:11:56.551: message-broker/stream-perf-test-bxtfq:38018 (ID:11161) -> message-broker/message-broker-server-0:5552 (ID:24219) to-overlay FORWARDED (TCP Flags: ACK, PSH)

At this moment the client tries to establish a connection with the new leader node1, but for some reason fails.
Aug 20 12:13:45.389: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: SYN)
Aug 20 12:13:45.390: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: SYN, ACK)
Aug 20 12:13:45.390: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK)
Aug 20 12:13:47.962: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: SYN)
Aug 20 12:13:47.962: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: SYN, ACK)
Aug 20 12:13:47.963: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK)
Aug 20 12:13:55.391: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:13:55.391: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:13:57.964: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:13:57.964: message-broker/stream-perf-test-bxtfq:40054 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, FIN)


The client tries to establish again a connection on the leader node but fails again.
Aug 20 12:14:11.203: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: SYN)
Aug 20 12:14:11.203: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: SYN, ACK)
Aug 20 12:14:11.203: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK)
Aug 20 12:14:13.776: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: SYN)
Aug 20 12:14:13.776: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: SYN, ACK)
Aug 20 12:14:13.776: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK)
Aug 20 12:14:21.205: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:14:21.205: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:14:23.778: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) <- message-broker/message-broker-server-1:5552 (ID:51536) to-overlay FORWARDED (TCP Flags: ACK, FIN)
Aug 20 12:14:23.778: message-broker/stream-perf-test-bxtfq:57164 (ID:11161) -> message-broker/message-broker-server-1:5552 (ID:51536) to-endpoint FORWARDED (TCP Flags: ACK, FIN)

And here also the logs from the rabbitmq cluster nodes which lived during the failover:

Logs from RabbitMQ cluster nodes

**logs from message-broker-server-1:**

[38;5;160m2023-08-20 12:11:17.187822+00:00 [error] <0.243.0> ** Node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' not responding **[0m
[38;5;160m2023-08-20 12:11:17.187822+00:00 [error] <0.243.0> ** Removing (timedout) connection **[0m
[38;5;160m2023-08-20 12:11:17.187822+00:00 [error] <0.243.0> [0m
[38;5;160m2023-08-20 12:11:17.188140+00:00 [error] <0.1508.0> __stream_1692532746961598858 [osiris_replica:handle_info/2] replica reader <26156.1596.0> exited with noconnection[0m
2023-08-20 12:11:17.188327+00:00 [info] <0.521.0> rabbit on node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' down[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0> ** Generic server <0.1508.0> terminating[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0> ** Last message in was {'EXIT',<26156.1596.0>,noconnection}[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0> ** When Server state == #{committed_offset => 717101,[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                           external_reference =>[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                               {resource,<<"/">>,queue,<<"stream">>},[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                           has_parse_state => false,[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                           log =>[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                               #{directory =>[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                     "/bitnami/rabbitmq/mnesia/rabbit@message-broker-server-1.message-broker-nodes.message-broker/stream/__stream_1692532746961598858",[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                 file => "00000000000000554100.segment",[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                 max_segment_size_bytes => 500000000,[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                 max_segment_size_chunks => 256000,[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                 mode =>[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                     #{epoch => 1,mode => write,[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                       tail =>[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                           {717103,{1,717102,1692533466334}},[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                       type => acceptor},[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                 retention => [{max_bytes,2000000000}],[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                                 tracking_config => #{}},[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                           name => <<"__stream_1692532746961598858">>,[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0>                           num_offset_listeners => 1}[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0> ** Reason for termination ==[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0> ** replica_reader_exit[0m
[38;5;160m2023-08-20 12:11:17.188768+00:00 [error] <0.1508.0> [0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>   crasher:[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     initial call: osiris_replica:init/1[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     pid: <0.1508.0>[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     registered_name: [][0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     exception exit: replica_reader_exit[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>       in function  gen_server:handle_common_reply/8 (gen_server.erl, line 1241)[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     ancestors: [osiris_server_sup,osiris_sup,<0.215.0>][0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     message_queue_len: 0[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     messages: [][0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     links: [<0.219.0>][0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     dictionary: [{rand_seed,{#{bits => 58,jump => #Fun<rand.3.34006561>,[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>                                 next => #Fun<rand.0.34006561>,type => exsss,[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>                                 uniform => #Fun<rand.1.34006561>,[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>                                 uniform_n => #Fun<rand.2.34006561>},[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>                               [225386379062674424|145640522493965062]}}][0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     trap_exit: true[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     status: running[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     heap_size: 6772[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     stack_size: 28[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>     reductions: 228021594[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0>   neighbours:[0m
[38;5;160m2023-08-20 12:11:17.189502+00:00 [error] <0.1508.0> [0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>     supervisor: {local,osiris_server_sup}[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>     errorContext: child_terminated[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>     reason: replica_reader_exit[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>     offender: [{pid,<0.1508.0>},[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>                {id,"__stream_1692532746961598858"},[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>                {mfargs,{osiris_replica,start_link,undefined}},[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>                {restart_type,temporary},[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>                {significant,false},[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>                {shutdown,5000},[0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0>                {child_type,worker}][0m
[38;5;160m2023-08-20 12:11:17.189891+00:00 [error] <0.219.0> [0m
[38;5;214m2023-08-20 12:11:17.190756+00:00 [warning] <0.3077.0> Description: "Server authenticity is not verified since certificate path validation is not enabled"[0m
[38;5;214m2023-08-20 12:11:17.190756+00:00 [warning] <0.3077.0>      Reason: "The option {verify, verify_peer} and one of the options 'cacertfile' or 'cacerts' are required to enable this."[0m
[38;5;214m2023-08-20 12:11:17.190756+00:00 [warning] <0.3077.0> [0m
2023-08-20 12:11:17.194012+00:00 [info] <0.521.0> node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' down: net_tick_timeout[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0> ** Generic server <0.3082.0> terminating[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0> ** Last message in was {continue,[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                            #{epoch => 1,[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              event_formatter =>[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                  {rabbit_stream_queue,format_osiris_event,[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                      [{resource,<<"/">>,queue,<<"stream">>}]},[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              leader_node =>[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                  'rabbit@message-broker-server-0.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              leader_pid => <26156.1592.0>,[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              max_segment_size_bytes => 500000000,[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              name => "__stream_1692532746961598858",[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              nodes =>[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                  ['rabbit@message-broker-server-0.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                   'rabbit@message-broker-server-2.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                   'rabbit@message-broker-server-1.message-broker-nodes.message-broker'],[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              reference =>[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                  {resource,<<"/">>,queue,<<"stream">>},[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              replica_nodes =>[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                  ['rabbit@message-broker-server-2.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                                   'rabbit@message-broker-server-1.message-broker-nodes.message-broker'],[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0>                              retention => [{max_bytes,2000000000}]}}[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0> ** When Server state == "osiris_replica:format_status/1 crashed"[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0> ** Reason for termination ==[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0> ** {badrpc,nodedown}[0m
[38;5;160m2023-08-20 12:11:25.193936+00:00 [error] <0.3082.0> [0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>   crasher:[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     initial call: osiris_replica:init/1[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     pid: <0.3082.0>[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     registered_name: [][0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     exception exit: {badrpc,nodedown}[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>       in function  gen_server:handle_common_reply/8 (gen_server.erl, line 1241)[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     ancestors: [osiris_server_sup,osiris_sup,<0.215.0>][0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     message_queue_len: 1[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     messages: [{'$gen_call',{<26157.3089.0>,[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>                                 [alias|#Ref<26157.335285253.608763906.26235>]},[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>                                await}][0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     links: [<0.219.0>][0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     dictionary: [][0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     trap_exit: true[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     status: running[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     heap_size: 10958[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     stack_size: 28[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>     reductions: 25394[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0>   neighbours:[0m
[38;5;160m2023-08-20 12:11:25.194593+00:00 [error] <0.3082.0> [0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>     supervisor: {local,osiris_server_sup}[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>     errorContext: child_terminated[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>     reason: {badrpc,nodedown}[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>     offender: [{pid,<0.3082.0>},[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>                {id,"__stream_1692532746961598858"},[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>                {mfargs,{osiris_replica,start_link,undefined}},[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>                {restart_type,temporary},[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>                {significant,false},[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>                {shutdown,5000},[0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0>                {child_type,worker}][0m
[38;5;160m2023-08-20 12:11:25.195068+00:00 [error] <0.219.0> [0m
2023-08-20 12:11:25.205124+00:00 [info] <0.3103.0> Stream: __stream_1692532746961598858 will use /bitnami/rabbitmq/mnesia/rabbit@message-broker-server-1.message-broker-nodes.message-broker/stream/__stream_1692532746961598858 for osiris log data directory[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** State machine <0.1520.0> terminating[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** Last event = {info,{tcp,#Port<0.538>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            <<0,0,0,26,0,11,0,1,0,0,0,7,0,8,115,116,114,101,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                              97,109,45,49,0,6,115,116,114,101,97,109>>}}[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** When server state  = {open,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                          {statem_data,ranch_tcp,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                           {stream_connection,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            <<"10.128.10.4:55442 -> 10.128.8.194:5552">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {0,0,0,0,0,65535,2688,2242},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {0,0,0,0,0,65535,2688,2564},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            5552,55442,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {<<"PLAIN">>,rabbit_auth_mechanism_plain},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            1692532749637,<0.1519.0>,#Port<0.538>,#{},#{},#{},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            #{},#Ref<0.4191915102.1145438210.203122>,done,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {user,<<"admin">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                             [administrator],[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                             [{rabbit_auth_backend_internal,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                               #Fun<rabbit_auth_backend_internal.3.131409679>}]},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            <<"/">>,opened,1048576,5,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {<0.1521.0>,<0.1522.0>},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            #{<<"connection_name">> =>[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                               <<"stream-perf-test-consumer-0">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                              <<"copyright">> =>[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                               <<"Copyright (c) 2020-2022 VMware, Inc. or its affiliates.">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                              <<"information">> =>[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                               <<"Licensed under the MPL 2.0. See https://www.rabbitmq.com/">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                              <<"platform">> => <<"Java">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                              <<"product">> => <<"RabbitMQ Stream">>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                              <<"version">> => <<"0.9.0">>},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            #{},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {state,fine,10000,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                             #Ref<0.4191915102.1145307138.224425>},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            false,#Ref<0.4191915102.1145438210.203123>,tcp,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            undefined,1,#{},2,60000,undefined},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                           {stream_connection_state,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            {rabbit_stream_core,{cfg},[],undefined,{[],[]}},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            false,#{}},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                           {configuration,50000,12500,1048576,5,10000}}}[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** Reason for termination = exit:{timeout,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                                   {gen_batch_server,call,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                                    [<0.3103.0>,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                                     {read_tracking,offset,<<"stream-1">>},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                                     5000]}}[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** Callback modules = [rabbit_stream_reader][0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** Callback mode = [state_functions,state_enter][0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> ** Stacktrace =[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> **  [{gen_batch_server,call,3,[{file,"src/gen_batch_server.erl"},{line,253}]},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>      {rabbit_stream_reader,handle_frame_post_auth,4,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            [{file,"rabbit_stream_reader.erl"},{line,2225}]},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>      {lists,foldl,3,[{file,"lists.erl"},{line,1350}]},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>      {rabbit_stream_reader,open,3,[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>                            [{file,"rabbit_stream_reader.erl"},{line,759}]},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>      {gen_statem,loop_state_callback,11,[{file,"gen_statem.erl"},{line,1426}]},[0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0>      {proc_lib,init_p_do_apply,3,[{file,"proc_lib.erl"},{line,240}]}][0m
[38;5;160m2023-08-20 12:11:31.198951+00:00 [error] <0.1520.0> [0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>   crasher:[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     initial call: rabbit_stream_reader:init/1[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     pid: <0.1520.0>[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     registered_name: [][0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     exception exit: {timeout,[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>                         {gen_batch_server,call,[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>                             [<0.3103.0>,[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>                              {read_tracking,offset,<<"stream-1">>},[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>                              5000]}}[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>       in function  gen_batch_server:call/3 (src/gen_batch_server.erl, line 253)[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>       in call from rabbit_stream_reader:handle_frame_post_auth/4 (rabbit_stream_reader.erl, line 2225)[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>       in call from lists:foldl/3 (lists.erl, line 1350)[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>       in call from rabbit_stream_reader:open/3 (rabbit_stream_reader.erl, line 759)[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>       in call from gen_statem:loop_state_callback/11 (gen_statem.erl, line 1426)[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     ancestors: [<0.1518.0>,<0.725.0>,<0.724.0>,<0.723.0>,<0.721.0>,[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>                   <0.720.0>,rabbit_stream_sup,<0.716.0>][0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     message_queue_len: 2[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     messages: [heartbeat_send,emit_stats][0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     links: [<0.1518.0>][0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     dictionary: [{permission_cache,[{{resource,<<"/">>,queue,<<"stream">>},[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>                                       #{},read}]}][0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     trap_exit: true[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     status: running[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     heap_size: 28690[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     stack_size: 28[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>     reductions: 386129635[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0>   neighbours:[0m
[38;5;160m2023-08-20 12:11:31.199812+00:00 [error] <0.1520.0> [0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>     supervisor: {<0.1518.0>,rabbit_stream_connection_sup}[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>     errorContext: child_terminated[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>     reason: {timeout,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                 {gen_batch_server,call,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                     [<0.3103.0>,{read_tracking,offset,<<"stream-1">>},5000]}}[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>     offender: [{pid,<0.1520.0>},[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                {id,rabbit_stream_reader},[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                {mfargs,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                    {rabbit_stream_reader,start_link,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                        [<0.1519.0>,ranch_tcp,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                         {acceptor,{0,0,0,0,0,0,0,0},5552},[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                         #{credits_required_for_unblocking => 12500,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                           frame_max => 1048576,heartbeat => 5,[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                           initial_credits => 50000,transport => tcp}]}},[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                {restart_type,intrinsic},[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                {shutdown,300000},[0m
[38;5;160m2023-08-20 12:11:31.200431+00:00 [error] <0.1518.0>                {child_type,worker}][0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>     supervisor: {<0.1518.0>,rabbit_stream_connection_sup}[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>     errorContext: shutdown[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>     reason: reached_max_restart_intensity[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>     offender: [{pid,<0.1520.0>},[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                {id,rabbit_stream_reader},[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                {mfargs,[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                    {rabbit_stream_reader,start_link,[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                        [<0.1519.0>,ranch_tcp,[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                         {acceptor,{0,0,0,0,0,0,0,0},5552},[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                         #{credits_required_for_unblocking => 12500,[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                           frame_max => 1048576,heartbeat => 5,[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                           initial_credits => 50000,transport => tcp}]}},[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                {restart_type,intrinsic},[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                {shutdown,300000},[0m
[38;5;160m2023-08-20 12:11:31.200690+00:00 [error] <0.1518.0>                {child_type,worker}][0m
2023-08-20 12:11:31.821123+00:00 [info] <0.3103.0> osiris_writer:init/1: name: __stream_1692532746961598858 last offset: 717102 committed chunk id: -1 epoch: 2[0m
2023-08-20 12:11:31.878441+00:00 [info] <0.3127.0> __stream_1692532746961598858: starting osiris replica reader at offset 717103[0m
[38;5;214m2023-08-20 12:13:57.963798+00:00 [warning] <0.3445.0> Closing connection because of timeout in state 'tcp_connected' likely due to lack of client action.[0m
[38;5;214m2023-08-20 12:14:23.777799+00:00 [warning] <0.3507.0> Closing connection because of timeout in state 'tcp_connected' likely due to lack of client action.[0m


**logs from message-broker-server-2:**

[38;5;160m2023-08-20 12:11:15.287547+00:00 [error] <0.233.0> ** Node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' not responding **[0m
[38;5;160m2023-08-20 12:11:15.287547+00:00 [error] <0.233.0> ** Removing (timedout) connection **[0m
[38;5;160m2023-08-20 12:11:15.287547+00:00 [error] <0.233.0> [0m
2023-08-20 12:11:15.287852+00:00 [info] <0.515.0> rabbit on node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' down[0m
[38;5;160m2023-08-20 12:11:15.287865+00:00 [error] <0.1511.0> __stream_1692532746961598858 [osiris_replica:handle_info/2] replica reader <20636.1597.0> exited with noconnection[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0> ** Generic server <0.1511.0> terminating[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0> ** Last message in was {'EXIT',<20636.1597.0>,noconnection}[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0> ** When Server state == #{committed_offset => 717101,[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                           external_reference =>[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                               {resource,<<"/">>,queue,<<"stream">>},[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                           has_parse_state => false,[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                           log =>[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                               #{directory =>[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                     "/bitnami/rabbitmq/mnesia/rabbit@message-broker-server-2.message-broker-nodes.message-broker/stream/__stream_1692532746961598858",[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                 file => "00000000000000554100.segment",[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                 max_segment_size_bytes => 500000000,[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                 max_segment_size_chunks => 256000,[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                 mode =>[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                     #{epoch => 1,mode => write,[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                       tail =>[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                           {717103,{1,717102,1692533466334}},[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                       type => acceptor},[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                 retention => [{max_bytes,2000000000}],[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                                 tracking_config => #{}},[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                           name => <<"__stream_1692532746961598858">>,[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0>                           num_offset_listeners => 0}[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0> ** Reason for termination ==[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0> ** replica_reader_exit[0m
[38;5;160m2023-08-20 12:11:15.288608+00:00 [error] <0.1511.0> [0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>   crasher:[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     initial call: osiris_replica:init/1[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     pid: <0.1511.0>[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     registered_name: [][0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     exception exit: replica_reader_exit[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>       in function  gen_server:handle_common_reply/8 (gen_server.erl, line 1241)[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     ancestors: [osiris_server_sup,osiris_sup,<0.215.0>][0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     message_queue_len: 0[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     messages: [][0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     links: [<0.219.0>][0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     dictionary: [{rand_seed,{#{bits => 58,jump => #Fun<rand.3.34006561>,[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>                                 next => #Fun<rand.0.34006561>,type => exsss,[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>                                 uniform => #Fun<rand.1.34006561>,[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>                                 uniform_n => #Fun<rand.2.34006561>},[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>                               [14505456525663531|64982465602980549]}}][0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     trap_exit: true[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     status: running[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     heap_size: 6772[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     stack_size: 28[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>     reductions: 228650946[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0>   neighbours:[0m
[38;5;160m2023-08-20 12:11:15.289204+00:00 [error] <0.1511.0> [0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>     supervisor: {local,osiris_server_sup}[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>     errorContext: child_terminated[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>     reason: replica_reader_exit[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>     offender: [{pid,<0.1511.0>},[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>                {id,"__stream_1692532746961598858"},[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>                {mfargs,{osiris_replica,start_link,undefined}},[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>                {restart_type,temporary},[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>                {significant,false},[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>                {shutdown,5000},[0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0>                {child_type,worker}][0m
[38;5;160m2023-08-20 12:11:15.289573+00:00 [error] <0.219.0> [0m
[38;5;214m2023-08-20 12:11:15.290068+00:00 [warning] <0.3093.0> Description: "Server authenticity is not verified since certificate path validation is not enabled"[0m
[38;5;214m2023-08-20 12:11:15.290068+00:00 [warning] <0.3093.0>      Reason: "The option {verify, verify_peer} and one of the options 'cacertfile' or 'cacerts' are required to enable this."[0m
[38;5;214m2023-08-20 12:11:15.290068+00:00 [warning] <0.3093.0> [0m
2023-08-20 12:11:15.294165+00:00 [info] <0.515.0> node 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' down: net_tick_timeout[0m
[38;5;214m2023-08-20 12:11:22.622448+00:00 [warning] <0.3089.0> rabbit_stream_coordinator: Error while starting replica for __stream_1692532746961598858 on node rabbit@message-broker-server-1.message-broker-nodes.message-broker in 1 : {{badrpc,nodedown},{gen_server,call,[<20637.3082.0>,await,infinity]}}[0m
2023-08-20 12:11:22.632495+00:00 [info] <0.3118.0> rabbit_stream_coordinator: started writer __stream_1692532746961598858 on 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' in 2[0m
[38;5;214m2023-08-20 12:11:23.291659+00:00 [warning] <0.3095.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0> ** Generic server <0.3121.0> terminating[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0> ** Last message in was {continue,[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                            #{epoch => 2,[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              event_formatter =>[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                  {rabbit_stream_queue,format_osiris_event,[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                      [{resource,<<"/">>,queue,<<"stream">>}]},[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              leader_node =>[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                  'rabbit@message-broker-server-1.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              leader_pid => <20637.3103.0>,[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              max_segment_size_bytes => 500000000,[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              name => "__stream_1692532746961598858",[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              nodes =>[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                  ['rabbit@message-broker-server-0.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                   'rabbit@message-broker-server-2.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                   'rabbit@message-broker-server-1.message-broker-nodes.message-broker'],[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              reference =>[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                  {resource,<<"/">>,queue,<<"stream">>},[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              replica_nodes =>[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                  ['rabbit@message-broker-server-0.message-broker-nodes.message-broker',[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                                   'rabbit@message-broker-server-2.message-broker-nodes.message-broker'],[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0>                              retention => [{max_bytes,2000000000}]}}[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0> ** When Server state == "osiris_replica:format_status/1 crashed"[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0> ** Reason for termination ==[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0> ** {badrpc,{'EXIT',timeout}}[0m
[38;5;160m2023-08-20 12:11:27.636242+00:00 [error] <0.3121.0> [0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>   crasher:[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     initial call: osiris_replica:init/1[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     pid: <0.3121.0>[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     registered_name: [][0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     exception exit: {badrpc,{'EXIT',timeout}}[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>       in function  gen_server:handle_common_reply/8 (gen_server.erl, line 1241)[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     ancestors: [osiris_server_sup,osiris_sup,<0.215.0>][0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     message_queue_len: 1[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     messages: [{'$gen_call',{<0.3119.0>,#Ref<0.335285253.608698370.26630>},[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>                                await}][0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     links: [<0.219.0>][0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     dictionary: [][0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     trap_exit: true[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     status: running[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     heap_size: 4185[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     stack_size: 28[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>     reductions: 26389[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0>   neighbours:[0m
[38;5;160m2023-08-20 12:11:27.636788+00:00 [error] <0.3121.0> [0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>     supervisor: {local,osiris_server_sup}[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>     errorContext: child_terminated[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>     reason: {badrpc,{'EXIT',timeout}}[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>     offender: [{pid,<0.3121.0>},[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>                {id,"__stream_1692532746961598858"},[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>                {mfargs,{osiris_replica,start_link,undefined}},[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>                {restart_type,temporary},[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>                {significant,false},[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>                {shutdown,5000},[0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0>                {child_type,worker}][0m
[38;5;160m2023-08-20 12:11:27.637200+00:00 [error] <0.219.0> [0m
[38;5;214m2023-08-20 12:11:27.637291+00:00 [warning] <0.3119.0> rabbit_stream_coordinator: Error while starting replica for __stream_1692532746961598858 on node rabbit@message-broker-server-2.message-broker-nodes.message-broker in 2 : {{badrpc,{'EXIT',timeout}},{gen_server,call,[<0.3121.0>,await,infinity]}}[0m
2023-08-20 12:11:29.277058+00:00 [info] <0.3131.0> Stream: __stream_1692532746961598858 will use /bitnami/rabbitmq/mnesia/rabbit@message-broker-server-2.message-broker-nodes.message-broker/stream/__stream_1692532746961598858 for osiris log data directory[0m
2023-08-20 12:11:29.279045+00:00 [info] <0.3131.0> __stream_1692532746961598858 [osiris_replica:handle_continue/2] osiris replica starting in epoch 2, next offset 717103, tail info {717103,{1,717102,1692533466334}}[0m
2023-08-20 12:11:29.305937+00:00 [info] <0.3130.0> rabbit_stream_coordinator: __stream_1692532746961598858: replica started on rabbit@message-broker-server-2.message-broker-nodes.message-broker in 2 pid <0.3131.0>[0m
[38;5;214m2023-08-20 12:11:38.297587+00:00 [warning] <0.3150.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:11:54.830625+00:00 [warning] <0.3189.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:12:10.837669+00:00 [warning] <0.3228.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:12:26.844614+00:00 [warning] <0.3265.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:12:42.851554+00:00 [warning] <0.3296.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:12:58.858578+00:00 [warning] <0.3340.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:13:14.866665+00:00 [warning] <0.3372.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:13:30.884541+00:00 [warning] <0.3411.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:13:46.891676+00:00 [warning] <0.3448.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:14:02.897623+00:00 [warning] <0.3480.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:14:18.904593+00:00 [warning] <0.3517.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:14:34.911633+00:00 [warning] <0.3548.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:14:50.918607+00:00 [warning] <0.3585.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:15:06.927739+00:00 [warning] <0.3625.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:15:22.934583+00:00 [warning] <0.3657.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:15:38.941674+00:00 [warning] <0.3693.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:15:54.947626+00:00 [warning] <0.3725.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:16:10.954637+00:00 [warning] <0.3763.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:16:26.963999+00:00 [warning] <0.3800.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:16:42.970739+00:00 [warning] <0.3831.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:16:58.978731+00:00 [warning] <0.3868.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:17:14.986644+00:00 [warning] <0.3900.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m
[38;5;214m2023-08-20 12:17:30.995715+00:00 [warning] <0.3939.0> rabbit_stream_coordinator: failed to stop member __stream_1692532746961598858 'rabbit@message-broker-server-0.message-broker-nodes.message-broker' Error: {{nodedown,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{gen_server,call,[{osiris_server_sup,'rabbit@message-broker-server-0.message-broker-nodes.message-broker'},{terminate_child,[95,95,115,116,114,101,97,109,95,49,54,57,50,53,51,50,55,52,54,57,54,49,53,57,56,56,53,56]},infinity]}}[0m

If I read these logs correctly it means that it took in this case around 15 sec to elect the new leader, right?

p.s.

What I found interesting is that in some other working scenarios, that means the failover was successful the PerfTool didn't print any errors out, when I wanted to re-join the killed node again in the cluster it would assume that the leader is message-broker-server-2 and not message-broker-server-1, which is incorrect because message-broker-server-1 was the leader.
[warning] <0.521.0> rabbit_stream_coordinator: await_condition - Leader node rabbit@message-broker-server-2.message-broker-nodes.message-broker might be down. Re-entering follower state
As said when I use the --load-balancer I don't get these errors but the big downtimes until the connections are re-established are still an issue. With these failover downtimes, to me it seems like it is a little bit difficult to use the RabbitMQ for "time-critical" applications. Maybe at the end all the problems are somehow only on the PerfTool side and we need to maybe modify that client a bit.

1 reply

acogoluegnes Aug 23, 2023
Maintainer

Thanks for investigating this and providing us with more details. I have limited access to my computer this week and am looking into this issue from my phone, but I'll be able to investigate more next week.

The performance tool uses the load balancer and may retry creating connections with the --load-balancer flag, so that could explain the unnecessary consumer connections. That's a bug obviously, they should be cleaned up. Retry attempts can also make the recovery time a bit longer, but I'm surprised it is that much longer.

In the meantime, you may want to have a look at the "Connecting to Streams" blog post if you haven't already. It covers the stream topology discovery mechanism.

acogoluegnes · 2023-08-31T07:51:26Z

acogoluegnes
Aug 31, 2023
Maintainer

@albionb96 I fixed a bug in the stream Java client that was likely the cause of long recovery times and unnecessary consumer connections when the --load-balancer flag is used. Could you try with the latest 0.13.0 snapshot? (https://github.com/rabbitmq/rabbitmq-java-tools-binaries-dev/releases/download/v-stream-perf-test-latest/stream-perf-test-latest.jar or pivotalrabbitmq/stream-perf-test:dev Docker image).

6 replies

michaelklishin Sep 1, 2023
Maintainer

Begin too eager to detect an unresponsive peer has very well known downsides.

Our Raft's library failure detection parameters can be adjusted via advanced.config:

[
  {aten, [
    {detection_threshold, 0.95}
  ]}
].

Only trial and error can tell what value will be optimal for your needs. The default detection threshold (with what probability will Aten consider the peer as down based on earlier communication latencies) is 0.99.

acogoluegnes Sep 1, 2023
Maintainer

@albionb96 Thanks for trying with the stream-perf-test snapshot and providing additional info, I'll investigate more on my side. Can you confirm you used the --load-balancer flag in those tests?

acogoluegnes Sep 1, 2023
Maintainer

IIUC you provide the logs from step 4.

Before shut-down all three connections (producer, consumer, locator) were on Node: message-broker-server-1, which was also the leader of the cluster.

This is not normal: the producer should be connected to the leader, the consumer should be connected to a replica.

As suggested in my comment below, can you enable logging for a couple of classes: -Drabbitmq.streamperftest.loggers=com.rabbitmq.stream.impl.ConsumersCoordinator=debug,com.rabbitmq.stream.impl.AsyncRetry=debug,com.rabbitmq.stream.impl.Utils=debug. It might be a bit verbose, but it'll tell which hostnames the client tries to use.

albionb96 Sep 4, 2023
Author

@acogoluegnes

Yes I can confirm that I used the --load-balancer flag:

java -jar stream-perf-test-latest.jar --uris rabbitmq-stream://user:pass@load_balancer_ip:5552 --producers 1 --consumers 1 -sac --rpc-timeout 5 --streams stream-queue-0 --delete-streams --prometheus --load-balancer -z 3000 --size 1024 --rate 1000 --batch-size 1 --batch-publishing-delay 1 --max-length-bytes 2000000000

I didn't enable the PerfTool logging for this test, but I can repeat these tests again with logging enabled, and see what comes out, if that is important? I can say that this phenomenon (where all connections are established on the leader node) doesn't happen always, but I have seen it multiple times.

If you look to the outputs that I posted, there are I think two moments, where the most of the time is being lost.

Firstly the cluster needs approx. 20sec to elect the new leader and is throwing two consecutive packets of errors which don't tell me too much.
I have already reduced the net_ticktime to 10, but I will again look into the links and information that @michaelklishin and @kjnilsson posted to see if I can achieve better results in this regard. Do you think that using the quorum queues will make a difference?
Secondly there is a gap of more than 20 seconds between these two lines in the traffic output:

Aug 31 13:25:23.217: <external_perf_tool>:55161 (world) -> message-broker/message-broker-server-1:5552 (ID:33487) to-overlay FORWARDED (TCP Flags: SYN, ECE, CWR)
...
Aug 31 13:25:49.223: <external_perf_tool>:55179 (world) -> message-broker/message-broker-server-0:5552 (ID:12926) to-overlay FORWARDED (TCP Flags: SYN, ECE, CWR)

I don't know what the client does during this time, because there is not too much output, but it seems like it tries to establish a new connection on the switched-off leader, and then waits for a very long time, and only after that it starts the creation of a connection on the new (correct) leader.

@michaelklishin It is not that I myself want to be eager to reduce the downtime during a failure, but as you also know there are some real-time applications which require to reduce this downtime to a minimum, and because I really like all the features that the RabbitMQ offers, and I also like the throughput and latency performance during the normal operation, I want to explore all possibilities until the end, in order to find out if this down-time can be reduced, before deciding if I can use the RabbitMQ as message broker for my application at all or not.

acogoluegnes Sep 4, 2023
Maintainer

Thanks for the extra info.

I managed to reproduce the issue on a K8S environment. As Karl mentioned, the Erlang distribution takes time to detect the node failure, but we'll try to improve this.

There are still a couple of issues on the client side. It seems the producer takes too long to recover, even after the stream leader is up again. I need to investigate more on this.

The consumer sometimes connects to the stream leader, even though a replica is available. The stream is "restarted" to elect a new leader and it's likely the consumer tries to resume when there's only the leader available (it's started first, before the replicas), so it uses it. That's just a bad timing. We'd like to introduce a new flag in the library to force the usage of a replica, at least a few times before falling back to the leader. This would not be the default, because it is not always the most appropriate solution (if one wants to recover as fast as possible or if there's only one node and thus only the leader, at least in development, etc).

acogoluegnes · 2023-08-31T08:05:19Z

acogoluegnes
Aug 31, 2023
Maintainer

@albionb96 About the UnknownHostException errors, the library relies on the JVM to resolve and connect to remote hosts. The JVM process is not restarted on recovery, so it could be a DNS cache issue. That's just a guess, but it'd be easy to check by reproducing the issue, then restarting stream-perf-test and see if it manages to connect this time (from a new JVM process, no DNS cache).

You can enable logging for a couple of classes: -Drabbitmq.streamperftest.loggers=com.rabbitmq.stream.impl.ConsumersCoordinator=debug,com.rabbitmq.stream.impl.AsyncRetry=debug,com.rabbitmq.stream.impl.Utils=debug. It might be a bit verbose, but it'll tell which hostnames the client tries to use.

1 reply

albionb96 Sep 4, 2023
Author

@acogoluegnes I started another test with logging enabled.
I started the PerfTool in a pod of the K8s Cluster, like this:

PerfTool as container in pod

- args: - --uris - rabbitmq-stream://user:pass@message-broker - --delete-streams - --prometheus - -z - "3000" - -r - "1000" - -s - "1024" - --batch-size - "1" - --max-length-bytes - "2000000000" - -sac - --rpc-timeout - "5" image: pivotalrabbitmq/stream-perf-test:dev imagePullPolicy: Always name: rabbitmq-stream-perf-test env: - name: RABBITMQ_STREAM_PERF_TEST_LOGGERS value: "com.rabbitmq.stream.impl.ConsumersCoordinator=debug,com.rabbitmq.stream.impl.AsyncRetry=debug,com.rabbitmq.stream.impl.Utils=debug" resources: {} terminationMessagePath: /dev/termination-log terminationMessagePolicy: File

here I didn't use the --load-balancer flag, since I expect that the nodes are reachable through the services that come by default with the Kubernetes RMQ Cluster Operator, right?

At the beginning:
message-broker-server-0 is the leader,
message-broker-server-1 and message-broker-server-2 are followers.

I shut-down the VM where the message-broker-server-0 was running, then I got the same error messages (but this time with some more details) and the PerfTool couldn't re-establish the connection anymore.

After shut-down:
message-broker-server-1 was the new leader.
message-broker-server-2 was the follower.

PerfTool output first time

10:22:39.698 [main] DEBUG com.rabbitmq.stream.impl.Utils - Expected client message-broker-server-0.message-broker-nodes.message-broker:5552, got message-broker-server-0.message-broker-nodes.message-broker:5552: success
10:22:39.703 [main] DEBUG com.rabbitmq.stream.impl.Utils - Operation 'Declare publisher request for publisher 0 on stream 'stream'' completed in 0 ms after 1 attempt(s)
Monitoring endpoints started on http://localhost:8080
10:22:39.738 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Replicas for consuming from stream: [Broker{host='message-broker-server-1.message-broker-nodes.message-broker', port=5552}, Broker{host='message-broker-server-2.message-broker-nodes.message-broker', port=5552}]
10:22:39.738 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Candidates to consume from stream: [Broker{host='message-broker-server-1.message-broker-nodes.message-broker', port=5552}, Broker{host='message-broker-server-2.message-broker-nodes.message-broker', port=5552}]
10:22:39.739 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Creating subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552
10:22:39.740 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - creating subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552
10:22:39.754 [main] DEBUG com.rabbitmq.stream.impl.Utils - Expected client message-broker-server-2.message-broker-nodes.message-broker:5552, got message-broker-server-2.message-broker-nodes.message-broker:5552: success
10:22:39.754 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Created consumer connection 'stream-perf-test-consumer-0'
10:22:39.754 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Created subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552, id 0
10:22:39.754 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Subscribing to stream, requested offset specification is OffsetSpecification{type=3, offset=-1}, offset tracking reference is stream-1, properties are {name=stream-1, single-active-consumer=true}
10:22:39.757 [main] DEBUG com.rabbitmq.stream.impl.Utils - Operation 'Offset query for consumer 0 on stream 'stream' (reference stream-1)' completed in 1 ms after 1 attempt(s)
10:22:39.757 [main] INFO  c.r.stream.impl.ConsumersCoordinator - Computed offset specification OffsetSpecification{type=3, offset=-1}, offset specification used after subscription listener OffsetSpecification{type=3, offset=-1}
10:22:39.759 [main] DEBUG com.rabbitmq.stream.impl.Utils - Operation 'Subscribe request for consumer 0 on stream 'stream'' completed in 0 ms after 1 attempt(s)
10:22:39.760 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Subscribed to 'stream'
10:22:39.760 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Assigned tracker 0 (stream 'stream') to manager 0 (node message-broker-server-2.message-broker-nodes.message-broker:5552), subscription ID 0
Starting producer
1, published 1085 msg/s, confirmed 1085 msg/s, consumed 1083 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
2, published 998 msg/s, confirmed 998 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
3, published 1001 msg/s, confirmed 1000 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
4, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
5, published 1000 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
6, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
7, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
8, published 1001 msg/s, confirmed 1001 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
9, published 999 msg/s, confirmed 999 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
10, published 1002 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
11, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
12, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
13, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
14, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
15, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
16, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
17, published 1001 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
18, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
19, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
20, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
21, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/4/4 ms, chunk size 1
22, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
23, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
24, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
25, published 1000 msg/s, confirmed 1001 msg/s, consumed 996 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
26, published 1002 msg/s, confirmed 1001 msg/s, consumed 1004 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
27, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
28, published 999 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
29, published 1001 msg/s, confirmed 1000 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
30, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
31, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
32, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
33, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
34, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
35, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
36, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
37, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
38, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
39, published 1000 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 1/1/3/3 ms, chunk size 1
40, published 1002 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
41, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
42, published 1001 msg/s, confirmed 1002 msg/s, consumed 1003 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
43, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
44, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
45, published 1000 msg/s, confirmed 1000 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
46, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
47, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
48, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
49, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
50, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
51, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
52, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
53, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
54, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
55, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
56, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
57, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
58, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
59, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
60, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/4/4 ms, chunk size 1
61, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
62, published 1001 msg/s, confirmed 1002 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
63, published 999 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
64, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
65, published 1001 msg/s, confirmed 1000 msg/s, consumed 1003 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
66, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
67, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/1/3/3 ms, chunk size 1
68, published 1000 msg/s, confirmed 1000 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
69, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
70, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
71, published 1001 msg/s, confirmed 1001 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
72, published 1000 msg/s, confirmed 999 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
73, published 1001 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
74, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
75, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
76, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
77, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
78, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
79, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
80, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
81, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
82, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
83, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
84, published 1000 msg/s, confirmed 1001 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/88/88 ms, chunk size 1
85, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
86, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
87, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
88, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
89, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
90, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
91, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
92, published 1001 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
93, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
94, published 1000 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
95, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
96, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
97, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
98, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
99, published 1000 msg/s, confirmed 1001 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
100, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
101, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
102, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
103, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
104, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
105, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
106, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
107, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
108, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
109, published 1002 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
110, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
111, published 1001 msg/s, confirmed 1002 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
112, published 999 msg/s, confirmed 999 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
113, published 1001 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
114, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
115, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/40/40 ms, chunk size 1
116, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
117, published 1002 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
118, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
119, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
120, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
121, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
122, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
123, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
124, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
125, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
126, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
127, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
128, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
129, published 1000 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
130, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
131, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
132, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
133, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
134, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
135, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
136, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
137, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
138, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
139, published 1001 msg/s, confirmed 1002 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
140, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
141, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
142, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
143, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
144, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
145, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
146, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
147, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
148, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
149, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
150, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
151, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
152, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
153, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
154, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
155, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
156, published 1001 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
157, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
158, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
159, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/42/42 ms, chunk size 1
160, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/1/2/2 ms, chunk size 1
161, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
162, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
163, published 1002 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
164, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
165, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
166, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
167, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
168, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
169, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
170, published 1001 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
171, published 1000 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
172, published 1000 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
173, published 1001 msg/s, confirmed 1001 msg/s, consumed 1003 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
174, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
175, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
176, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
177, published 1000 msg/s, confirmed 1001 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
178, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
179, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
180, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
181, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
182, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
183, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 3/3/3/3 ms, chunk size 1
184, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
185, published 1001 msg/s, confirmed 1002 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
186, published 1000 msg/s, confirmed 999 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
187, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
188, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
189, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
190, published 1000 msg/s, confirmed 999 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
191, published 1000 msg/s, confirmed 1001 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
192, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 3/3/3/3 ms, chunk size 1
193, published 1001 msg/s, confirmed 1001 msg/s, consumed 1003 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
194, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
195, published 1000 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
196, published 1000 msg/s, confirmed 999 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
197, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
198, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
199, published 226 msg/s, confirmed 136 msg/s, consumed 137 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
10:26:07.908 [stream-perf-test-env-7] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Scheduling task 'Candidate lookup to publish to stream' with policy FixedWithInitialDelayBackOffPolicy{initialDelay=PT5S, delay=PT5S}
10:26:09.332 [rabbitmq-stream-consumer-connection-0] DEBUG c.r.stream.impl.ConsumersCoordinator - Received metadata notification for 'stream', stream is likely to have become unavailable
10:26:09.332 [rabbitmq-stream-consumer-connection-0] DEBUG c.r.stream.impl.ConsumersCoordinator - Subscription 0 was at offset 198264 (received something? true)
10:26:09.334 [stream-perf-test-env-8] DEBUG c.r.stream.impl.ConsumersCoordinator - Trying to move 1 subscription(s) (stream 'stream')
10:26:09.334 [stream-perf-test-env-8] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Scheduling task 'Candidate lookup to consume from 'stream'' with policy FixedWithInitialDelayBackOffPolicy{initialDelay=PT5S, delay=PT1S}
10:26:12.909 [stream-perf-test-env-7] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Retryable exception (IllegalStateException) for task 'Candidate lookup to publish to stream', scheduling another attempt
10:26:14.336 [stream-perf-test-env-3] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Retryable exception (IllegalStateException) for task 'Candidate lookup to consume from 'stream'', scheduling another attempt
10:26:15.337 [stream-perf-test-env-1] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Retryable exception (IllegalStateException) for task 'Candidate lookup to consume from 'stream'', scheduling another attempt
10:26:16.339 [stream-perf-test-env-6] DEBUG c.r.stream.impl.ConsumersCoordinator - Only leader node Broker{host='message-broker-server-1.message-broker-nodes.message-broker', port=5552} for consuming from stream
10:26:16.339 [stream-perf-test-env-6] DEBUG c.r.stream.impl.ConsumersCoordinator - Candidates to consume from stream: [Broker{host='message-broker-server-1.message-broker-nodes.message-broker', port=5552}]
10:26:16.339 [stream-perf-test-env-6] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Task 'Candidate lookup to consume from 'stream'' succeeded, completing future
10:26:16.339 [stream-perf-test-env-6] DEBUG c.r.stream.impl.ConsumersCoordinator - Using Broker{host='message-broker-server-1.message-broker-nodes.message-broker', port=5552} to resume consuming from stream
10:26:16.339 [stream-perf-test-env-6] DEBUG c.r.stream.impl.ConsumersCoordinator - Creating subscription manager on message-broker-server-1.message-broker-nodes.message-broker:5552
10:26:16.339 [stream-perf-test-env-6] DEBUG c.r.stream.impl.ConsumersCoordinator - creating subscription manager on message-broker-server-1.message-broker-nodes.message-broker:5552
10:26:17.911 [stream-perf-test-env-5] DEBUG com.rabbitmq.stream.impl.AsyncRetry - Task 'Candidate lookup to publish to stream' succeeded, completing future
10:26:26.353 [stream-perf-test-env-5] WARN  c.r.stream.impl.ProducersCoordinator - Error while re-assigning producer (stream 'stream')
com.rabbitmq.stream.StreamException: Error while creating stream connection to message-broker-server-1.message-broker-nodes.message-broker:5552. message-broker-server-1.message-broker-nodes.message-broker. This may be due to the usage of a load balancer that makes topology discovery fail. Use a custom AddressResolver or the --load-balancer flag if using StreamPerfTest. See https://rabbitmq.github.io/rabbitmq-stream-java-client/stable/htmlsingle/#understanding-connection-logic and https://blog.rabbitmq.com/posts/2021/07/connecting-to-streams/#with-a-load-balancer.
	at com.rabbitmq.stream.impl.Utils.lambda$coordinatorClientFactory$9(Utils.java:174)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:687)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:559)
	at com.rabbitmq.stream.impl.ProducersCoordinator.addToManager(ProducersCoordinator.java:159)
	at com.rabbitmq.stream.impl.ProducersCoordinator.access$1700(ProducersCoordinator.java:59)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.recoverAgent(ProducersCoordinator.java:757)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.maybeRecoverAgent(ProducersCoordinator.java:733)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$assignProducersToNewManagers$11(ProducersCoordinator.java:705)
	at java.base/java.util.concurrent.ConcurrentHashMap$KeySetView.forEach(ConcurrentHashMap.java:4706)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$assignProducersToNewManagers$12(ProducersCoordinator.java:705)
	at java.base/java.util.concurrent.CompletableFuture$UniAccept.tryFire(CompletableFuture.java:718)
	at java.base/java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:510)
	at java.base/java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:2147)
	at com.rabbitmq.stream.impl.AsyncRetry.lambda$new$0(AsyncRetry.java:57)
	at com.rabbitmq.stream.impl.Utils$NamedRunnable.run(Utils.java:493)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:304)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
	at java.base/java.lang.Thread.run(Thread.java:833)
Caused by: java.net.UnknownHostException: message-broker-server-1.message-broker-nodes.message-broker
	at java.base/java.net.InetAddress$CachedAddresses.get(InetAddress.java:827)
	at java.base/java.net.InetAddress$NameServiceAddresses.get(InetAddress.java:913)
	at java.base/java.net.InetAddress.getAllByName0(InetAddress.java:1559)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1411)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1332)
	at java.base/java.net.InetAddress.getByName(InetAddress.java:1282)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:156)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:153)
	at java.base/java.security.AccessController.doPrivileged(AccessController.java:569)
	at io.netty.util.internal.SocketUtils.addressByName(SocketUtils.java:153)
	at io.netty.resolver.DefaultNameResolver.doResolve(DefaultNameResolver.java:41)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:61)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:53)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:55)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:31)
	at io.netty.resolver.AbstractAddressResolver.resolve(AbstractAddressResolver.java:106)
	at io.netty.bootstrap.Bootstrap.doResolveAndConnect0(Bootstrap.java:220)
	at io.netty.bootstrap.Bootstrap.access$000(Bootstrap.java:46)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:189)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:175)
	at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:590)
	at io.netty.util.concurrent.DefaultPromise.notifyListenersNow(DefaultPromise.java:557)
	at io.netty.util.concurrent.DefaultPromise.notifyListeners(DefaultPromise.java:492)
	at io.netty.util.concurrent.DefaultPromise.setValue0(DefaultPromise.java:636)
	at io.netty.util.concurrent.DefaultPromise.setSuccess0(DefaultPromise.java:625)
	at io.netty.util.concurrent.DefaultPromise.trySuccess(DefaultPromise.java:105)
	at io.netty.channel.DefaultChannelPromise.trySuccess(DefaultChannelPromise.java:84)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.safeSetSuccess(AbstractChannel.java:990)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.register0(AbstractChannel.java:516)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.access$200(AbstractChannel.java:429)
	at io.netty.channel.AbstractChannel$AbstractUnsafe$1.run(AbstractChannel.java:486)
	at io.netty.util.concurrent.AbstractEventExecutor.runTask(AbstractEventExecutor.java:174)
	at io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:167)
	at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:470)
	at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:569)
	at io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:997)
	at io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
	at io.netty.util.concurrent.FastThreadLocalRunnable.run(FastThreadLocalRunnable.java:30)
	... 1 common frames omitted
10:26:26.353 [stream-perf-test-env-6] WARN  c.r.stream.impl.ConsumersCoordinator - Error while re-assigning subscription from stream stream
com.rabbitmq.stream.StreamException: Error while creating stream connection to message-broker-server-1.message-broker-nodes.message-broker:5552. message-broker-server-1.message-broker-nodes.message-broker: Name or service not known. This may be due to the usage of a load balancer that makes topology discovery fail. Use a custom AddressResolver or the --load-balancer flag if using StreamPerfTest. See https://rabbitmq.github.io/rabbitmq-stream-java-client/stable/htmlsingle/#understanding-connection-logic and https://blog.rabbitmq.com/posts/2021/07/connecting-to-streams/#with-a-load-balancer.
	at com.rabbitmq.stream.impl.Utils.lambda$coordinatorClientFactory$9(Utils.java:174)
	at com.rabbitmq.stream.impl.ConsumersCoordinator$ClientSubscriptionsManager.<init>(ConsumersCoordinator.java:774)
	at com.rabbitmq.stream.impl.ConsumersCoordinator$ClientSubscriptionsManager.<init>(ConsumersCoordinator.java:536)
	at com.rabbitmq.stream.impl.ConsumersCoordinator.addToManager(ConsumersCoordinator.java:185)
	at com.rabbitmq.stream.impl.ConsumersCoordinator.access$2100(ConsumersCoordinator.java:56)
	at com.rabbitmq.stream.impl.ConsumersCoordinator$ClientSubscriptionsManager.recoverSubscription(ConsumersCoordinator.java:867)
	at com.rabbitmq.stream.impl.ConsumersCoordinator$ClientSubscriptionsManager.maybeRecoverSubscription(ConsumersCoordinator.java:834)
	at com.rabbitmq.stream.impl.ConsumersCoordinator$ClientSubscriptionsManager.lambda$assignConsumersToStream$14(ConsumersCoordinator.java:809)
	at java.base/java.util.concurrent.CompletableFuture$UniAccept.tryFire(CompletableFuture.java:718)
	at java.base/java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:510)
	at java.base/java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:2147)
	at com.rabbitmq.stream.impl.AsyncRetry.lambda$new$0(AsyncRetry.java:57)
	at com.rabbitmq.stream.impl.Utils$NamedRunnable.run(Utils.java:493)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:304)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
	at java.base/java.lang.Thread.run(Thread.java:833)
Caused by: java.net.UnknownHostException: message-broker-server-1.message-broker-nodes.message-broker: Name or service not known
	at java.base/java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method)
	at java.base/java.net.InetAddress$PlatformNameService.lookupAllHostAddr(InetAddress.java:960)
	at java.base/java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1569)
	at java.base/java.net.InetAddress$NameServiceAddresses.get(InetAddress.java:878)
	at java.base/java.net.InetAddress.getAllByName0(InetAddress.java:1559)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1411)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1332)
	at java.base/java.net.InetAddress.getByName(InetAddress.java:1282)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:156)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:153)
	at java.base/java.security.AccessController.doPrivileged(AccessController.java:569)
	at io.netty.util.internal.SocketUtils.addressByName(SocketUtils.java:153)
	at io.netty.resolver.DefaultNameResolver.doResolve(DefaultNameResolver.java:41)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:61)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:53)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:55)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:31)
	at io.netty.resolver.AbstractAddressResolver.resolve(AbstractAddressResolver.java:106)
	at io.netty.bootstrap.Bootstrap.doResolveAndConnect0(Bootstrap.java:220)
	at io.netty.bootstrap.Bootstrap.access$000(Bootstrap.java:46)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:189)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:175)
	at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:590)
	at io.netty.util.concurrent.DefaultPromise.notifyListenersNow(DefaultPromise.java:557)
	at io.netty.util.concurrent.DefaultPromise.notifyListeners(DefaultPromise.java:492)
	at io.netty.util.concurrent.DefaultPromise.setValue0(DefaultPromise.java:636)
	at io.netty.util.concurrent.DefaultPromise.setSuccess0(DefaultPromise.java:625)
	at io.netty.util.concurrent.DefaultPromise.trySuccess(DefaultPromise.java:105)
	at io.netty.channel.DefaultChannelPromise.trySuccess(DefaultChannelPromise.java:84)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.safeSetSuccess(AbstractChannel.java:990)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.register0(AbstractChannel.java:516)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.access$200(AbstractChannel.java:429)
	at io.netty.channel.AbstractChannel$AbstractUnsafe$1.run(AbstractChannel.java:486)
	at io.netty.util.concurrent.AbstractEventExecutor.runTask(AbstractEventExecutor.java:174)
	at io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:167)
	at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:470)
	at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:569)
	at io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:997)
	at io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
	at io.netty.util.concurrent.FastThreadLocalRunnable.run(FastThreadLocalRunnable.java:30)
	... 1 common frames omitted
10:26:26.356 [stream-perf-test-env-6] DEBUG c.r.stream.impl.ConsumersCoordinator - Closing consumer subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552, id 0
10:26:26.357 [stream-perf-test-env-5] WARN  c.r.stream.impl.ProducersCoordinator - Error while re-assigning tracking consumer (stream 'stream')
com.rabbitmq.stream.StreamException: Error while creating stream connection to message-broker-server-1.message-broker-nodes.message-broker:5552. message-broker-server-1.message-broker-nodes.message-broker. This may be due to the usage of a load balancer that makes topology discovery fail. Use a custom AddressResolver or the --load-balancer flag if using StreamPerfTest. See https://rabbitmq.github.io/rabbitmq-stream-java-client/stable/htmlsingle/#understanding-connection-logic and https://blog.rabbitmq.com/posts/2021/07/connecting-to-streams/#with-a-load-balancer.
	at com.rabbitmq.stream.impl.Utils.lambda$coordinatorClientFactory$9(Utils.java:174)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:687)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.<init>(ProducersCoordinator.java:559)
	at com.rabbitmq.stream.impl.ProducersCoordinator.addToManager(ProducersCoordinator.java:159)
	at com.rabbitmq.stream.impl.ProducersCoordinator.access$1700(ProducersCoordinator.java:59)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.recoverAgent(ProducersCoordinator.java:757)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.maybeRecoverAgent(ProducersCoordinator.java:733)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$assignProducersToNewManagers$11(ProducersCoordinator.java:705)
	at java.base/java.util.concurrent.ConcurrentHashMap$KeySetView.forEach(ConcurrentHashMap.java:4706)
	at com.rabbitmq.stream.impl.ProducersCoordinator$ClientProducersManager.lambda$assignProducersToNewManagers$12(ProducersCoordinator.java:705)
	at java.base/java.util.concurrent.CompletableFuture$UniAccept.tryFire(CompletableFuture.java:718)
	at java.base/java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:510)
	at java.base/java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:2147)
	at com.rabbitmq.stream.impl.AsyncRetry.lambda$new$0(AsyncRetry.java:57)
	at com.rabbitmq.stream.impl.Utils$NamedRunnable.run(Utils.java:493)
	at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:539)
	at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
	at java.base/java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:304)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635)
	at java.base/java.lang.Thread.run(Thread.java:833)
Caused by: java.net.UnknownHostException: message-broker-server-1.message-broker-nodes.message-broker
	at java.base/java.net.InetAddress$CachedAddresses.get(InetAddress.java:827)
	at java.base/java.net.InetAddress.getAllByName0(InetAddress.java:1559)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1411)
	at java.base/java.net.InetAddress.getAllByName(InetAddress.java:1332)
	at java.base/java.net.InetAddress.getByName(InetAddress.java:1282)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:156)
	at io.netty.util.internal.SocketUtils$8.run(SocketUtils.java:153)
	at java.base/java.security.AccessController.doPrivileged(AccessController.java:569)
	at io.netty.util.internal.SocketUtils.addressByName(SocketUtils.java:153)
	at io.netty.resolver.DefaultNameResolver.doResolve(DefaultNameResolver.java:41)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:61)
	at io.netty.resolver.SimpleNameResolver.resolve(SimpleNameResolver.java:53)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:55)
	at io.netty.resolver.InetSocketAddressResolver.doResolve(InetSocketAddressResolver.java:31)
	at io.netty.resolver.AbstractAddressResolver.resolve(AbstractAddressResolver.java:106)
	at io.netty.bootstrap.Bootstrap.doResolveAndConnect0(Bootstrap.java:220)
	at io.netty.bootstrap.Bootstrap.access$000(Bootstrap.java:46)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:189)
	at io.netty.bootstrap.Bootstrap$1.operationComplete(Bootstrap.java:175)
	at io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:590)
	at io.netty.util.concurrent.DefaultPromise.notifyListenersNow(DefaultPromise.java:557)
	at io.netty.util.concurrent.DefaultPromise.notifyListeners(DefaultPromise.java:492)
	at io.netty.util.concurrent.DefaultPromise.setValue0(DefaultPromise.java:636)
	at io.netty.util.concurrent.DefaultPromise.setSuccess0(DefaultPromise.java:625)
	at io.netty.util.concurrent.DefaultPromise.trySuccess(DefaultPromise.java:105)
	at io.netty.channel.DefaultChannelPromise.trySuccess(DefaultChannelPromise.java:84)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.safeSetSuccess(AbstractChannel.java:990)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.register0(AbstractChannel.java:516)
	at io.netty.channel.AbstractChannel$AbstractUnsafe.access$200(AbstractChannel.java:429)
	at io.netty.channel.AbstractChannel$AbstractUnsafe$1.run(AbstractChannel.java:486)
	at io.netty.util.concurrent.AbstractEventExecutor.runTask(AbstractEventExecutor.java:174)
	at io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:167)
	at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:470)
	at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:569)
	at io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:997)
	at io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
	at io.netty.util.concurrent.FastThreadLocalRunnable.run(FastThreadLocalRunnable.java:30)
	... 1 common frames omitted

I restarted the pod where the PerfTool was running, and then the PerfTool could establish the connections to the nodes, which it couldn't reach before. Output below:

p.s. I let the state of the cluster as it is, that means, I didn't turn-on the VM where the message-broker-server-0, was running, the cluster was running only with two nodes: message-broker-server-1 leader, message-broker-server-2 follower.

PerfTool output second time

10:28:47.040 [main] DEBUG com.rabbitmq.stream.impl.Utils - Expected client message-broker-server-1.message-broker-nodes.message-broker:5552, got message-broker-server-1.message-broker-nodes.message-broker:5552: success
10:28:47.044 [main] DEBUG com.rabbitmq.stream.impl.Utils - Operation 'Declare publisher request for publisher 0 on stream 'stream'' completed in 0 ms after 1 attempt(s)
Monitoring endpoints started on http://localhost:8080
10:28:47.078 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Replicas for consuming from stream: [Broker{host='message-broker-server-2.message-broker-nodes.message-broker', port=5552}]
10:28:47.078 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Candidates to consume from stream: [Broker{host='message-broker-server-2.message-broker-nodes.message-broker', port=5552}]
10:28:47.079 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Creating subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552
10:28:47.081 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - creating subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552
10:28:47.094 [main] DEBUG com.rabbitmq.stream.impl.Utils - Expected client message-broker-server-2.message-broker-nodes.message-broker:5552, got message-broker-server-2.message-broker-nodes.message-broker:5552: success
10:28:47.094 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Created consumer connection 'stream-perf-test-consumer-0'
10:28:47.094 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Created subscription manager on message-broker-server-2.message-broker-nodes.message-broker:5552, id 0
10:28:47.094 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Subscribing to stream, requested offset specification is OffsetSpecification{type=3, offset=-1}, offset tracking reference is stream-1, properties are {name=stream-1, single-active-consumer=true}
10:28:47.097 [main] DEBUG com.rabbitmq.stream.impl.Utils - Operation 'Offset query for consumer 0 on stream 'stream' (reference stream-1)' completed in 1 ms after 1 attempt(s)
10:28:47.097 [main] INFO  c.r.stream.impl.ConsumersCoordinator - Computed offset specification OffsetSpecification{type=3, offset=-1}, offset specification used after subscription listener OffsetSpecification{type=3, offset=-1}
10:28:47.100 [main] DEBUG com.rabbitmq.stream.impl.Utils - Operation 'Subscribe request for consumer 0 on stream 'stream'' completed in 0 ms after 1 attempt(s)
10:28:47.100 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Subscribed to 'stream'
10:28:47.100 [main] DEBUG c.r.stream.impl.ConsumersCoordinator - Assigned tracker 0 (stream 'stream') to manager 0 (node message-broker-server-2.message-broker-nodes.message-broker:5552), subscription ID 0
Starting producer
1, published 1082 msg/s, confirmed 1082 msg/s, consumed 1080 msg/s, latency median/75th/95th/99th 2/3/4/4 ms, chunk size 1
2, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
3, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
4, published 1002 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
5, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
6, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
7, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
8, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
9, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
10, published 1001 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
11, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
12, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
13, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
14, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
15, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
16, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
17, published 990 msg/s, confirmed 983 msg/s, consumed 948 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
18, published 1011 msg/s, confirmed 1018 msg/s, consumed 1053 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
19, published 1001 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
20, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
21, published 999 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
22, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
23, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
24, published 1002 msg/s, confirmed 1002 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
25, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
26, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
27, published 1001 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
28, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
29, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/1/1/1 ms, chunk size 1
30, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/1/3/3 ms, chunk size 1
31, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
32, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
33, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
34, published 1000 msg/s, confirmed 1000 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
35, published 1002 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
36, published 1000 msg/s, confirmed 1000 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
37, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
38, published 1000 msg/s, confirmed 999 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
39, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
40, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
41, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
42, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
43, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
44, published 1000 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
45, published 1000 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/3/4/4 ms, chunk size 1
46, published 1001 msg/s, confirmed 1000 msg/s, consumed 999 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1
47, published 1000 msg/s, confirmed 1001 msg/s, consumed 1003 msg/s, latency median/75th/95th/99th 1/2/4/4 ms, chunk size 1
48, published 1001 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
49, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
50, published 999 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
51, published 1001 msg/s, confirmed 1001 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 1/3/3/3 ms, chunk size 1
52, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 1/2/3/3 ms, chunk size 1
53, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
54, published 1001 msg/s, confirmed 1002 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
55, published 1001 msg/s, confirmed 1000 msg/s, consumed 1002 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
56, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
57, published 1000 msg/s, confirmed 1001 msg/s, consumed 998 msg/s, latency median/75th/95th/99th 2/3/3/3 ms, chunk size 1
58, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
59, published 1001 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
60, published 1000 msg/s, confirmed 1000 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/2/2 ms, chunk size 1
61, published 1000 msg/s, confirmed 1000 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
62, published 1001 msg/s, confirmed 1001 msg/s, consumed 1001 msg/s, latency median/75th/95th/99th 2/2/3/3 ms, chunk size 1
63, published 1000 msg/s, confirmed 1001 msg/s, consumed 1000 msg/s, latency median/75th/95th/99th 1/2/2/2 ms, chunk size 1

kjnilsson · 2023-09-01T14:24:12Z

kjnilsson
Sep 1, 2023
Maintainer

As already been mentioned, sreams rely on erlang monitors for failure detection. Erlang monitors of processes on a remote node in the case of network partitions rely on the erlang distribution connection to time out before monitors are sent. This could, by default, take around a minute . This is what we see in this case. As the nodes are force stopped they leave dangling erlang distribution TCP connections on the other nodes. The nodes don't know a node is gone as they rely on the TCP connection for this and it looks like it is still there.

The only viable option here is lower the net_ticktime and net_tickintensity settings, however, this typically works very badly with the current meta data store (mnesia) so I would not recommend this. It is possible that with the new meta datastore (khepri) in 3.13 we could lower these settings and thus lower the time it takes to detect a partitioned node. It will will never be as good or fast as quorum queues.

Of course a more orderly shutdown procedure where the server being shut down has enough time to send FIN or RST packets (as would be used for upgrades / maintenance etc) so that the remotes can detect the connection is lost will not have this undue delay and detection will be near instantaneous.

5 replies

albionb96 Sep 7, 2023
Author

@kjnilsson following your hint regarding the quorum queues, I replaced the streams with quorum queues for a moment and tested my setup quite intensively in the last 2-3 days. I used perf-tool version 2.19.0 both as jar running on a host outside Kubernetes and as image inside Kubernetes.

During these tests I noticed some things which I will mention below:

Firstly during these tests I had overall down-times varying from 10 seconds up to 50 seconds. I think one of the reasons why these downtimes were varying so much is because of the type of the connections that were on the node which was being switched off. For example, if the node had only the configuration connection then the down-time would be much shorter, but if the node had the producer connection then this mostly took longer.
Which brings me to another point that I noticed using the perf-tool-2.19.0 (AMQP):

It happened very often that:
- the producer connection wasn't on the leader node,
- both consumer and the producer connections were on the same node,
- all three connections were on the same node.
I don't know if this should be considered as a bug on the perf-tool-2.19.0?
At the beginning I thought that the time needed to notice that the leader is down and to elect a new leader was almost instantaneous (2-4seconds) based on the RMQ logs on the surviving nodes, but after analyzing the traffic and the metrics of the perf tool a little bit more in detail, I noticed that this time is bigger. It is hard to say how much because you never know when the shut-down really happened but I would say it takes around 8-10 seconds to notice that the leader node is down and to elect the new leader.

I have a question regarding this. Is this time based on the net_tick_time or something else for the quorum queues, and can this be further reduced?
When I run the perf-tool as container in the Kubernetes it took longer to recover from the failures, as when I run the perf tool as jar on an external host although in this case we have a loadbalancer in between. Also the traffic was very chaotic in the case of contianer. I will post some details from both test-cases below.
I don't know if this should be considered as bug in the perf-tool?

First example:

Running the perf-tool-2.19.0, outside Kubernetes as jar file.

java -jar perf-test-2.19.0.jar --uri amqp://user:pass@load_balancer_ip:5672 --quorum-queue --rate 1000 --size 1024 --queue queue-0 --producers 1 --consumers 1 -a --metrics-prometheus --queue-args 'max-length-bytes=2000000000'

Perftool output

id: test-131324-767, time 3328.002 s, sent: 1002 msg/s, received: 744 msg/s, min/median/75th/95th/99th consumer latency: 2000/2707/2989/3237/3536 µs
id: test-131324-767, time 3329.002 s, sent: 216 msg/s, received: 0 msg/s, min/median/75th/95th/99th consumer latency: 0/0/0/0/0 µs
14:09:01.793 [AMQP Connection load_balancer_ip:5672] ERROR c.r.perf.RelaxedExceptionHandler - An unexpected connection driver error occurred
com.rabbitmq.client.MissedHeartbeatException: Heartbeat missing with heartbeat = 4 seconds
        at com.rabbitmq.client.impl.AMQConnection.handleSocketTimeout(AMQConnection.java:847)
        at com.rabbitmq.client.impl.AMQConnection.readFrame(AMQConnection.java:747)
        at com.rabbitmq.client.impl.AMQConnection.access$300(AMQConnection.java:47)
        at com.rabbitmq.client.impl.AMQConnection$MainLoop.run(AMQConnection.java:666)
        at java.base/java.lang.Thread.run(Thread.java:829)
14:09:01.851 [AMQP Connection load_balancer_ip:5672] ERROR c.r.perf.RelaxedExceptionHandler - An unexpected connection driver error occurred
com.rabbitmq.client.MissedHeartbeatException: Heartbeat missing with heartbeat = 4 seconds
        at com.rabbitmq.client.impl.AMQConnection.handleSocketTimeout(AMQConnection.java:847)
        at com.rabbitmq.client.impl.AMQConnection.readFrame(AMQConnection.java:747)
        at com.rabbitmq.client.impl.AMQConnection.access$300(AMQConnection.java:47)
        at com.rabbitmq.client.impl.AMQConnection$MainLoop.run(AMQConnection.java:666)
        at java.base/java.lang.Thread.run(Thread.java:829)
14:09:01.986 [AMQP Connection load_balancer_ip:5672] ERROR c.r.perf.RelaxedExceptionHandler - An unexpected connection driver error occurred
com.rabbitmq.client.MissedHeartbeatException: Heartbeat missing with heartbeat = 4 seconds
        at com.rabbitmq.client.impl.AMQConnection.handleSocketTimeout(AMQConnection.java:847)
        at com.rabbitmq.client.impl.AMQConnection.readFrame(AMQConnection.java:747)
        at com.rabbitmq.client.impl.AMQConnection.access$300(AMQConnection.java:47)
        at com.rabbitmq.client.impl.AMQConnection$MainLoop.run(AMQConnection.java:666)
        at java.base/java.lang.Thread.run(Thread.java:829)
id: test-131324-767, time 3343.002 s, sent: 0 msg/s, received: 0.29 msg/s, min/median/75th/95th/99th consumer latency: 15025685/15027389/15027672/15027672/15027672 µs
14:09:11.893 [RabbitMQ Error On Write Thread] ERROR c.r.perf.RelaxedExceptionHandler - An unexpected connection driver error occurred
java.net.SocketException: Connection reset by peer: socket write error
        at java.base/java.net.SocketOutputStream.socketWrite0(Native Method)
        at java.base/java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:110)
        at java.base/java.net.SocketOutputStream.write(SocketOutputStream.java:150)
        at java.base/java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:81)
        at java.base/java.io.BufferedOutputStream.flush(BufferedOutputStream.java:142)
        at java.base/java.io.DataOutputStream.flush(DataOutputStream.java:123)
        at com.rabbitmq.client.impl.SocketFrameHandler.flush(SocketFrameHandler.java:197)
        at com.rabbitmq.client.impl.AMQConnection.flush(AMQConnection.java:636)
        at com.rabbitmq.client.impl.AMQCommand.transmit(AMQCommand.java:134)
        at com.rabbitmq.client.impl.AMQChannel.quiescingTransmit(AMQChannel.java:455)
        at com.rabbitmq.client.impl.AMQChannel.transmit(AMQChannel.java:428)
        at com.rabbitmq.client.impl.ChannelN.basicPublish(ChannelN.java:710)
        at com.rabbitmq.client.impl.recovery.AutorecoveringChannel.basicPublish(AutorecoveringChannel.java:217)
        at com.rabbitmq.perf.Producer.publish(Producer.java:606)
        at com.rabbitmq.perf.Producer.lambda$handlePublish$26(Producer.java:537)
        at com.rabbitmq.perf.AgentBase.dealWithWriteOperation(AgentBase.java:82)
        at com.rabbitmq.perf.Producer.handlePublish(Producer.java:537)
        at com.rabbitmq.perf.Producer.run(Producer.java:390)
        at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:515)
        at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
        at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1128)
        at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:628)
        at java.base/java.lang.Thread.run(Thread.java:829)
id: test-131324-767, time 3347.001 s, sent: 2.5 msg/s, received: 0 msg/s, min/median/75th/95th/99th consumer latency: 0/0/0/0/0 µs
id: test-131324-767, time 3353.001 s, sent: 223 msg/s, received: 223 msg/s, min/median/75th/95th/99th consumer latency: 2104/19762/26686/34730/35017 µs
id: test-131324-767, time 3354.001 s, sent: 1000 msg/s, received: 1002 msg/s, min/median/75th/95th/99th consumer latency: 1904/2902/3226/3761/4550 µs

RMQ Logs from surviving nodes

Logs from node 0:

2023-09-07 13:09:01.290663+00:00 [notice] <0.552.0> queue 'queue-0' in vhost '/': candidate -> leader in term: 4 machine version: 3
2023-09-07 13:09:02.589943+00:00 [error] <0.233.0> ** Node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' not responding **
2023-09-07 13:09:02.589943+00:00 [error] <0.233.0> ** Removing (timedout) connection **
2023-09-07 13:09:02.589943+00:00 [error] <0.233.0>
2023-09-07 13:09:02.590244+00:00 [info] <0.499.0> rabbit on node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down
2023-09-07 13:09:02.590312+00:00 [warning] <0.2643.0> Management delegate query returned errors:
2023-09-07 13:09:02.590312+00:00 [warning] <0.2643.0> [{<16980.618.0>,
2023-09-07 13:09:02.590312+00:00 [warning] <0.2643.0> {exit,{nodedown,'rabbit@message-broker-server-1.message-broker-nodes.message-broker'},
2023-09-07 13:09:02.590312+00:00 [warning] <0.2643.0> []}}]
2023-09-07 13:09:02.592207+00:00 [warning] <0.7583.0> Description: "Server authenticity is not verified since certificate path validation is not enabled"
2023-09-07 13:09:02.592207+00:00 [warning] <0.7583.0> Reason: "The option {verify, verify_peer} and one of the options 'cacertfile' or 'cacerts' are required to enable this."
2023-09-07 13:09:02.592207+00:00 [warning] <0.7583.0>
2023-09-07 13:09:02.596086+00:00 [info] <0.499.0> node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down: net_tick_timeout
2023-09-07 13:09:07.922055+00:00 [info] <0.7610.0> accepting AMQP connection <0.7610.0> (10.128.9.136:55383 -> 10.128.15.50:5672)
2023-09-07 13:09:07.923674+00:00 [info] <0.7610.0> connection <0.7610.0> (10.128.9.136:55383 -> 10.128.15.50:5672) has a client-provided name: perf-test-consumer-0
2023-09-07 13:09:07.924670+00:00 [info] <0.7610.0> connection <0.7610.0> (10.128.9.136:55383 -> 10.128.15.50:5672 - perf-test-consumer-0): user 'admin' authenticated and granted access to vhost '/'
2023-09-07 13:09:16.821311+00:00 [info] <0.7661.0> accepting AMQP connection <0.7661.0> (10.128.9.136:55392 -> 10.128.15.50:5672)
2023-09-07 13:09:16.822860+00:00 [info] <0.7661.0> connection <0.7661.0> (10.128.9.136:55392 -> 10.128.15.50:5672) has a client-provided name: perf-test-producer-0
2023-09-07 13:09:16.823975+00:00 [info] <0.7661.0> connection <0.7661.0> (10.128.9.136:55392 -> 10.128.15.50:5672 - perf-test-producer-0): user 'admin' authenticated and granted access to vhost '/'


Logs from node 2:

2023-09-07 13:09:01.804654+00:00 [info] <0.551.0> queue 'queue-0' in vhost '/': granting vote for {'%2F_queue-0','rabbit@message-broker-server-0.message-broker-nodes.message-broker'} with last indexterm {6595881,3} for term 4 previous term was 3
2023-09-07 13:09:01.808473+00:00 [info] <0.551.0> queue 'queue-0' in vhost '/': detected a new leader {'%2F_queue-0','rabbit@message-broker-server-0.message-broker-nodes.message-broker'} in term 4
2023-09-07 13:09:02.806719+00:00 [error] <0.233.0> ** Node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' not responding **
2023-09-07 13:09:02.806719+00:00 [error] <0.233.0> ** Removing (timedout) connection **
2023-09-07 13:09:02.806719+00:00 [error] <0.233.0>
2023-09-07 13:09:02.807034+00:00 [info] <0.498.0> rabbit on node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down
2023-09-07 13:09:02.808981+00:00 [warning] <0.5046.0> Description: "Server authenticity is not verified since certificate path validation is not enabled"
2023-09-07 13:09:02.808981+00:00 [warning] <0.5046.0> Reason: "The option {verify, verify_peer} and one of the options 'cacertfile' or 'cacerts' are required to enable this."
2023-09-07 13:09:02.808981+00:00 [warning] <0.5046.0>
2023-09-07 13:09:02.813079+00:00 [info] <0.498.0> node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down: net_tick_timeout
2023-09-07 13:09:08.245522+00:00 [info] <0.5076.0> accepting AMQP connection <0.5076.0> (10.128.9.136:55382 -> 10.128.17.148:5672)
2023-09-07 13:09:08.247312+00:00 [info] <0.5076.0> connection <0.5076.0> (10.128.9.136:55382 -> 10.128.17.148:5672) has a client-provided name: perf-test-configuration-0
2023-09-07 13:09:08.248407+00:00 [info] <0.5076.0> connection <0.5076.0> (10.128.9.136:55382 -> 10.128.17.148:5672 - perf-test-configuration-0): user 'admin' authenticated and granted access to vhost '/'

Traffic output

Last time the old leader responded, but before that it was sending such messages every 2-4 seconds which I assume are heartbeat responses.
Sep  7 13:08:51.532: <some_ip>:53733 (remote-node) <- message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)


Sep  7 13:08:51.549: <external_perf_tool_ip>:52632 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:51.915: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:51.989: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:52.379: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:52.455: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:53.470: <external_perf_tool_ip>:52632 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:53.835: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:53.991: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:54.304: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:54.456: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:55.989: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:56.456: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:57.311: <external_perf_tool_ip>:52632 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:57.675: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:57.989: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:08:58.145: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Closing 2 of the connections from the old leader.
Sep  7 13:08:59.441: <external_perf_tool_ip>:53733 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, RST)
Sep  7 13:08:59.635: <external_perf_tool_ip>:52923 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, RST)

Establishing the configuration connection to the follower node.
Sep  7 13:09:04.442: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: SYN, ECE, CWR)
Sep  7 13:09:04.443: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:04.443: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.445: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.446: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.446: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.446: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.447: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.458: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK)

Establishing the consumer connection to the leader node.
Sep  7 13:09:04.636: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: SYN, ECE, CWR)
Sep  7 13:09:04.637: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:04.637: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.638: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.639: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.639: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.640: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.641: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.642: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.642: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.643: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.644: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.645: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.645: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.646: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.646: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:04.649: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:04.649: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)

Client still tries to contact the old leader.
Sep  7 13:09:04.991: <external_perf_tool_ip>:52632 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Sep  7 13:09:06.456: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:06.650: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:08.446: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:08.458: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK)

Closing the last connection to the old leader
Sep  7 13:09:08.531: <external_perf_tool_ip>:52632 (world) -> message-broker/message-broker-server-1:5672 (ID:11601) to-overlay FORWARDED (TCP Flags: ACK, RST)

Sep  7 13:09:08.640: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:08.651: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:10.446: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:10.458: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:10.640: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:10.652: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:12.446: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:12.459: <external_perf_tool_ip>:55382 (world) -> message-broker/message-broker-server-2:5672 (ID:39678) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:12.640: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:12.653: <external_perf_tool_ip>:55383 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)

Establishing the producer connection to the leader node.
Sep  7 13:09:13.535: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: SYN, ECE, CWR)
Sep  7 13:09:13.536: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)
Sep  7 13:09:13.536: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.537: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.538: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.538: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.539: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.540: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.541: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.542: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  7 13:09:13.553: <external_perf_tool_ip>:55392 (world) -> message-broker/message-broker-server-0:5672 (ID:47627) to-overlay FORWARDED (TCP Flags: ACK)

In this test-case all three connection were on the leader node, we see that it took overall approx. 24seconds, and the RMQ logs tell that the new leader was elected very fast, but when we see the traffic and the perftool metrics, we see that it took 8-10 seconds to notice that the leader is gone and to elect the new one. We also notice that it took the longest for the production connection to be re-established at the end.

Second example

Running perf-tool-2.18.0 inside Kubernetes. I started same tests with perf-tool-2.19.0 and the output was the same.

Perftool as pod

containers:
      - name: rabbitmq-perf-test
        args:
        - --uri
        - amqp://user:pass@message-broker
        - --quorum-queue
        - --rate
        - '1000'
        - --size
        - '1024'
        - --queue
        - queue-0
        - --producers
        - '1'
        - --consumers
        - '1'
        - --autoack
        - --metrics-prometheus
        - --queue-args
        - 'max-length-bytes=2000000000'
        image: pivotalrabbitmq/perf-test:2.18.0

RMQ Logs from surviving nodes

Logs from node 2:

2023-09-06 10:15:07.771563+00:00 [info] <0.550.0> queue 'queue-0' in vhost '/': granting vote for {'%2F_queue-0','rabbit@message-broker-server-0.message-broker-nodes.message-broker'} with last indexterm {3709431,2} for term 3 previous term was 2
2023-09-06 10:15:07.775808+00:00 [info] <0.550.0> queue 'queue-0' in vhost '/': detected a new leader {'%2F_queue-0','rabbit@message-broker-server-0.message-broker-nodes.message-broker'} in term 3
2023-09-06 10:15:12.009874+00:00 [error] <0.235.0> ** Node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' not responding **
2023-09-06 10:15:12.009874+00:00 [error] <0.235.0> ** Removing (timedout) connection **
2023-09-06 10:15:12.009874+00:00 [error] <0.235.0>
2023-09-06 10:15:12.010159+00:00 [info] <0.497.0> rabbit on node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down
2023-09-06 10:15:12.012003+00:00 [warning] <0.16325.0> Description: "Server authenticity is not verified since certificate path validation is not enabled"
2023-09-06 10:15:12.012003+00:00 [warning] <0.16325.0> Reason: "The option {verify, verify_peer} and one of the options 'cacertfile' or 'cacerts' are required to enable this."
2023-09-06 10:15:12.012003+00:00 [warning] <0.16325.0>
2023-09-06 10:15:12.015207+00:00 [info] <0.497.0> node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down: net_tick_timeout
2023-09-06 10:15:58.259517+00:00 [info] <0.16492.0> accepting AMQP connection <0.16492.0> (10.128.8.18:41136 -> 10.128.17.71:5672)
2023-09-06 10:15:58.261055+00:00 [info] <0.16492.0> connection <0.16492.0> (10.128.8.18:41136 -> 10.128.17.71:5672) has a client-provided name: perf-test-producer-0
2023-09-06 10:15:58.262448+00:00 [info] <0.16492.0> connection <0.16492.0> (10.128.8.18:41136 -> 10.128.17.71:5672 - perf-test-producer-0): user 'admin' authenticated and granted access to vhost '/'


Logs from node 0:

2023-09-06 10:15:07.797079+00:00 [notice] <0.552.0> queue 'queue-0' in vhost '/': candidate -> leader in term: 3 machine version: 3
2023-09-06 10:15:11.409586+00:00 [error] <0.180.0> ** Node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' not responding **
2023-09-06 10:15:11.409586+00:00 [error] <0.180.0> ** Removing (timedout) connection **
2023-09-06 10:15:11.409586+00:00 [error] <0.180.0>
2023-09-06 10:15:11.409868+00:00 [info] <0.499.0> rabbit on node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down
2023-09-06 10:15:11.412241+00:00 [warning] <0.17880.0> Description: "Server authenticity is not verified since certificate path validation is not enabled"
2023-09-06 10:15:11.412241+00:00 [warning] <0.17880.0> Reason: "The option {verify, verify_peer} and one of the options 'cacertfile' or 'cacerts' are required to enable this."
2023-09-06 10:15:11.412241+00:00 [warning] <0.17880.0>
2023-09-06 10:15:11.415683+00:00 [info] <0.499.0> node 'rabbit@message-broker-server-1.message-broker-nodes.message-broker' down: net_tick_timeout
2023-09-06 10:15:15.591515+00:00 [info] <0.17904.0> accepting AMQP connection <0.17904.0> (10.128.8.18:42642 -> 10.128.14.108:5672)
2023-09-06 10:15:15.593546+00:00 [info] <0.17904.0> connection <0.17904.0> (10.128.8.18:42642 -> 10.128.14.108:5672) has a client-provided name: perf-test-configuration-0
2023-09-06 10:15:15.594526+00:00 [info] <0.17904.0> connection <0.17904.0> (10.128.8.18:42642 -> 10.128.14.108:5672 - perf-test-configuration-0): user 'admin' authenticated and granted access to vhost '/'
2023-09-06 10:15:47.133505+00:00 [info] <0.17995.0> accepting AMQP connection <0.17995.0> (10.128.8.18:42626 -> 10.128.14.108:5672)
2023-09-06 10:15:47.134892+00:00 [info] <0.17995.0> connection <0.17995.0> (10.128.8.18:42626 -> 10.128.14.108:5672) has a client-provided name: perf-test-consumer-0
2023-09-06 10:15:47.135732+00:00 [info] <0.17995.0> connection <0.17995.0> (10.128.8.18:42626 -> 10.128.14.108:5672 - perf-test-consumer-0): user 'admin' authenticated and granted access to vhost '/'

Traffic output

The last time the leader responded
Sep  6 10:14:56.405: message-broker/perf-test-xsxj5:60116 (ID:2319) <- message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK)
Sep  6 10:14:56.461: message-broker/perf-test-xsxj5:60130 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:14:56.461: message-broker/perf-test-xsxj5:60130 (ID:2319) <- message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK)
Sep  6 10:14:56.461: message-broker/perf-test-xsxj5:60122 (ID:2319) <- message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Client tries to contact the three ports on the old leader
Sep  6 10:14:56.462: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-endpoint FORWARDED (TCP Flags: ACK)
Sep  6 10:14:59.106: message-broker/perf-test-xsxj5:60130 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:14:59.274: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:14:59.282: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:05.890: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:05.890: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)


The first time the FIN flag is send to 60116 and 60122 connections of the old leader.
Sep  6 10:15:06.561: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:06.617: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:10.882: message-broker/perf-test-xsxj5:60130 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:12.418: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:12.418: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)

Tries to establish a new connection to the old leader
Sep  6 10:15:12.619: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: SYN)

Starts contacting the new leader. The first connection is established.
Sep  6 10:15:12.620: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: SYN)
Sep  6 10:15:12.620: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: SYN, ACK)
Sep  6 10:15:12.620: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK)
Sep  6 10:15:12.621: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:12.622: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:15.590: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: SYN)
Sep  6 10:15:15.590: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: SYN, ACK)
Sep  6 10:15:15.590: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK)
Sep  6 10:15:15.591: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:15.592: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:18.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:18.626: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)

Tries to establish a new connection to the old leader for the second time
Sep  6 10:15:19.715: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: SYN)

Sep  6 10:15:21.594: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:21.596: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Still no FIN flag on the 60130 port of the old leader.
Sep  6 10:15:24.194: message-broker/perf-test-xsxj5:60130 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Sep  6 10:15:24.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:24.629: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)

Another FIN flag is send to 60116 and 60122 connections of the old leader.
Sep  6 10:15:25.730: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:25.730: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)


Sep  6 10:15:27.594: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:27.599: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Tries to establish a new connection to the old leader for the third time
Sep  6 10:15:27.778: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-1:5672 (ID:33487) to-overlay FORWARDED (TCP Flags: SYN)

Sep  6 10:15:30.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:30.632: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:33.594: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:33.602: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:36.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:36.635: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:39.594: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:39.605: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:42.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:42.638: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)

After trying three times to establish a new connection on the old leader, it starts creating a connection on the new leader with the same port
Sep  6 10:15:44.162: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: SYN)
Sep  6 10:15:44.162: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: SYN, ACK)
Sep  6 10:15:44.162: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK)
Sep  6 10:15:44.162: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:44.163: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)


Sep  6 10:15:45.594: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:45.609: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)

It continues the creation of the second connection on the leader node.
Sep  6 10:15:47.132: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: SYN)
Sep  6 10:15:47.132: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: SYN, ACK)
Sep  6 10:15:47.133: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK)
Sep  6 10:15:47.133: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:47.134: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:48.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:48.641: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:50.164: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:50.167: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)

Client tries to contact the new leader through the port of the old leader.
Sep  6 10:15:50.306: message-broker/perf-test-xsxj5:60130 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:50.306: message-broker/perf-test-xsxj5:60130 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: RST)

Sep  6 10:15:51.594: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:51.611: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Client tries to contact the new leader and the follower through the ports of the old leader.
Sep  6 10:15:51.842: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:51.842: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:51.842: message-broker/perf-test-xsxj5:60122 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: RST)
Sep  6 10:15:51.842: message-broker/perf-test-xsxj5:60116 (ID:2319) <- message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: RST)

Sep  6 10:15:53.135: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:53.137: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)

Client tries to contact the new leader through the port of the old leader.
Sep  6 10:15:53.276: message-broker/perf-test-xsxj5:60130 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:53.277: message-broker/perf-test-xsxj5:60130 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: RST)

Sep  6 10:15:54.624: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:54.644: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)

Client tries to contact the new leader and the follower through the ports of the old leader.
Sep  6 10:15:54.790: message-broker/perf-test-xsxj5:60116 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:54.790: message-broker/perf-test-xsxj5:60116 (ID:2319) <- message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: RST)
Sep  6 10:15:54.812: message-broker/perf-test-xsxj5:60122 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, FIN, PSH)
Sep  6 10:15:54.812: message-broker/perf-test-xsxj5:60122 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: RST)


Here starts the creation of the third and last connection on the follower node.
Sep  6 10:15:55.310: message-broker/perf-test-xsxj5:41136 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: SYN)
Sep  6 10:15:55.310: message-broker/perf-test-xsxj5:41136 (ID:2319) <- message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: SYN, ACK)
Sep  6 10:15:55.310: message-broker/perf-test-xsxj5:41136 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: ACK)
Sep  6 10:15:55.310: message-broker/perf-test-xsxj5:41136 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:55.312: message-broker/perf-test-xsxj5:41136 (ID:2319) <- message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:56.165: message-broker/perf-test-xsxj5:42626 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:56.170: message-broker/perf-test-xsxj5:42626 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:57.595: message-broker/perf-test-xsxj5:42642 (ID:2319) -> message-broker/message-broker-server-0:5672 (ID:12926) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:57.614: message-broker/perf-test-xsxj5:42642 (ID:2319) <- message-broker/message-broker-server-0:5672 (ID:12926) to-overlay FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:58.258: message-broker/perf-test-xsxj5:41136 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: SYN)
Sep  6 10:15:58.258: message-broker/perf-test-xsxj5:41136 (ID:2319) <- message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: SYN, ACK)
Sep  6 10:15:58.258: message-broker/perf-test-xsxj5:41136 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: ACK)
Sep  6 10:15:58.258: message-broker/perf-test-xsxj5:41136 (ID:2319) -> message-broker/message-broker-server-2:5672 (ID:8939) to-endpoint FORWARDED (TCP Flags: ACK, PSH)
Sep  6 10:15:58.260: message-broker/perf-test-xsxj5:41136 (ID:2319) <- message-broker/message-broker-server-2:5672 (ID:8939) to-overlay FORWARDED (TCP Flags: ACK, PSH)

We see here that the traffic between the client and rabbitmq cluster is very chaotic, and it takes too long for the client to establish the right connections.
Again here wee see that based on the RMQ logs the leader election happens very fast (4seconds), but I think in reality if we see the traffic, it takes much longer to notice firstly that the leader is gone (around 10seconds).

acogoluegnes Sep 8, 2023
Maintainer

There's no way to find the topology of a queue with AMQP (contrary to the stream protocol), so PerfTest cannot connect a publisher to the node that hosts the leader of a queue (ditto for a consumer and followers).

The default connection recovery time is 5 seconds, you can use --connection-recovery-interval to make smaller, e.g. 2 seconds.

albionb96 Sep 8, 2023
Author

@acogoluegnes I already tried setting the --connection-recovery-interval to 2 seconds and the results were not better. As I said the problems mainly occur when trying to re-establish the production connection, which can be seen also in the examples that I posted.

But my main question in case of the quorum queues is: We've seen that in regard of electing the new leader the quorum queues are much faster, but in regard of noticing that the leader node is down, they are not much faster than the streams, we have seen that there is a time (8-10 seconds), which the cluster needs to notice that the leader is down. Is this time based on the net_tick_time since I already set the net_tick_time to 8, or is this based on some other parameters, and can this time further be reduced for the quorum queues?

kjnilsson Sep 8, 2023
Maintainer

Streams can take around a minute to react to a stream leader being on a partitioned node (and is affected by net_ticktime settings), for quorum queues this takes 5-10s I would say that is substantially faster (and is not affected by net_ticktime). It could be even faster but as a partitioned node is indistinguishable from one that is simply running slowly we favour stability and thus wait a bit to see if the node starts responding before proceeding with an election. I hope this clarifies.

Also remember you are testing a scenario where a server is force terminated in a way that doesn't close the open TCP connections which I'd hope would be a relatively rare event in your infrastructure. Availability isn't a property of a single component such as a message broker - it is an aggregate of your entire system.

acogoluegnes Sep 22, 2023
Maintainer

@albionb96 Just following up on this. I did some testing and improved the stream Java client to make it more responsive after a failure. You can use the --heartbeat option in the performance tool, set it to e.g. 10 seconds (default is 60).

Not related to faster recovery, there's also now the --force-replica-for-consumers flag (see Javadoc for details). Use it with --connection-recovery-interval 5 --topology-recovery-interval 5 to make recovery less aggressive and let more time for a replica to start so the consumer can use it.

You need to use the latest stream-perf-test snapshot for all this.

We are still planning on faster stream recovery on the server side.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

20-60s stream producer recovery time after node termination #395

{{title}}

Replies: 7 comments 19 replies

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

20-60s stream producer recovery time after node termination #395

albionb96 Aug 7, 2023

Describe the bug

Reproduction steps

Expected behavior

Additional context

Replies: 7 comments · 19 replies

michaelklishin Aug 7, 2023 Maintainer

michaelklishin Aug 7, 2023 Maintainer

michaelklishin Aug 7, 2023 Maintainer

Zerpet Aug 7, 2023 Maintainer

albionb96 Aug 8, 2023 Author

michaelklishin Aug 8, 2023 Maintainer

albionb96 Aug 8, 2023 Author

albionb96 Aug 23, 2023 Author

albionb96 Aug 23, 2023 Author

acogoluegnes Aug 23, 2023 Maintainer

acogoluegnes Aug 31, 2023 Maintainer

michaelklishin Sep 1, 2023 Maintainer

acogoluegnes Sep 1, 2023 Maintainer

acogoluegnes Sep 1, 2023 Maintainer

albionb96 Sep 4, 2023 Author

acogoluegnes Sep 4, 2023 Maintainer

acogoluegnes Aug 31, 2023 Maintainer

albionb96 Sep 4, 2023 Author

kjnilsson Sep 1, 2023 Maintainer

albionb96 Sep 7, 2023 Author

acogoluegnes Sep 8, 2023 Maintainer

albionb96 Sep 8, 2023 Author

kjnilsson Sep 8, 2023 Maintainer

acogoluegnes Sep 22, 2023 Maintainer

albionb96
Aug 7, 2023

Replies: 7 comments 19 replies

michaelklishin
Aug 7, 2023
Maintainer

michaelklishin
Aug 7, 2023
Maintainer

michaelklishin
Aug 7, 2023
Maintainer

Zerpet Aug 7, 2023
Maintainer

albionb96 Aug 8, 2023
Author

michaelklishin Aug 8, 2023
Maintainer

albionb96 Aug 8, 2023
Author

albionb96 Aug 23, 2023
Author

albionb96
Aug 23, 2023
Author

acogoluegnes Aug 23, 2023
Maintainer

acogoluegnes
Aug 31, 2023
Maintainer

michaelklishin Sep 1, 2023
Maintainer

acogoluegnes Sep 1, 2023
Maintainer

acogoluegnes Sep 1, 2023
Maintainer

albionb96 Sep 4, 2023
Author

acogoluegnes Sep 4, 2023
Maintainer

acogoluegnes
Aug 31, 2023
Maintainer

albionb96 Sep 4, 2023
Author

kjnilsson
Sep 1, 2023
Maintainer

albionb96 Sep 7, 2023
Author

acogoluegnes Sep 8, 2023
Maintainer

albionb96 Sep 8, 2023
Author

kjnilsson Sep 8, 2023
Maintainer

acogoluegnes Sep 22, 2023
Maintainer