メモリを食べにJGroups

https://stackoverflow.com/questions/2377634

jgroups

24-09-2019
|

質問

私は現在、数千のメッセージNAKACK.xmit_tableで立ち往生を引き起こし、私のJGroups設定に問題があります。実際にそれらのすべてがxmit_tableで終わるように見える、と数時間から別のダンプは、後に、彼らは...

のいずれかのままにするつもりはありませんことを示しています

これはプロトコルスタックで構成

UDP(bind_addr=xxx.xxx.xxx.114;
bind_interface=bond0;
ip_mcast=true;ip_ttl=64;
loopback=false;
mcast_addr=228.1.2.80;mcast_port=45589;
mcast_recv_buf_size=80000;
mcast_send_buf_size=150000;
ucast_recv_buf_size=80000;
ucast_send_buf_size=150000):
PING(num_initial_members=3;timeout=2000):
MERGE2(max_interval=20000;min_interval=10000):
FD_SOCK:
FD(max_tries=5;shun=true;timeout=10000):
VERIFY_SUSPECT(timeout=1500):
pbcast.NAKACK(discard_delivered_msgs=true;gc_lag=50;retransmit_timeout=600,1200,2400,4800;use_mcast_xmit=true):
pbcast.STABLE(desired_avg_gossip=20000;max_bytes=400000;stability_delay=1000):UNICAST(timeout=600,1200,2400):
FRAG(frag_size=8192):pbcast.GMS(join_timeout=5000;print_local_addr=true;shun=true):
pbcast.STATE_TRANSFER

スタートアップメッセージ...

2010-03-01 23:40:05,358 INFO  [org.jboss.cache.TreeCache] viewAccepted(): [xxx.xxx.xxx.35:51723|17] [xxx.xxx.xxx.35:51723, xxx.xxx.xxx.36:53088, xxx.xxx.xxx.115:32781, xxx.xxx.xxx.114:32934]
2010-03-01 23:40:05,363 INFO  [org.jboss.cache.TreeCache] TreeCache local address is 10.35.191.114:32934
2010-03-01 23:40:05,393 INFO  [org.jboss.cache.TreeCache] received the state (size=32768 bytes)
2010-03-01 23:40:05,509 INFO  [org.jboss.cache.TreeCache] state was retrieved successfully (in 146 milliseconds)

...すべてがこれまでに罰金であることを示しています。

警告レベルを設定するログは、その何かがoccational

を除いて間違って示すものではありません

2010-03-03 09:59:01,354 ERROR [org.jgroups.blocks.NotificationBus] exception=java.lang.IllegalArgumentException: java.lang.NullPointerException

私は推測している。

は、それがメモリメモリ問題なく先に見てきたので、関係ありません。

私は奇妙何もこれまでのところを見つけるために、マシンの1から2つのメモリダンプを掘りされていています。異なるプロトコルからおそらくいくつかの統計を除く。

UDPは持っている。

num_bytes_sent 53617832
num_bytes_received 679220174
num_messages_sent 99524
num_messages_received 99522

NAKACKがありながら...

num_bytes_sent 0
num_bytes_received 0
num_messages_sent 0
num_messages_received 0

...と巨大なxmit_tableます。

は各マシンは、二つJChannelインスタンス、ehcacheを用とのTreeCacheのための1つを有しています。それらの両方が同じdiagnositics MCASTアドレスを共有し、私は右の診断メッセージを送信する場合を除き、これは問題にならないことを、設定ミス手段？しかし、彼らはもちろん、メッセージごとに異なるMCASTアドレスを持っています。

の明確化のためにお問い合わせください、私は多くの情報を持っていますが、私はこの時点では関連性があるかについて少し不確かだ。

解決

これは、クラスタ内のノードのいずれかがまったくマルチキャストメッセージを受信しなかったことが判明します。これは、彼らはそれが彼らのメッセージを受け取っていたことを述べ、「単離された」ノードから任意の安定メッセージを取得していないので、すべてのノードが、自分のxmit_tablesにハングアップしていました。

は、マルチキャストアドレスを変更するのASの再起動は、問題を解決します。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow