跟着源码学IM(十一)：一套基于Netty的分布式高可用IM详细设计与实现(有源码)

作者：JackJiang2023.06.09 12:02浏览量：247

简介：本文将要分享的是如何从零实现一套基于Netty框架的分布式高可用IM系统，它将支持长连接网关管理、单

本文由will分享，个人博客zhangyaoo.github.io，原题“基于Netty的IM系统设计与实现”，有修订和重新排版。

1、引言
本文将要分享的是如何从零实现一套基于Netty框架的分布式高可用IM系统，它将支持长连接网关管理、单聊、群聊、聊天记录查询、离线消息存储、消息推送、心跳、分布式唯一ID、红包、消息同步等功能，并且还支持集群部署。

本文中针对这套架构和系统设计，同时还会提供完整的源码，比较适合有一定Java开发能力和Netty知识的IM初学者。

友情提示：如果你对IM即时通讯的基础技术理论了解的太少，建议可以先读：《新手入门一篇就够：从零开发移动端IM》。

技术交流：

移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4257-1-1.html）

2、配套源码
本文配套源码的开源托管地址是：

1）主地址：https://github.com/zhangyaoo/fastim
2）备地址：https://github.com/52im/fastim2023
如果你访问Github太慢，可直接从以下附件打包下载：

fastim-master(52im.net).zip (1.12 MB , 下载次数: 5 , 售价: 1 金币)

完整源码的目录结构，如下图：

3、知识准备
关于 Netty 是什么，这里简单介绍下：

Netty 是一个 Java 开源框架。Netty 提供异步的、事件驱动的网络应用程序框架和工具，用以快速开发高性能、高可靠性的网络服务器和客户端程序。

也就是说，Netty 是一个基于 NIO 的客户、服务器端编程框架，使用Netty 可以确保你快速和简单的开发出一个网络应用，例如实现了某种协议的客户，服务端应用。

Netty 相当简化和流线化了网络应用的编程开发过程，例如，TCP 和 UDP 的 Socket 服务开发。

有关Netty的入门文章：

1）新手入门：目前为止最透彻的的Netty高性能原理和框架架构解析

2）写给初学者：Java高性能NIO框架Netty的学习方法和进阶策略

3）史上最通俗Netty框架入门长文：基本介绍、环境搭建、动手实战

如果你连Java NIO都不知道，下面的文章建议优先读：

1）少啰嗦！一分钟带你读懂Java的NIO和经典IO的区别
2）史上最强Java NIO入门：担心从入门到放弃的，请读这篇！
3）Java的BIO和NIO很难懂？用代码实践给你看，再不懂我转行！
Netty源码和API 在线查阅地址：

1）Netty-4.1.x 完整源码（在线阅读版）
2）Netty-4.1.x API文档（在线版）
4、整体架构设计概览
本次的IM系统设计主要基于可扩展性高可用原则，把网关层、逻辑层、数据层进行了分离，并且还要支持分布式部署。

以下是整体系统的架构设计概览图：

下面将针对整体架构来逐一分享设计的主要思路等。

5、整体架构设计之客户端设计
5.1客户端设计
客户端的设计主要从以下几点出发：

1）client每个设备会在本地存每一个会话，保留有最新一条消息的顺序 ID；
2）为了避免client宕机，也就是退出应用，保存在内存的消息ID丢失，会存到本地的文件中；
3）client需要在本地维护一个等待ack队列，并配合timer超时机制，来记录哪些消息没有收到ack：N，以定时重发；
4）客户端本地生成一个递增序列号发送给服务器，用作保证发送顺序性。该序列号还用作ack队列收消息时候的移除。
5.2客户端序列号设计
1）方案一：

设计思路：

1）数据传输中的大小尽量小用int，不用bigint，节省传输大小；
2）只保证递增即可,在用户重新登录或者重连后可以进行日期重置，只保证单次；
3）客户端发号器不需要像类似服务器端发号器那样集群部署，不需要考虑集群同步问题。
注：上述生成器可以用18年[(2^29-1)/3600/24/365]左右，一秒内最多产生4个消息。

优点：可以在断线重连和重装APP的情况下，18年之内是有序的。

缺点：每秒只能发4个消息，限制太大，对于群发场景不合适。

改进：使用long进行传输，年限扩展很久并且有序。

2）方案二：

设计思路：

1）每次重新建立链接后进行重置，将sequence_id（int表示）从0开始进行严格递增；
2）客户端发送消息会带上唯一的递增sequence_id，同一条消息重复投递的sequence_id是一样的；
3）后端存储每个用户的sequence_id，当sequence_id归0，用户的epoch年代加1存储入库，单聊场景下转发给接收者时候，接收者按照sequence_id和epoch来进行排序。
优点：可以在断线重连和重装APP的情况下，接收者可以按照发送者发送时序来显示，并且对发送消息的速率没限制。

6、整体架构设计之LSB设计
6.1思路
IM接入层的高可用、负载均衡、扩展性全部在这里面做。客户端通过LSB，来获取gate IP地址，通过IP直连。

这样做的目的是：

1）灵活的负载均衡策略可根据最少连接数来分配IP；
2）做灰度策略来分配IP；
3）AppId业务隔离策略不同业务连接不同的gate，防止相互影响；
4）单聊和群聊的im接入层通道分开。
6.2优化
上述设计存在一个问题：就是当某个实例重启后，该实例的连接断开后，客户端会发起重连，重连就大概率转移其他实例上，导致最近启动的实例连接数较少，最早启动的实例连接数较多。

解决方法：

1）客户端会发起重连，跟服务器申请重连的新的服务器IP，系统提供合适的算法来平摊gate层的压力，防止雪崩效应；
2）gate层定时上报本机的元数据信息以及连接数信息，提供给LSB中心，LSB根据最少连接数负载均衡实现，来计算一个节点供连接。
7、整体架构设计之GATE层网关设计
GATE层网关设计主要遵从以下几点：

1）任何一个gate网关断掉，用户端检测到以后重新连接LSB服务获取另一个gate网关IP，拿到IP重新进行长连接通信（对整体服务可靠性基本没有影响）；
2）gate可以无状态的横向部署，来扩展接入层的接入能力；
3）根据协议分类将入口请求打到不同的网关上去，HTTP网关接收HTTP请求，TCP网关接收tcp长连接请求；
4）长连接网关，提供各种监控功能，比如网关执行线程数、队列任务数、ByteBuf使用堆内存数、堆外内存数、消息上行和下行的数量以及时间。
8、整体架构设计之LOGIC和路由SDK设计
logic按照分布式微服务的拆分思想进行拆分，拆分为多个模块，集群部署。

主要包括：

1）消息服务；
2）红包服务；
3）其他服务。
消息logic服务集成路由客户端的SDK，SDK职责主要是：

1）负责和网关底层通信交互；
2）负责网关服务寻址；
3）负责存储uid和gate层机器ID关系（有状态：多级缓存避免和中间件多次交互。无状态：在业务初期可以不用存）；
4）配合网关负责路由信息一致性保证。
针对上述第4）点：

1）如果路由状态和channel通道不一致，比如有路由状态，没有channel通道（已关闭）那么，就会走离线消息流出，并且清除路由信息；
2）动态重启gate，会及时清理路由信息。
SDK和网关底层通信设计：

如上图所示：网关层到服务层，只需要单向传输发请求，网关层不需要关心调用的结果。而客户端想要的ack或者notify请求是由SDK发送数据到网关层，SDK也不需要关心调用的结果，最后网关层只转发数据，不做额外的逻辑处理。

SDK和所有的网关进行长连接，当发送信息给客户端时，根据路由寻址信息，即可通过长连接推送信息。

9、通信协议设计
9.1目标
通信协议设计的主要目标是：

1）高性能：协议设计紧凑，保证数据包小，并且序列化性能好；
2）可扩展：针对后续业务发展，可以自由的自定义协议，无需较大改动协议结构。
9.2设计
IM协议采用二进制定长包头和变长包体来实现客户端和服务端的通信，并且采用谷歌protobuf序列化协议。

设计如下：

各个字段解释如下：

1）headData：头部标识，协议头标识，用作粘包半包处理。4个字节；
2）version：客户端版本。4个字节；
3）cmd：业务命令，比如心跳、推送、单聊、群聊。1个字节；
4）msgType：消息通知类型 request response notify。1个字节；
5）logId：调试性日志，追溯一个请求的全路径。4个字节；
6）sequenceId：序列号，可以用作异步处理。4个字节；
7）dataLength：数据体的长度。4个字节；
8）data：数据。
PS：如果你对Protobuf不了解，建议详读以下系列文章：

1.《强列建议将Protobuf作为你的即时通讯应用数据传输格式》

2.《IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！》

3.《IM通讯协议专题学习(二)：快速理解Protobuf的背景、原理、使用、优缺点》

4.《IM通讯协议专题学习(三)：由浅入深，从根上理解Protobuf的编解码原理》

5.《IM通讯协议专题学习(四)：从Base64到Protobuf，详解Protobuf的数据编码原理》

6.《IM通讯协议专题学习(五)：Protobuf到底比JSON快几倍？全方位实测！》

7.《IM通讯协议专题学习(六)：手把手教你如何在Android上从零使用Protobuf》

8.《IM通讯协议专题学习(七)：手把手教你如何在NodeJS中从零使用Protobuf》

9.《IM通讯协议专题学习(八)：金蝶随手记团队的Protobuf应用实践(原理篇)》

10.《IM通讯协议专题学习(九)：手把手教你如何在iOS上从零使用Protobuf》

9.3实践
针对数据data，网关gate层不做反序列化，反序列化步骤在service做，避免重复序列化和反序列化导致的性能损失。

网关层不做业务逻辑处理，只做消息转发和推送，减少网关层的复杂度。

10、安全设计
为防止消息传输过程中不被截获、篡改、伪造，采用TLS传输层加密协议（可参考《微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解》）。

私有化协议天然具备一定的防窃取和防篡改的能力，相对于使用JSON、XML、HTML等明文传输系统，被第三方截获后在内容破解上相对成本更高，因此安全性上会更好一些。

消息存储安全性：将针对账号密码的存储安全可以通过“高强度单向散列算法”和“加盐”机制来提升加密密码可逆性；IM消息采用“端到端加密”方式来提供更加安全的消息传输保护。

安全层协议设计：基于动态密钥，借鉴类似SSL，不需要用证书来管理（可参考《探讨组合加密算法在IM中的应用》）。

11、消息投递设计
11.1概述
一个正常的消息流转需要如下图所示的流程：

如上图所示：

1）客户端A发送请求包R；
2）server将消息存储到DB；
3）存储成功后返回确认ack；
4）server push消息给客户端B；
5）客户端B收到消息后返回确认ack；
6）server收到ack后更新消息的状态或者删除消息。
需要考虑的是：一个健壮的IM系统需要考虑各种异常情况，比如丢消息，重复消息，消息时序问题。

11.2消息可靠性如何保证（不丢消息）
我的设计和实现思路是这样的：

1）应用层ACK；
2）客户端需要超时与重传；
3）服务端需要超时与重传，具体做法就是增加ack队列和定时器Timer；
4）业务侧兜底保证，客户端拉消息通过一个本地的旧的序列号来拉取服务器的最新消息；
5）为了保证消息必达，在线客户端还增加一个定时器，定时向服务端拉取消息，避免服务端向客户端发送拉取通知的包丢失导致客户端未及时拉取数据。
相关资料可参考：

1.《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》

2.《IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递》

3.《IM消息送达保证机制实现(二)：保证离线消息的可靠投递》

4.《IM开发干货分享：如何优雅的实现大量离线消息的可靠投递》

5.《理解IM消息“可靠性”和“一致性”问题，以及解决方案探讨》

6.《融云技术分享：全面揭秘亿级IM消息的可靠投递机制》

11.3消息重复性如何保证（不重复）
超时与重传机制将导致接收的client收到重复的消息，具体做法就是一份消息使用同一个消息ID进行去重处理。

相关资料：

《为何基于TCP协议的移动端IM仍然需要心跳保活机制？》

《一文读懂即时通讯应用中的网络心跳包机制：作用、原理、实现思路等》

《微信团队原创分享：Android版微信后台保活实战分享(进程保活篇)》

《微信团队原创分享：Android版微信后台保活实战分享(网络保活篇)》

《融云技术分享：融云安卓端IM产品的网络链路保活技术实践》

《移动端IM实践：实现Android版微信的智能心跳机制》

《万字长文：手把手教你实现一套高效的IM长连接自适应心跳保活机制》

17.2系统稳定性设计
背景：高峰期系统压力大，偶发的网络波动或者机器过载，都有可能导致大量的系统失败。加上IM系统要求实时性，不能用异步处理实时发过来的消息。所以有了柔性保护机制防止雪崩。

柔性保护机制开启判断指标，当每个指标不在平均范围内的时候就开启。

这些判断指标主要是：

1）每条消息的ack时间 RT时间
2）同时在线人数以及同时发消息的人数
3）每台机器的负载CPU和内存和网络IO和磁盘IO以及GC参数
当开启了柔性保护机制，那么会返回失败，用户端体验不友好，如何优化？

以下是我的优化思路：

1）当开启了柔性保护机制，逻辑层hold住多余的请求，返回前端成功，不显示发送失败，后端异步重试，直至成功；
2）为了避免重试加剧系统过载，指数时间延迟重试。
17.3异常场景设计
gate层重启升级或者意外down机有以下问题：

1）客户端和gate意外丢失长连接，导致客户端在发送消息的时候导致消息超时等待以及客户端重试等无意义操作；
2）发送给客户端的消息，从Msg消息层转发给gate的消息丢失，导致消息超时等待以及重试。
解决方案如下：

1）重启升级时候，向客户端发送重新连接指令，让客户端重新请求LSB获取IP直连；
2）当gate层down机异常停止时候，增加hook钩子，向客户端发送重新连接指令；
3）额外增加hook，向Msg消息层发送请求清空路由消息和在线状态，并且清除redis的路由信息。
17.4Redis宕机高可用设计
Redis的作用背景：

1）当用户链接上网关后，网关会将用户的userId和机器信息存入redis，用作这个user接收消息时候，消息的路由；
2）消息服务在发消息给user时候，会查询Redis的路由信息，用来发送消息给哪个一个网关。
如果Redis宕机，会造成下面结果：

1）消息中转不过去，所有的用户可以发送消息，但是都接收不了消息；
2）如果有在线机制，那么系统都认为是离线状态，会走手机消息通道推送。
Redis宕机兜底处理策略：

1）消息服务定时任务同步路由信息到本地缓存，如果redis挂了，从本地缓存拿消息；
2）网关服务在收到用户侧的上线和下线后，会同步广播本地的路由信息给各个消息服务，消息服务接收后更新本地环境数据；
3）网络交互次数多，以及消息服务多，可以用批量或者定时的方式同步广播路由消息给各个消息服务。
18、核心表结构设计
核心设计要点：

1）群消息只存储一份，用户不需要为每个消息单独存一份。用户也无需去删除群消息；
2）对于在线的用户，收到群消息后，修改这个last_ack_msg_id；
3）对于离线用户，用户上线后，对比最新的消息ID和last_ack_msg_id，来进行拉取(参考Kafka的消费者模型)；
4）对应单聊，需要记录消息的送达状态，以便在异常情况下来做重试处理。
群用户消息表 t_group_user_msg：

群消息表 t_group_msg：

参考资料：

1.《一套海量在线用户的移动端IM架构设计实践分享(含详细图文)》

2.《基于Netty，从零开发一个IM服务端》

19、红包设计
抢红包的大致核心逻辑如下：

1）银行快捷支付，保证账户余额和发送红包逻辑的一致性；
2）发送红包后，首先计算好红包的个数，个数确定好后，确定好每个红包的金额，存入存储层【这里可以是redis的List或者是队列】方便后续每个人来取；
3）生成一个24小时的延迟任务，检测红包是否还有钱方便退回；
4）每个红包的金额需要保证每个红包的的抢金额概率是一致的，算法需要考量；
5）存入数据库表中后，服务器通过长连接，给群里notify红包消息,供群成员抢红包；
6）群成员并发抢红包，在第二步中会将每个红包的金额放入一个队列或者其他存储中，群成员实际是来竞争去队列中的红包金额。兜底机制：如果redis挂了，可以重新生成红包信息到数据库中；
7）取成功后，需要保证红包剩余金额、新插入的红包流水数据、队列中的红包数据以及群成员的余额账户金额一致性；
8）这里还需要保证一个用户只能领取一次，并且保持幂等。
相关资料：

《社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等》

《社交软件红包技术解密(二)：解密微信摇一摇红包从0到1的技术演进》

《社交软件红包技术解密(三)：微信摇一摇红包雨背后的技术细节》

《社交软件红包技术解密(四)：微信红包系统是如何应对高并发的》

《社交软件红包技术解密(五)：微信红包系统是如何实现高可用性的》

《社交软件红包技术解密(六)：微信红包系统的存储层架构演进实践》

《社交软件红包技术解密(七)：支付宝红包的海量高并发技术实践》

《社交软件红包技术解密(八)：全面解密微博红包技术方案》

《社交软件红包技术解密(九)：谈谈手Q红包的功能逻辑、容灾、运维、架构等》

《社交软件红包技术解密(十)：手Q客户端针对2020年春节红包的技术实践》

《社交软件红包技术解密(十一)：解密微信红包随机算法(含代码实现)》

《社交软件红包技术解密(十二)：解密抖音春节红包背后的技术设计与实践》

20、核心业务流程梳理
20.1单聊流程
假设是用户A发消息给用户B ，以下是完整的业务流程。

1）A打包数据发送给服务端，服务端接收消息后，根据接收消息的sequence_id来进行客户端发送消息的去重，并且生成递增的消息ID，将发送的信息和ID打包一块入库，入库成功后返回ACK，ACK包带上服务端生成的消息ID。

2）服务端检测接收用户B是否在线，在线直接推送给用户B。

3）如果没有本地消息ID则存入，并且返回接入层ACK信息；如果有则拿本地sequence_id和推送过来的sequence_id大小对比，并且去重，进行展现时序进行排序展示，并且记录最新一条消息ID。最后返回接入层ack。

4）服务端接收ACK后，将消息标为已送达。

5）如果用户B不在线,首先将消息存入库中，然后直接通过手机通知来告知客户新消息到来。

6）用户B上线后，拿本地最新的消息ID，去服务端拉取所有好友发送给B的消息，考虑到一次拉取所有消息数据量大，通过channel通道来进行分页拉取，将上一次拉取消息的最大的ID，作为请求参数，来请求最新一页的比ID大的数据。

20.2群聊流程
假设是用户A发消息给群G ，以下是完整的业务流程。

1）登录，TCP连接，token校验，名词检查，sequence_id去重，生成递增的消息ID，群消息入库成功返回发送方ACK。

2）查询群G所有的成员，然后去redis中央存储中找在线状态。离线和在线成员分不同的方式处理。

3）在线成员：并行发送拉取通知，等待在线成员过来拉取，发送拉取通知包如丢失会有兜底机制。

4）在线成员过来拉取，会带上这个群标识和上一次拉取群的最小消息ID，服务端会找比这个消息ID大的所有的数据返回给客户端，等待客户端ACK。一段时间没ack继续推送。如果重试几次后没有回ack，那么关闭连接和清除ack等待队列消息。

5）客户端会更新本地的最新的消息ID，然后进行ack回包。服务端收到ack后会更新群成员的最新的消息ID。

6）离线成员：发送手机通知栏通知。离线成员上线后，拿本地最新的消息ID，去服务端拉取群G发送给A的消息，通过channel通道来进行分页拉取，每一次请求，会将上一次拉取消息的最大的ID，作为请求参数来拉取消息，这里相当于第二次拉取请求包是作为第一次拉取的ack包。

7）分页的情况下，客户端在收到上一页请求的的数据后更新本地的最新的消息ID后，再请求下一页并且带上消息ID。上一页请求的的数据可以当作为ack来返回服务端，避免网络多次交互。服务端收到ack后会更新群成员的最新的消息ID。

21、设计IM系统时的常见疑问
21.1相比传统HTTP请求的业务系统，IM业务系统的有哪些不一样的设计难点？
主要是在线状态维护。

相比于HTTP请求的业务系统，接入层有状态，必须维持心跳和会话状态，加大了系统设计复杂度。

请求通信模型不一样。相比于HTTP请求一个request等待一个response通信模型，IM系统则是一个数据包在全双工长连接通道双传输，客户端和服务端消息交互的信令数据包设计复杂。

21.2对于单聊和群聊的实时性消息，是否需要MQ来作为通信的中间件来代替rpc？
MQ作为解耦可以有以下好处：

1）易扩展：gate层到logic层无需路由，logic层多个有新的业务时候，只需要监听新的topic即可；
2）解耦：gate层到logic层解耦，不会有依赖关系；
3）节省端口资源：gate层无需再开启新的端口接收logic的请求，而且直接监听MQ消息即可。
但是缺点也有：

1）网络通信多一次网络通信，增加RT的时间，消息实时性对于IM即使通信的场景是非常注重的一个点；
2）MQ的稳定性，不管任何系统只要引入中间件都会有稳定性问题，需要考虑MQ不可用或者丢失数据的情况；
3）需要考虑到运维的成本；
4）当用消息中间代替路由层的时候，gate层需要广播消费消息，这个时候gate层会接收大部分的无效消息，因为这个消息的接收者channel不在本机维护的session中。
综上：是否考虑使用MQ需要架构师去考量，比如考虑业务是否允许、或者系统的流量、或者高可用设计等等影响因素。本项目基于使用成本、耦合成本和运维成本考虑，采用Netty作为底层自定义通信方案来实现，也能同样实现层级调用。

参考资料：《阿里IM技术分享(九)：深度揭密RocketMQ在钉钉IM系统中的应用实践》。

21.3为什么接入层用LSB返回的IP来做接入呢？
可以有以下好处：

1）灵活的负载均衡策略可根据最少连接数来分配IP；
2）做灰度策略来分配IP；
3）AppId业务隔离策略不同业务连接不同的gate，防止相互影响。
21.4为什么应用层心跳对连接进行健康检查？
因为TCP Keepalive状态无法反应应用层状态问题，如进程阻塞、死锁、TCP缓冲区满等情况。

并且要注意心跳的频率，频率小则可能及时感知不到应用情况，频率大可能有一定的性能开销。

参考资料：《为何基于TCP协议的移动端IM仍然需要心跳保活机制？》、《彻底搞懂TCP协议层的KeepAlive保活机制》。

21.5MQ的使用场景？
IM消息是非常庞大的，比如说群聊相关业务、推送，对于一些业务上可以忍受的场景，尽量使用MQ来解耦和通信，来降低同步通讯的服务器压力。

21.6群消息存一份还是多份，读扩散还是写扩散？
我的设计是存1份，读扩散。

存多份的话（也就是写扩散）下同一条消息存储了很多次，对磁盘和带宽造成了很大的浪费。可以在架构上和业务上进行优化，来实现读扩散。

当然，对于IM是使用读扩散还是写扩散来实现，这需要根据IM产品的业务定位来决定。比如微信就是写扩散（详见《企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等》），而钉钉却是读扩散（详见《深度解密钉钉即时消息服务DTIM的技术设计》）。

21.7消息ID为什么是趋势递增就可以，严格递增的不行吗？
严格递增会有单点性能瓶颈，比如MySQL auto increments。

redis性能好但是没有业务语义，比如缺少时间因素，还可能会有数据丢失的风险，并且集群环境下写入ID也属于单点，属于集中式生成服务。

小型IM可以根据业务场景需求直接使用redis的incr命令来实现IM消息唯一ID。

本项目采用snowflake算法实现唯一趋势递增ID，即可实现IM消息中，时序性，重复性以及查找功能。

关于消息ID的生成，可以参考下面的系列文章：

《微信的海量IM聊天消息序列号生成实践（算法原理篇）》

《微信的海量IM聊天消息序列号生成实践（容灾方案篇）》

《解密融云IM产品的聊天消息ID生成策略》

《深度解密美团的分布式ID生成算法》

《开源分布式ID生成器UidGenerator的技术实现》

《深度解密滴滴的高性能ID生成器(Tinyid)》

21.8gate层为什么需要开两个端口？
gate会接收客户端的连接请求（被动），需要外网监听端口；entry会主动给logic发请求（主动）；entry会接收服务端给它的通知请求（被动），需要内网监听端口。一个端口对内，一个端口对外。

21.9用户的路由信息，是维护在中央存储的redis中，还是维护在每个msg层内存中？
维护在每个msg层内存中有状态：多级缓存避免和中间件多次交互，并发高。

维护在中央存储的redis中，msg层无状态，redis压力大，每次交互IO网络请求大。

业务初期为了减少复杂度，可以维护在Redis中。

21.10网关层和服务层以及msg层和网关层请求模型具体是怎样的？
网关层到服务层，只需要单向传输发请求，网关层不需要关心调用的结果。

而客户端想要的ack或者notify请求是由SDK发送数据到网关层，SDK也不需要关心调用的结果，最后网关层只转发数据，不做额外的逻辑处理。

SDK和所有的网关进行长连接，当发送信息给客户端时，根据路由寻址信息，即可通过长连接推送信息

21.11本地写数据成功，一定代表对端应用侧接收读取消息了吗？
本地TCP写操作成功，但数据可能还在本地写缓冲区中、网络链路设备中、对端读缓冲区中，并不代表对端应用读取到了数据。

如果你还不理解，可以读读这篇文章《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》。

21.12为什么用netty做来做http网关, 而不用tomcat？
主要是从以下方面考虑：

1）netty对象池，内存池，高性能线程模型；
2）netty堆外内存管理，减少GC压力，jvm管理的只是一个很小的DirectByteBuffer对象引用；
3）tomcat读取数据和写入数据都需要从内核态缓冲copy到用户态的JVM中，多1次或者2次的拷贝会有性能影响。
21.13为什么消息入库后，对于在线状态的用户，单聊直接推送，群聊通知客户端来拉取，而不是直接推送消息给客户端（推拉结合）？
在保证消息实时性的前提下，对于单聊，直接推送。

对于群聊，由于群聊人数多，推送的话一份群消息会对群内所有的用户都产生一份推送的消息，推送量巨大。

解决办法是按需拉取，当群消息有新消息时候发送时候，服务端主动推送新的消息数量，然后客户端分页按需拉取数据。

21.14为什么除了单聊、群聊、推送、离线拉取等实时性业务，其他的业务都走http协议？
IM协议简单最好，如果让其他的业务请求混进IM协议中，会让其IM变的更复杂，比如查找离线消息记录拉取走http通道避免tcp 通道压力过大，影响即时消息下发效率。

在比如上传图片和大文件，可以利用HTTP的断点上传和分段上传特性。

21.15机集群机器要考虑到哪些优化？
主要有：

1）网络宽带；
2）最大文件句柄；
3）每个tcp的内存占用；
4）Linux系统内核tcp参数优化配置；
5）网络IO模型；
6）网络网络协议解析效率；
7）心跳频率；
8）会话数据一致性保证；
9）服务集群动态扩容缩容。
22、系列文章
《跟着源码学IM(一)：手把手教你用Netty实现心跳机制、断线重连机制》

《跟着源码学IM(二)：自已开发IM很难？手把手教你撸一个Andriod版IM》

《跟着源码学IM(三)：基于Netty，从零开发一个IM服务端》

《跟着源码学IM(四)：拿起键盘就是干，教你徒手开发一套分布式IM系统》

《跟着源码学IM(五)：正确理解IM长连接、心跳及重连机制，并动手实现》

《跟着源码学IM(六)：手把手教你用Go快速搭建高性能、可扩展的IM系统》

《跟着源码学IM(七)：手把手教你用WebSocket打造Web端IM聊天》

《跟着源码学IM(八)：万字长文，手把手教你用Netty打造IM聊天》

《跟着源码学IM(九)：基于Netty实现一套分布式IM系统》

《跟着源码学IM(十)：基于Netty，搭建高性能IM集群（含技术思路+源码）》

《跟着源码学IM(十一)：一套基于Netty的分布式高可用IM详细设计与实现(有源码)》（* 本文）

《SpringBoot集成开源IM框架MobileIMSDK，实现即时通讯IM聊天功能》

23、参考资料
[1] 史上最通俗Netty框架入门长文：基本介绍、环境搭建、动手实战

[2] 强列建议将Protobuf作为你的即时通讯应用数据传输格式

[3] IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！

[4] 微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[5] 探讨组合加密算法在IM中的应用

[6] 从客户端的角度来谈谈移动端IM的消息可靠性和送达机制

[7] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递

[8] 理解IM消息“可靠性”和“一致性”问题，以及解决方案探讨

[9] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

[10] IM群聊消息如此复杂，如何保证不丢不重？

[11] 零基础IM开发入门(四)：什么是IM系统的消息时序一致性？

[12] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[13] 如何保证IM实时消息的“时序性”与“一致性”？

[14] 阿里IM技术分享(六)：闲鱼亿级IM消息系统的离线推送到达率优化

[15] 微信的海量IM聊天消息序列号生成实践（算法原理篇）

[16] 社交软件红包技术解密(一)：全面解密QQ红包技术方案——架构、技术实现等

[17] 网易云信技术分享：IM中的万人群聊技术方案实践总结

[18] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[19] 融云IM技术分享：万人群聊消息投递方案的思考和实践

[20] 为何基于TCP协议的移动端IM仍然需要心跳保活机制？

[21] 一文读懂即时通讯应用中的网络心跳包机制：作用、原理、实现思路等

[22] 微信团队原创分享：Android版微信后台保活实战分享(网络保活篇)

[23] 融云技术分享：融云安卓端IM产品的网络链路保活技术实践

[24] 阿里IM技术分享(九)：深度揭密RocketMQ在钉钉IM系统中的应用实践

[25] 彻底搞懂TCP协议层的KeepAlive保活机制

[26] 深度解密钉钉即时消息服务DTIM的技术设计

（本文已同步发布于：http://www.52im.net/thread-4257-1-1.html）

发表评论

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

跟着源码学IM(十一)：一套基于Netty的分布式高可用IM详细设计与实现(有源码)

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

最热文章

关于作者