原来是网线!

之前家里的 PC 网卡有一些问题,现象是在打 Dota 的时候网络会崩

排查过程极其复杂与漫长,但可能的结论非常平常,在此记录一下这个令人感概的过程

过程

  • PC 是 Win11,早听说 Win11 有各种网络问题,包括排查时还遇到了把微软用于 Internet 探测的网址给墙了,造成误报
  • 基本排除了操作系统原因之后,看向网卡。由于中美贸易战,2.5G 的芯片一直不太成熟,Google 了之后发现板载的这个 RTL8125B 也是问题不断,开始怀疑是不是速率协商的问题。因为问题出现时,总是在重新协商速率,并且不一定能协商到 2.5G,有时只到 100M,或是 10M。在交换机侧看到 RTL8125B 并没有在 Advertising 写入 2.5G full,但在两边都固定 2.5G 之后,现象也没有改善
  • Google 了一圈发现可能是 2.5G 方案在处理某些特定帧时,有 BUG,网卡侧包括 RTL 和 Intel 都有,也都出过一些固件来修复。这个问题的复杂在于,交换机和网卡都可以改一下兼容这个问题,但有些国外交换机厂商认为这不是他们的问题,可能不会修改。正巧,我的 PC 上联是 MikroBug (MikroTik) 的 RB5009,之前是基本型,RB5009UG+S+,后面又添了一台RB5009UPr+S+。我开始怀疑是这个特定帧的问题,因为到目前为止,正常上网没问题,只有在打 Dota 时出现问题。
  • 连续跟了几版 RTL8125B 的固件更新之后,问题依旧。甚至又入了 Intel 的方案,一块 PCI-E Intel I225-V,但还是无济于事。
  • 在 MikroTik 的论坛上有看到早期 5009 的 2.5G 口有其它问题,在 2.5G 速率下的速度还不如 1G 下,猜测交换机侧有问题,于是把 2.5G Advertising 从 5009 上去掉,双方协商在 1G 下工作。
  • 这次终于有了改善,双方在 1G 下稳定工作了许久。
  • 但还在偶发,十天半个月一次的频率,忍了。
  • 问题扩散了,另一个屋的 AppleTV 也时不时的出现无网络连接,再次协商跑在 100M。
  • 结合了这两个设备的情况之后,再综合全屋的有线连接情况,我突然开窍的想到了换个网线。两个屋到交换机是我自己选的日线万兆,到每个屋的面板上,各做了一对日线的万兆模块。俩屋的 AP,直接在网线上做的头,很稳定。机柜里连 NAS 等的网线是 NAS 送的,两根做的聚合,也很稳定。现在最大的可能就是这几根《最后一米》,从模块到终端设备的秋叶原(CHOSEAL)七类扁平网线带镀金水晶头
  • 这几根算是凑单商品,每根也不算便宜,看说明和到手的感觉都还过的去,想来只要你 8 根都正确接上了,跑个 千兆应该不成什么问题,所以一直没有怀疑过。链接在此:https://item.jd.com/7247538.html
  • 这是屏蔽线,屏蔽线跟一般常用的设备兼容性也不太好,非必要不要上屏蔽线
  • 怒而买了日线的成品跳线,日线DNSPG6-PC-10G超六类cat6A细径万兆utp非屏蔽网络跳线,真的贵,一根 62
  • 换上,好了!!!2.5G 打个 Dota 什么问题没有!交换机上看相关的 Link Downs 计数也都符合正常的开关机引起的 10M 切换。
  • 于是又把剩下的几根全都换成了日线SPG6六类千兆网络跳线,一根 36,便宜一些。

总结

  • win 的排查真的太难了
  • 网卡突然就寄了,两边都没什么日志,但中间过程却是非常的多。交换机,到自己做的头,到墙里的线,到屋里的模块,到这次出问题的线,到终端网卡,每一步不太可能有日志,测线仪也问题
  • 协商成 1G 之后,问题缓解了,但还出现,这种可缓解的偶发问题,很容易让人误导,以为再向这个方向深入就可以解决。犯了一个类似局部最优解当成全局最优解的问题。
  • 可能出错的问题太多,win11, RTL8125B, I225-V, 2.5G, RB5009,一堆新设备,每个看起来都不够成熟稳定,都有可能是问题源,在这种印象之下,忘了最后这根网线

记录一下,希望有可能帮助到其他人