1.
在对香港VPS的原生IP网络异常进行排查时,首先要把故障分类,便于快速定位。
常见分类包括:丢包/高延迟、无法访问(端口不可达)、DNS解析异常、路由不通、与云平台策略(如防火墙、反欺骗)相关的问题。
先从外部到内部做“从外向内”的检查:公网连通性 → 路由路径 → VPS内网配置 → 应用与防火墙。
定位方式优先级:Ping/MTR/Traceroute → tcpdump/抓包 → 系统日志/内核日志 → 提交工单给上游运营商或机房。
判断是否为DDoS或流量异常:监控带宽/连接数、netstat/conntrack和防护告警。
2.
先用Ping检测连通性并记录丢包率与延迟,示例:ping -c 10 203.145.100.23 得到 RTT 平均 28ms,丢包 5%。
MTR用于逐跳定位丢包位置,示例输出说明:第4跳开始出现持续丢包,说明问题出在该跳或其上游。
示例mtr片段(关键字段):
Host Loss% Snt Last Avg Best Wrst StDev 1. 10.0.0.1 0.0% 10 0.4 0.5 0.3 1.0 0.2 2. 203.145.100.1 0.0% 10 10.2 10.5 9.8 12.0 0.8 3. 203.145.200.5 5.0% 10 28.1 27.9 27.0 29.5 0.7 4. * * * (丢包集中在此跳)
当丢包集中在机房或上游设备时,应联系机房提供链路日志或让他们在交换/汇聚层排查。
3.
检查IP配置:ip addr show / ip route show,确认子网掩码和网关是否正确。例如:203.145.100.23/24 gw 203.145.100.1。
示例配置表(居中展示,边框宽度1):
| 项 | 示例值 | 说明 |
|---|---|---|
| 操作系统 | Ubuntu 20.04 | 常见服务器系统 |
| CPU / 内存 | 4 vCPU / 8 GB | 中小型业务配置 |
| 磁盘 | 80 GB NVMe | 高 IOPS SSD |
| 公网IP | 203.145.100.23/24 | 原生 BGP 公网 IP |
| 默认网关 | 203.145.100.1 | 机房出口网关 |
| DNS | 8.8.8.8, 1.1.1.1 | 外部解析测试用 |
检查内核 rp_filter(反向路径过滤):cat /proc/sys/net/ipv4/conf/*/rp_filter,若过高(1/2)可能导致非对称路由被丢弃,遇到非对称路由时建议短期关闭或按接口配置为0。
确认 iptables/nftables 规则是否误阻塞:iptables -L -n -v,并查看是否有 DROP 规则影响业务端口。
4.
常见问题包括:IP重复、MAC绑定错误或宿主机网络桥接/虚拟化网卡(br0)故障。
检查ARP表:arp -n 或 ip neigh,若出现多个MAC或频繁更新说明可能有冲突或防欺骗策略触发。
示例:arp -n 返回 203.145.100.1 at 00:11:22:33:44:55,如果网关MAC与机房公告不一致,应上报机房核对。
OpenVZ/Container 平台常见问题:需要在节点级开启 proxy_arp 或在控制面板上绑定MAC,KVM则需要检查桥接和VLAN标记。
当怀疑宿主机问题时,可要求机房在同一交换机端口做镜像或重启虚拟化网卡进行验证。
5.
确认BGP宣告是否正确:使用 bgp.he.net 或 whois 查询你的ASN和前缀是否被正常宣告。
若域名指向原生IP但全球解析不一致,需检查DNS TTL、Glue记录与多个DNS服务器响应差异。
域名解析被拦截或劫持时,用 dig @8.8.8.8 domain.com +short 与本地解析比较。
若在某些地区访问慢或丢包但其他地区正常,通常是上游ISP链路问题或区域BGP策略问题,需要向机房提交路由报告。
建议收集 traceroute 从多个全球节点(例如 AWS 香港、东京、洛杉矶)并把结果附上以便机房定位。
6.
检测指标:带宽瞬时占满、SYN/UDP洪水、高并发连接数(netstat -an | awk '/ESTABLISHED/ {count++} END{print count}')。
示例:在攻击期间 conntrack 达到 200k(系统 limit 262144),建议临时增加 /proc/sys/net/netfilter/nf_conntrack_max。
快速缓解措施:在提供商侧申请流量清洗(scrubbing)、对可被托管的域名切换到CDN(如Cloudflare Proxy模式)。
主机端临时规则:使用 iptables 限制 SYN 请求速率、开启 connlimit 与 hashlimit,或启用 fail2ban 对异常连接封禁IP。
长期策略:与机房签署DDoS SLA、使用云厂商/托管提供的黑洞/清洗服务并将关键业务放置于多出口或CDN后端。
7.
案例背景:某客户香港VPS(203.145.100.23)出现外网访问间歇性丢包,用户报告视频会议卡顿。
排查步骤与结果:外网Ping丢包5%,MTR显示第3跳到第4跳丢包集中,机房交换机对应汇聚口显示错误计数和丢包。
修复措施:机房更换汇聚口光模块并调整交换机端口队列参数,随后丢包率恢复到0%,RTT稳定在25~30ms。
补充操作:在VPS上调整 rp_filter 为0,添加防火墙限速规则,避免小概率非对称路由被误判丢包。
经验总结:遇到跨跳丢包优先由机房排查链路层(光模块/中继/端口),VPS端关注配置(网关、mask、rp_filter、iptables)。