NeighborGeo:基于邻居的IP地理定位(四)

发布于:2025-07-05 ⋅ 阅读:(20) ⋅ 点赞:(0)

NeighborGeo:基于neighbors的IP地理定位

X. Wang, D. Zhao, X. Liu, Z. Zhang, T. Zhao, NeighborGeo: IP geolocation based on neighbors, Comput. Netw. 257 (2025) 110896,

4. Experiments

本文进行了广泛的实验评估,以评估NeighborGeo的性能。从模型性能(包括非均匀条件下的性能测试)、消融研究、敏感性分析实验和案例分析实验等多个角度全面考察了模型的有效性和稳定性。

4.1. Datasets

4.1.1. Basic information of datasets

我们使用了Z. Wang团队[5]公开的3个真实IP地理位置数据集,分别包含来自纽约、洛杉矶和上海的91,808、92,804和126,258个IP地址。每个数据集由3部分组成:IP信息、特征信息和标签信息。

(1) IP信息:包括与IP地址相关的数据。

(2)特征信息:将特征信息分为两类:属性特征信息:包含互联网服务提供商(ISP)和自治系统(as)等从WHOIS等公共数据库中检索得到的特征信息。

测量信息:包括通过ping和traceroute命令获取的数据。它记录每个IP地址经过的最后4个路由器和相应的延迟时间。特征维度的详细划分如表1所示。值得注意的是,上海数据集包括21个额外的分类特征维度,通过对以下属性的独特独热编码引入:` orgname `、` asname `、` address `和` ISP `。

(3)标签信息:这是指每个IP地址实际对应的地理经纬度。为了保证经纬度数据的准确性,Z. Wang团队[5]将用户设备的GPS数据与指定平台的众包数据相结合,建立了严格的筛选和过滤机制。将标签信息作为模型训练的目标输出,并作为误差分析的基准,帮助提高模型的预测精度。

4.1.2. Uniformity analysis of datasets

数据集均匀性分析

为了进一步评估实验的影响,我们评估了三个数据集的一致性。如3.1.2节所定义的,我们使用信息熵和标准差的组合来确定地标分布的均匀性具体来说,如果一个分布满足以下条件,则认为该分布是均匀的:地标数量超过5个,地标之间的标准差小于0.05,整体信息熵与均匀分布的信息熵之差小于0.1。均匀性结果如表2所示。我们对这三个数据集的分析表明,大多数IP分布是不均匀的。其中,纽约数据集最均衡,但其不均匀性仍显著超过均匀性。洛杉矶的数据集是最不均匀的,只有34%的ip是均匀分布的。这凸显了在实际数据收集过程中实现统一地标分布的巨大挑战。因此,所提出的识别合适近邻位置的方法是必不可少的。

4.1.3. Datasets processing

同时,为了保证模型对比的一致性,采用了与RIPGeo[24]相同的数据处理技术。数据集是随机划分的,80%的IP地址用于训练,20%用于测试。在训练过程中,70%的ip被指定为标记,而剩余的30%被用作目标ip进行验证。在测试阶段,利用训练好的路标来评估模型预测目标位置的准确性。我们进行了5折交叉验证以增强评估的可靠性,在不同迭代期间平均结果以获得全面的性能指标。

4.2. Comparison experiment models

为了评估NeighborGeo的性能,选择了几个最先进的比较基准,包括延迟测量方法、属性学习方法和图学习方法。这些方法的具体描述如下:基于延迟测量的几种主要方法包括:

(1)GeoPing[17]:一种收集网络延迟数据的方法。该方法根据延迟将目标IP分配到最近的地标服务器,并利用“最近原则”推断出目标IP的特定地理位置。

(2) CBG[22]:该方法在考虑距离限制的情况下,建立了一个综合的空间网格,并采用多角度定位的方法准确地确定互联网主机的精确地理坐标。

(3) TBG[23]:一种基于网络拓扑信息和延迟数据推导出一组规则约束来识别和定位路由器和Internet主机的地理位置的策略。

(4) NCRGeo[37]:通过计算路由器到地标城市的距离,利用多角度定位理论进行地理位置预测。

(5) XLBoost-Geo[39]:该方法从在线站点收集数据,基于目标地点和附近公共路由器位置的地理坐标进行评估。

几种属性学习的方法包括:

(6) NN-Geo[1]:将往返时延(RTT)等网络特征作为输入,利用神经网络的非线性映射能力推断IP地址的地理位置,实现地理空间关系的学习和预测。

(7) LightGBM[40]:该方法采用基于梯度提升树的算法,结合IP地址及其相关特征,快速准确地推断出IP地址对应的地理位置。

(8) MLP-Geo[25]:一种利用多层感知机网络将IP地址及其特征输入到模型中,并通过神经网络的多层结构集成路由器id等附加信息