永发信息网

重复个案和无效个案筛选

答案:2  悬赏:70  手机版
解决时间 2021-02-01 10:23
  • 提问者网友:疯孩纸
  • 2021-01-31 14:43
我在十几个网站进行了一个网络调查,调查共有5个问卷,任意选做的。现在想筛选去掉那些重复提交和乱答的个案。提供给我的数据是一个excel能够读取的数据包,包括以下7列变量:ID、问卷编号、电话、提交时间、网站、MAC/IP和答案,其中答案一列记录了所有题目的回答,每个题目答案用分隔符隔开的。
我的问题是:
第一,为啥MAC/IP这列变量会出现MAC、IP或类似“ACM”网站名的三种取值?当初跟对方说好记录MAC地址的。
第二,在MAC和IP混在同一列的情况下,是否可以根据相同MAC/IP、相同提交时间剔除重复项?我这种标准理解大致可以看做:同一同一时间内同一个电脑不可能同时接受2人以上的操作。我操作的结果是17万数据大约中8千个符合这种条件被删除,这合理么?
最佳答案
  • 五星知识达人网友:不如潦草
  • 2021-01-31 15:32
我说说自己的看法:
1. 是否可以根据相同MAC/IP、相同提交时间剔除重复项:可以。
你的理解可以成立。
2. 为啥MAC/IP这列变量会出现MAC、IP或类似“ACM”网站名的三种取值
MAC是网卡的地址,IP是上网时分配给机器的地址,这两者在某一时点或时段内是一回事。
对网外的机器来说,只能看到IP地址,对某一物理网内的机器才能看到MAC地址。网站名我觉得可能也是这种情况,但我也不太清楚。
全部回答
  • 1楼网友:一把行者刀
  • 2021-01-31 16:56
可以在syntax里面写的 我经常帮别人做这类的数据统计分析的
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯