qt: m.cmx.im/@Gaudi/10857865970296
把 750k 的数据下载下来看了,这样本量说多不多,说少不少,会不会里面有某个象友的呢?

着重看了 person_info 这个表. 根据年龄能判断出来是去年(2021 年)的数据. 但有一个疑点是,里面最大的年龄已经 121 岁了,1900 年出生的. 这样的人还很多,有 2232 个. 中国能活到 121 岁的老人有这么多吗?要么就是人死之后没有从表里删除,要么就是随机生成的数据,不然为啥没有 1899 年出生的人呢?

死亡后不从表里删除这还确实挺有可能,但明明有很多人被标记了“已死亡”标签呀!不过有一种解释是,如果死亡时间比较早的话,可能很早之前中国的公安系统中没有标签字段,打标签是后来的事情.

然后我自然很关心这里面最小的人. 2021 年出生的一共有 57 人,最晚的出生时间是 2021 年 7 月 20 日,那么如果数据真实,则数据泄露时间就晚于这个时间,可见这是一份相当“新鲜”的数据了.

关于 LABELNAMES 有一个标签让我很奇怪,叫“视线对象”,我查了也没查到. 有人知道这是什么意思吗?

@zero 咦,哪儿来的750k?
1900 是早期手动录入资料时,漏掉年份然后自动生成的。以及还有很多手动录入时的错误,后来也无从修改,很多国家户籍库里都有这种,百岁老人满天飞

Follow

@zero 哦哦,我之前看只有个很小的 json

· · Web · 1 · 0 · 0

@fivestone 哈哈因为下面评论区大家质疑样本量太小,所以那个人“per popular request”又多放了两个表 :0520: (这就是没有第一时间蹭上热点的好处了 :0120:

Sign in to participate in the conversation
Fivediverse

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!