此次下载纯粹是由于学习和研商用,在本月二十五日公布的汽车目的摇号中签名单中

近些年网上传出3000万酒家用户数量走漏,出于好奇,小编也从网上下载了一份下来。这一次下载纯粹是由于学习和钻研用,不会做什么坏事,不要问作者要下载地址,我们温馨找。由于作者并不是学总计和数目挖掘地点的,所以不得不浅显的做做总括分析,上边伊始我们的就学和钻研。

后天发现壹个妙不可言的网站(http://familienaam.be/),它可以用来询问Billy时在籍人口姓氏的分布和人口总数,数据来源于一九九九和二零零六年Billy时总人口登记。下边让大家分别用Billy时的两大姓氏Peeters和杜邦来试试。

在本月二日发布的小小车目标摇号中签名单中,有市民发现“刘雪梅”那么些名字两次三番七个月初签,可疑这么些景况是或不是符合规律。明日,新加坡小地铁目的办在网站发表了摇号于今中签可能率较高的部分人名,同时指示市民,中签常见“同名区旁人”的现象,查询中签结果以作者的提请编码为准。

先是,数据源唯有二个表(总数据2007W),里面根本存放了用户的全名、证件类型,证件号码,生日,性别,住址,手机号码,邮箱等亲信消息。这一个数据应该是从五个数据源集成进来的,因为中间的格式很不整齐,有个别暗中同意值使用的也不一致。我们要做多少解析,那么要求举办多少清理,然后建立Cube,使用ETL转换来维度模型,最终采用各个前段显示工具进行体现。

图片 1

小地铁目标办代表,小地铁目的摇号配置程序通过国家安全、音信等关于机构的视察,摇号进度在纪检监察人士、公证人员的监督与公证下展开,摇号现场邀约市人大代表、政协委员和申请人表示插手,且对媒体开放,各样环节均确保“公平、公正、公开”。自第三期摇号至今,本市小地铁目的调控管理音讯连串共计收取符合摇号条件的村办报名16761五十多个,其中已有4411九十九个人中签,占26.3%。

多少清理

重借使去除字符串首尾的空格,还有就是广大数目是一直不生日和性其他值的,不过大家领会,通过身份证编号就可以推断出生日和性别,所以那有个别数据足以补齐。其它还有就是数额再一次难点,大家得以把身份证编号作为主键举行去重,小编寻找了下,有一致身份证编号的大致占总数据的0.5%,所以自身也就一直不做去重工作,认为其中的多寡都意味二个单身的人。

Peeters在Billy时的食指分布。

据总结,申请人重名现象较为常见,例如:姓名为“王磊(wáng lěi )”的申请人有14肆十个,其中3八十三个已中签,占26.2%;姓名为“冯仁亮”的申请人有146三个,其中37捌个已中签,占25.7%;姓名为“张建军”的申请人有281个,其中7四个已中签,占26.6%;姓名为“刘雪梅”的申请人有7伍个,其中拾7个已中签,占26.7%。

多维分析模型

有真名,大家可以对姓氏分布举行辨析,有了身份证编号,咱们得以对家乡(省、市、区)举办解析,对出生的时辰分布举办分析,对性别分布举行分析。住址由于格式太不雷同,就不分析了,有了手机号码我们可以对手机号码段的遍布举行解析,也可以对用户所在地举行分析(绝半数以上用户选用的手机号就是日常生存所在地的号),有了邮箱地址可以对域名展开计算。

要收获身份证对于的地方,以及电话号码对应的地点,可以从网上找到对应表,导入数据库中即可举办联合分析。

图片 2

截图来自:http://familienaam.be/

据悉摇号系统规划,不论重名的申请人有稍许,每1个人申请人都会被随意赋予一个不得重复的申请编码。申请人在查询中签结果时应以自个儿的报名编码为准。

出生年月和性别

在建立了多维模型后,使用Excel连接Cube进行多维分析是个很简短的事情。上边我们看看全体人士的年华分布。

图片 3

笔者们可以看看,住酒馆的人最首要集聚在1963~1987年左右,由于大家的数量是Budget
Hotel(相比廉价的酒店)数据,可以想像,住这一个饭馆的都以社会的中低层,高富帅和官二代是一定不住那种商旅的,穷的很的那就唯有住更廉价的旅店只怕睡轻轨站了。住酒馆的人的年华段大多数都还在劳作,看来众多少人住商旅可能因为商务的缘由。从十五虚岁到20岁左右的商旅人数如故个别哈,并不是风传的都是约炮数据。

下边再来比较一下各年龄段性别上的分布。(为了便于观望主体数量,小编把日子段减弱成一九四六~两千)

图片 4

从图中可以看看,在一九八九年事先出生人里面,住酒馆的男性比例远领先女性,毕竟出差的人要么以男性多多吧,这些数额可以知道。可是在90后的年龄段里面,女性比例和男性比例基本是1:1,甚至还有个别数据是女性比例大于男性,90后才刚跨入社会开始工作,只怕还从未从头工作,所以不存在大量男性出差的标题,可是怎么女性比例会比男性比例高吧?那么些题材有意思,留给我们温馨YY。

图片 5

电视记者随着就此题材咨询了连带单位,据了然,以本市开展的前5期摇号为例,中签者的重名比例和全国姓名重名比例基本相符。摇号中八个最幸运的名字就是“王伟”和“张伟”。以第一次摇号的数据为例,姓王的申请者有176几人,姓张的有1557个人,接下去,李姓有14陆拾伍人,刘姓有1150人,赵姓有607人,陈姓有55七位,杨姓有5十六人,吴姓有26几个人,周姓有2五十7人。中签结果中,仅王伟那么些名字就涌出了17次,那的确也变为了首轮摇号中最幸运的名字。其余重名较多的分级为张伟拾伍人、李伟拾4位、李娜11人、李景胜十位、刘伟(liú wěi )七位。

省份分布

笔者们可以从身份证号码前3人精通一人在诞生上户口的时候所在的省份,可以计算逐个省份的住饭店人数。自个儿计算这几个没什么意思,把全国人口总计数据拿出来比较就相比较好玩了。上面看看做出的表。

省份 酒店排行 人口排行 上升名次
江苏 1 5 4
山东 2 2 0
浙江 3 10 7
河南 4 3 -1
安徽 5 8 3
湖北 6 9 3
上海 7 24 17
河北 8 6 -2
辽宁 9 14 5
山西 10 18 8
四川 11 4 -7
江西 12 13 1
黑龙 13 15 2
陕西 14 16 2
福建 15 17 2
湖南 16 7 -9
广东 17 1 -16
北京 18 26 8
吉林 19 21 2
内蒙 20 23 3
天津 21 27 6
甘肃 22 22 0
广西 23 11 -12
贵州 24 19 -5
新疆 25 25 0
云南 26 12 -14
青海 27 30 3
宁夏 28 29 1
重庆 29 20 -9
海南 30 28 -2
西藏 31 31 0

作者们得以看到,巴黎、广东、云南、上海、圣萨尔瓦多这多少个地点的住酒馆人数排行远高于人口名次,江浙一带和京津塘一带经济很蓬勃,出差频繁,可以精通,可是吉林干什么出差那么多呢?大概广东人有商贸的基因吗。

别的就是发现广西、广东、山东、西藏、阿比让的住酒馆人数小于人口名次,广西很强盛啊,怎么会住酒馆的人少呢?大概是因为青海人喜万幸地头发展吗,出来随处漂的并不多。

地点只是从身份证上查获的省份,下边再看看手机号得出的省区数量,这几个数量浮现的应该是人们当前工作/生活的省区的情形。

省份 酒店排行 人口排行 上升名次
江苏 1 5 4
上海 2 24 22
北京 3 26 23
山东 4 2 -2
广东 5 1 -4
浙江 6 10 4
河南 7 3 -4
湖北 8 9 1
辽宁 9 14 5
陕西 10 16 6
河北 11 6 -5
福建 12 17 5
山西 13 18 5
安徽 14 8 -6
黑龙 15 15 0
天津 16 27 11
四川 17 4 -13
江西 18 13 -5
湖南 19 7 -12
吉林 20 21 1
内蒙 21 23 2
重庆 22 20 -2
广西 23 11 -12
甘肃 24 22 -2
贵州 25 19 -6
新疆 26 25 -1
云南 27 12 -15
海南 28 28 0
宁夏 29 29 0
青海 30 30 0
西藏 31 31 0

 

 

 

以此数额比上三个数据的出入更大,可以视为极度不平衡,可以见到,新加坡、上海、丹佛的生意很强盛,人口排行不高,不过住旅馆的食指排行尤其高。比较杯具的是安徽、河南、四川、湖北,工作和出差人数远点儿人口基数。

杜邦在Billy时的总人口分布。

记者还发现,一个人签约“陈陆军”的网友还在今日头条中对购车中签重名的标题开展过正式计算。那位网友以第2期摇号数据为样本,在搜狐里记录了祥和的测算进度:“摇号结果的1.76万个姓名,经过分类测算,无论是姓氏分布依然姓名重名情形,都与姓名学学术商讨中的新加坡市人口姓名分布特征中度一般。

姓名分布

此地本身只总括了姓,没有计算名,不过姓名可以先说一下,在全体人名数据中,重名最高的前十个姓名是:张伟,王伟,王磊先生,李伟,张磊,刘伟(liú wěi ),杨建桥,张勇,王勇,奥利维奥·达·罗萨。相信广大人周围就有这几个姓名的人。重名名次前2伍1伍个人左右的都是三个字的姓名,看来起多少个字姓名的重名率会低很多众多。重名率最高的Top10七个字姓名的是:王建军,王志强,王建华,王晓东,张建军,王婷婷,王志刚,张建华,李晓燕强,张婷婷。好像周围也很不难找到这一个姓名的人。

上面依然说姓吧,这么些对中中原人来说很要紧。姓氏很多,网上找了3个前200姓氏人口排行表,拿来和本人做出来的数额比较,发现有以下多少个数字相比较卓绝:

  • 金姓和陆姓的小吃摊统计名次远远大于人口总结名次。
  • 邓,曾,孔那多个姓的酒吧计算名次远远小于人口计算名次。

里头原因还得从其余维度去一起分析,或然是因为有些姓是汇总在有些地点啊!

其余三个题外话,在Top200的姓氏人口计算中绝非肖姓,却有萧姓,其实那是同二个姓,元代根本未曾姓肖的,后来由于文革时代的简体字运动,把萧简写成了肖,后来以此简写又被废除了。

截图来自:http://familienaam.be/

公安部门资料呈现,东京(Tokyo)上上下下人数中五大姓为王张李刘赵,抽中的1.76万人中五大姓也是王张李刘赵,顺序一点都不差,各自占总样本比也惊人一般:王占十分一,10.4%(前为中签姓占总额比,后为公安统计比例,下同);张占8.8%,9.4%;李占8.3%,8.5%;刘占6.5%,6.9%;赵占3.4%,3.5%。误差范围均为0.1%-0.6%,首要原因应该是有一些非京籍人口越来越是少数民族人口的加入,使姓氏分布规律略微改变。那正吻合总括学的基本原理,样本越大,越接近实际情形。1.76万和18万,都可以说是较大样本。”

出生月份计算

很粗略的三个统计分析,看看一年拾三个月里面,哪个月出生的人最多。

图片 6

从图中得以看到,二月份的人最多,十一月份的人最少。为何会那样啊?可能须求我们来解释。

由上述两图可知,Peeters是Frye芒人普遍的姓氏,人口总数近3万3千人,多居住在弗莱芒区的东边;而杜邦是瓦隆区常见的姓氏,人口总数几乎1万转运,多居住在瓦隆区的西西边。

手机号段分布

本人那边取的是手机号码的前多少人,应该哪个最高?小编直接认为是138,结果发现是139。

139 1399857
138 1230530
135 782764
136 778188
137 683742
186 581451
159 456526
158 434760
133 356135
150 324798

举手投足的数码占很大优势,联通186和电信的133都排在前边了。看来广大中低产阶级如故选移动的多呀。

当然还是可以更进一步分析具体是海内外通、神州行如故动感地带的,难得提取了。有必要的话可以再花点时间分析分析。

当然大家也能够用它来询问在Billy时的华夏人的姓氏,比如天下第③大姓“李”——将近一亿人数姓李,说它是金榜题名大姓应该不为过。李姓在Billy时第叁分布在晋州、西雅图等大城市,瓦隆区、越发是西南边的卢森堡省李姓人口较少。

邮箱域名分布

邮箱域名里面,哪个最多?以前听闻是163,后来又听大人讲QQ邮箱把他领先了,我们照旧看数量吧。

前10大邮箱域名排行:

@qq.com 611842
@163.com 594392
@126.com 274512
@hotmail.com 203237
@sina.com 151798
@yahoo.com.cn 101692
@gmail.com 96346
@139.com 67565
@sohu.com 50179
@yahoo.cn 31274

QQ邮箱果然是最多的,但是优势也不是那么明显,而且排第1第1的都以搜狐的信箱,加起来就跨越QQ邮箱了。

以上只是简短的解析,其实在开展了很好的数量清洗和模型设计后,我们还足以从中挖掘出很多幽默的地方。特别是接纳上数据挖掘算法,可以导致多少个维度之间的相关性,由于工作较忙,时间比较匆忙,所以实验就完事那里。我们有如何想分析的话可以留言,小编再做做。

图片 7

值得注意的是,用那一个网站查询中国人姓氏的准确度是要削减的。首先,中国人不少姓氏的拉丁文写法相同,比如“李”和“利”、“黎”、“厉”、“栗”等姓氏都撰写Li,查询结果不能区分。其次,来自于香岛和山西的亲生使用与陆上不一致的拉丁文表明,比如李写作Lee,刘写作Lau,林写作Lam等等。第1、长时间居留以及B卡长居的中夏族不在Billy时总人口登记数据之列,唯有已入比籍、只怕持其他体系长居的人数才会被总结到登记人口之中。所以在这几个网站上用大陆拼音查询,得到的结果更类似于来自大陆的移民的姓氏分布,且其中因为同音,部分姓氏的结果其实是多少个姓氏人口的总和。

纵然,大家照旧得以继承玩下去。

在普通话维基上,我们得以查到中国的姓氏排名,其中“中国四百大姓”的人头多少来源于于“全中国13.3亿总人口的姓氏数据库(二〇〇八-二〇〇九)”。下图节选的是名次前20的姓氏及其人口总数。由于那套数据和Billy时姓氏分布网站的源数据计算时期相近,都为二〇一〇年左右,所以两套数据里面应该有一定的可比性。

图片 8

截图来自:https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%9B%BD%E5%A7%93%E6%B0%8F%E6%8E%92%E5%90%8D

接下去,用“中国四百大姓”的前100大姓的拼音为紧要词,依次在Billy时姓氏分布网站上进展询问,以在比登记人口数领先200为专业,筛选出拾七个适合此标准的中原姓氏/姓氏组合,根据在比登记人口由多到少的次第它们分别为:陈,王/汪,张,李/黎,刘,吴/武,杨,林,唐,徐/许,周,黄,叶,朱,于/余,吕/陆/卢,胡,曹和赵。

分级计算那拾8个姓氏/姓氏组合在“全中国13.3亿总人口的姓氏数据库(贰零零捌-二零零六)”和二〇〇九年法国人数登记中的人口数,将这一个多少的总额作为“在比”和“国内”七个池塘,拿到19姓氏/姓氏组合在比共有846二人,在境内共有69928万总人口。再分别统计各个姓氏在多少个池塘所占比重,例如:陈姓在比1050人,占19姓氏总和846肆人的12.三分之二;陈姓在国内6130万人,占19姓氏总和69928万人的8.77%。以此多少个比例为坐标,将19姓氏/姓氏组合投射在二维平面上,得到下边那张图。

图片 9

19姓氏/姓氏组合人口占比对照。

在上图中,19姓氏/姓氏组合分为三类,紫红字体的姓氏/姓氏组合位于图的左上部分,且距离对角线较远,表示在比人口比例相对较大;藤黄字体的姓氏/姓氏组合位于图的右下部分,且距离对角线较远,表示在境爱妻口比例相对较大;蓝绿字体的姓氏/姓氏组合靠近对角线,在比和在境内的人口比例无较大差别。

有关国内的姓氏分布,作者从未找到一个有保险数据来源的网站,只找到一个“大中华族谱”网(http://www.dzhzp.hk/default.php)来看个大约。

新民主主义革命字体的几个姓氏/姓氏组合分别为陈,唐,林,叶,吴/武,它们的一个共同点是重点分布在西部,越发是西南沿海省份。

图片 10

大青字体的七个姓氏/姓氏组合分别为李/黎,张,王/汪,刘,赵,它们的多个共同点是重中之重分布在北方或中央,西南沿海省份分布较少。

图片 11

敲定就很令人惊讶了,在左右近百年的历史中,Billy时的中国人移民大多来源于于祖国东北沿海省份的侨乡,改进开放之后通过留学、经商、工作、跨国婚姻等路线移民Billy时、来自全国任何地方的中原人在脚下任何Billy时夏族华裔群体中人数占比如故较小。

文/Athlon_BE
2016.7.6   

相关文章