yhlhhhhh yhlhhhhh - 每日与生物工程斗智斗勇到谢顶 综合讨论组

从微基因的姓氏祖源中的祖源相似性一栏中爬取自己与所有地区的祖源相似度

为什么我会有这个冲动:因为微基因只会给出相似度最高地区,祖籍地以及现居地的祖源相似度。然而身为一个跨省混血表示很委屈。
话不多说,教程开始。
用到的软件:VScode,Chrome
编程语言:Python3.8
编程模块:chardet,pandas
思路:用Chrome的开发者模式在官网前端上找到相似度,之后将数据记在txt上,选取一小段加密字符串,推测编码方式,再根据找到的编码方式解码,将数据整理输出成csv
步骤:
1. 找到下图页面,看到‘地图’二字,将script标签展开,会发现这里定义了一些变量,其中发现了变量名中有similar result等字样,同时后面定义的字符串中包括一个类似于python字典的东西,虽然键我们读不懂,显然是被加密的,但是值我们可以看出来都小于1,所以这应该表示这是一个率,所以认定这部分应该和相似度关系很大。所以我们将这个script标签下的所有东西都copy下来,粘贴到一个txt上。

截屏2021-07-15_下午11.05_.31_.png

 
2. 我们开始破解那些谜一样的键。我们利用chardet模块过程来先识别,先拿一小块试试。
代码:

截屏2021-07-12_下午4.44_.01_.png

 
结果:

截屏2021-07-12_下午4.44_.21_.png

 
有大概93%的概率是utf-8加密,所以我们就利用utf-8方法将这段字符串解码
代码:

截屏2021-07-12_下午4.44_.32_.png

 
结果:

截屏2021-07-12_下午4.44_.48_.png

 
最后发现真的是个地名
3. 最后到了熟悉的读取处理数据环节
代码:

截屏2021-07-12_下午4.45_.10_.png

 
结果:

截屏2021-07-12_下午4.45_.34_.png

 
4. 将字典数据转换为pandas的series,再输出到csv中
2021-07-15 • IP属地北京
按热门排序    按默认排序

2 个回复

-1882a849520e2072.jpg
yhlhhhhh - 每日与生物工程斗智斗勇到谢顶
前排提示!!!注意只能提取自己数据哦,禁止在未经别人允许情况下提取他人数据(求生欲满满)

要回复问题请先登录注册