先对上节课中的一些问题做下集中回答:

世界上还没有一种方法可以有效的告诉我们提取出来的邮箱是有效的还是无效的,是采购商的还是供应商,或者是能明确告诉我们A/B两种状态中的一种,但这并不妨碍我们的目标,我们的目标是追求  “n个邮箱*概率=询盘” 这种状态,当概率固定的时候(通常可以认为是一个很小值),这时候提高n就变得很重要,这也是今天这课的核心。

有部分同学在执行pip的两条命令的时候会收到“该命令无效。。。”这种提示,这是因为某些区域的网络对这块做了限制,解决方法是看网盘里本ID上传的一篇补充文章“pip在命令提示窗口报错的解决方案”,照着做就可以了。

搞清楚google抓取和抓取google邮箱的区别,一个是使用google引擎抓取,和我们现在用bing是一样的,另一个是在现有的搜索引擎下抓取google的邮箱(也就是gmail),我们今天还是使用bing,理由大家都懂的,后面会专门开一个课教大家使用google抓取。

下面来上课,我们在第一节课中学会运行的那个脚本,如果我们稍微看一下代码,或从结果上分析,就会知道有几个局限性,第一个是她单次只能抓取一类邮箱,导致我们某个关键字对应的结果会很有限;第二个是一次只抓取50条数据(去掉不匹配的,实际返回的<50),这是因为没有处理翻页。今天本ID就带领大家一并解决掉这些问题,顺带多交大家一个衍生出来的问题,当返回结果有1000条的时候,就需要导出个文件了,否则粘贴复制就会麻烦死你。

【数组】

要解决以上的问题,我们要引入一个程序的概念“数组”,这个其实很好理解,数组就是一群具有相同性质的东西聚合体,比如之前我们用单引号括起来的那串字母 u'hotmail.com' 就是表示这是一个字符串,字符串前面的u表示的这个字符串是unicode格式的,不知道什么是unicode吧,没关系,我们先背出来,字符串前面都需要固定写一个u的,这是固定格式,那么一组字符串怎么表示呢,答案是用 [ ] 括起来,下面是一个示例,表示我们想同时抓取 hotmail和yahoo的邮箱:

email = [u'hotmail.com', u'yahoo.com']

多个字符串之间用逗号隔开,你可以按照这个格式扩展你想得到的邮箱后缀,本ID只带你入门,但最后开干的事情是你自己搞定的,邮箱的后缀网上一搜一大把,把你想得到的都填上就好了,这个直接决定了你最后能搜到的邮箱数量,如果你连这步都懒得做,那么你直接来外贸邦买钻石会员好了。

【变量】

变量我们理解成一个标识,就像学校里的学号,这是学校对每一个学生的唯一标识,但这个标识在每一届对应的学生是不同的,比如2016界的007号对应的是王二麻子,但2004界的007号对应的可能是林志玲,对于学校来说,不变的是007学号,变得是007最终对应的那个,这个道理在程序里也是一样的。现在我们需要设定一个变量,这个变量是我们期望抓取的数量,现在我们就假定是1000好了,但到底这个最终能不能到1000,还需要取决于我们上面那个提供的数组你有没有好好补充完内容。

want = 1000

want就是个标识,和007一样,他现在的值等于1000,记住,数字是不需要加引号和u的,标识也是一样的,这里我们不需要太贪心,比如把这个值设置为10w+这种,因为这里有个坑,每个搜索引擎都会时刻监视我们的行为,当我们很频繁的去请求或去抓取的话,轻则需要人工输入验证码,重责被关一段时间(就是不让我们访问),这里面有个平衡点,我们需要不断尝试才能知道那个G点再哪里,本ID建议你一开始,先设个1000,然后数组那里呢也不要多,先加个2,3个左右,慢慢的再增多。

【输出文件结果】

当我们做了上面两步后,正常情况下按了F5就会看到源源不断的邮箱扑面而来,暗爽的时候也会给我们管理带来很多不便,如果能把结果都保存到一个文件里那该多好,没问题,满足你,看以下代码:

f = open(u'd:/52wmb.com.csv', u'w')

已经能看懂一半了吧,看不懂把文章从头再看一遍,f是一个变量,u'd:/52wmb.com.csv'是一个字符串,表示我们最后在D盘根目录下生成了一个 52wmb.com.csv 的结果文件,有需要的修改自己想要的位置和文件名,但注意在PYTHON中路径是以 / 分开的,u'w'的意思是每一次生成这个文件都是覆盖之前老的已有的,如果我们想每一次新的结果都继续加在文件末端而不是覆盖,把这个参数改成 u'a'就可以了。还有,这里用了csv的格式,这是一种文本格式,可以用excel打开。

###################################################

以上就是今天第二节课要上的知识点,我们了解了数组是怎么回事,知道了变量这个东西,也知道写文件差不多是这个样子的,下次如果你公司有心仪的程序GGMM,记得用上面这些术语去套套近乎。本ID已经为你准备好了第二课的脚本了,虽然这个脚本能直接运行,但我真的很想让你知道点皮毛,最起码知道要修改哪几个地方吧,老规矩,下载网盘中的class_2.py,右键选"Edit With IDLE",看到的应该是下面这个界面:

第二课:从50个邮箱到1000个

看到熟悉的 email ,want,f 这三个变量了么(如果你刚才好好上课的话),改吧,骚年!当然你也可以直接按F5看看结果先,正常情况下,我们会看到又出来一个熟悉的界面,不停地跳着邮箱,这回可不像第一课的那个,要跳一会儿的,大概3,4分钟的样子吧,看到 >>> 这个提示符出来就表示结束了,看下图:


去D盘收获我们的劳动成果吧,如果你没有改 f 这个变量,那么52wmb.com.csv这个文件已经躺在根目录下了,用excel打开看看,是不是幸福满满啊。


差不多了,本ID现在脑子里已经憋不出东西了,本来还想再说说怎么规避搜索引擎监控的机制的,但今天就先算了,大家执行脚本的时候小心点,不要一下子添加过多的邮箱后缀,也不要用太大的抓取值。

百度网盘: http://pan.baidu.com/s/1mi2d1Ba

第一课:2秒钟内获取50个邮箱:http://yue.52wmb.com/article/1993

第三课:从google抓取邮箱:http://yue.52wmb.com/article/1995

本文经邦号 【我真的是客服】 投稿,并经邦阅网编辑,转载请注明出处、作者和【本文链接】。

下一篇
28
分享至:
投稿邦号
评论
登录 后参与评论
  • Titus999
    Titus999

    谢谢了,您真是跨界人才。。。。

    2018-06-29
  • 丨yoka丨
    丨yoka丨

    只有一个C盘,该目录后,然后就没有然后了。。。
    =========== RESTART: C:\Users\yoka\Desktop\邮箱抓取工具\class_2.py ===========

    Traceback (most recent call last):
    File "C:\Users\yoka\Desktop\邮箱抓取工具\class_2.py", line 25, in <module>
    f = open(u' C:/52wmb.com.csv', u'w')
    IOError: [Errno 22] invalid mode ('w') or filename: u' C:/52wmb.com.csv'
    >>>

    2018-04-14
    邦号回复

    说明你没有C盘根目录的读写权限,可以修改成你的桌面目录,或者用管理员的权限来运行IDLE

    2018-04-16
  • 钱多多
    钱多多

    有没有批量验证邮箱的方法呢

    2018-04-09
    邦号回复

    没有的哦,这个就需要批量群发开发邮件了,后面你需要的就是用科学的辩证法,不,概率论来验证你的邮件模板的有效性,找个专业的邮件服务商,可以看到很多统计数据的,然后一步步优化自己的工作,这就是邮件开发的全部知识了~~~

    2018-04-10
  • 邦友1513820032758
    邦友1513820032758

    换了个新电脑, 之后再照着以前的办法重新装了一次, 但是发现之后搜索邮箱时一直sleep... sleep就结束, 搜索不到邮箱了, 怎么解决?

    2018-04-02
    邦号回复

    外部网络环境有发生变化吗?还是检查下新电脑有没有D盘?

    2018-04-10
  • Yuntian
    Yuntian

    方法不错,谢过

    2017-10-27
  • 邦友1490751996926
    邦友1490751996926

    成功,感谢

    2017-10-03
  • Ro.Dai
    Ro.Dai

    赞! 确认可以收集到邮箱。

    即使是一样的设置,2次搜索会有少许的邮箱差异,有兴趣可以进一步提取。

    我把key那里也改了,这样一下搜三个关键词。

    一天搜出来3100个不重复的。 大家可以用xls,选定范围,数据,筛选出不同的出来。

    谢谢楼主分享~

    2017-05-27
  • 哈哈糖
    哈哈糖

    楼主,首先感谢你,很实用。我还想请教一下,企业邮箱的后缀各不相同,而且未知,但企业邮箱更为有用,如何能提取?再次感谢

    2017-03-21
    邦号回复

    这个需要你自己去收集的,一个简单的办法是看企业的域名,企业邮箱的后缀一般和域名相同。

    2017-03-21
  • Bond02
    Bond02

    楼主,还是没有弄懂如何抓取不停地企业邮箱呢。。给咱们普及普及下呗

    2017-02-24
    邦号回复

    这个需要自己添加不同的企业邮箱后缀才可以实现的,可以去你的目标公司的facebook主页看看,一般都有邮箱的

    2017-02-24
  • 君临天下
    君临天下

    感谢

    2017-02-07
  • 外贸搜索神器
    外贸搜索神器

    很详细

    2016-12-27
  • frida-howah
    frida-howah

    每个字都认识。连一块儿就不认识了

    2016-11-08
    邦号回复

    建议从第一课开始,照着教程一步步做

    2016-11-08
  • Angu
    Angu

    表示看不懂

    2016-11-04
爱心公益
举报
问题反馈
返回顶部