图片上的手机号码和Email地址采集解决方案

摘要

将手机号码和Email地址做成图片显示给访问者,给复制粘贴造成难度,可以有效提高网站的访问量,但是对于数据的收集整理则带来诸多不便。在邮件群发、电话营销过程中,我们还是需要将这些资料整理成数据,以方便在邮件群发软件中批量导入,在电话呼叫系统中定时拨号。

目前将这类数据转成图片的网站有一些,小的网站就不说了,访问量搞的如58同城、赶集网等。对于这类数据的采集,不可能采用抓取网页,然后按照正则表达式的规则匹配,因为一个页面上会有很多图片,如果软件不做定制,是无法确定哪一张图片上显示的信息是你想要的,而如果将每张图片都转换成文字再做判断,这也是不现实的,至少目前的电脑是受不了这么频繁的转换的。

将手机号码和Email地址做成图片显示给访问者,给复制粘贴造成难度,可以有效提高网站的访问量,但是对于数据的收集整理则带来诸多不便。在邮件群发、电话营销过程中,我们还是需要将这些资料整理成数据,以方便在邮件群发软件中批量导入,在电话呼叫系统中定时拨号。

目前将这类数据转成图片的网站有一些,小的网站就不说了,访问量高网站的如58同城、赶集网等,都是邮件群发营销和电话短信营销青睐的目标。对于这类数据的采集,不可能采用抓取网页,然后按照正则表达式的规则匹配,因为一个页面上会有很多图片,如果软件不做定制,是无法确定哪一张图片上显示的信息是你想要的,而如果将每张图片都转换成文字再做判断,这也是不现实的,至少目前的电脑是受不了这么频繁的转换的。

我们以58同城的企业名录为例来叙述解决方案的基本处理过程。

1、首先通过 http://qy.58.com/sh/pn2/ 主页查找企业目录;

2、打开具体的页面如:
http://qy.58.com/213346056198/?PGTID=14140325831750.05128938476721712&ClickID=25
读取公司名称,公司资质,公司行业,公司性质,公司规模,联系人,联系电话,邮箱,企业网址,公司地址。
其中联系电话可能是手机号码或者固定电话;联系电话和邮箱都是混淆加密显示的图片。

3、使用正则表达式采集以上对应的字段。

4、对上海延誉自主开发的图文识别模块有针对性的进行训练至少50个案例图片,以提高图片转电话和邮箱的精确度。

5、将采集到的电话和邮箱转成对应的文字,并且每条记录保存一行。

6、在采集结果的Excel中,人工逐行校对。

从以上的处理过程不难看出,要最大限度的准确提取这类网页上的手机号码、Email地址等信息,必须有人工参与的过程,这也是为什么这方面可以出解决方案,而不出具体产品的原因所在,更具体的解决方案可登陆158软件官网www.qunfa158.com上查询。

欢迎致电咨询软件定制开发事宜:

软件定制开发

您可以选择一种方式赞助本站