反垃圾邮件技术解析(3)

2008-02-23 06:16:34来源：互联网阅读 ()

邮件中同时出现多个TOKEN串t1,t2……tn时，该邮件为垃圾邮件的概率。

由复合概率公式可得：

P(A|t1 ,t2, t3……tn)=（P1*P2*……PN）/[P1*P2*……PN （1-P1）*（1-P2）*……（1-PN）]

当 P(A|t1 ,t2, t3……tn) 超过预定阈值时，就能够判断邮件为垃圾邮件。

当新邮件到达的时候，就通过贝叶斯过滤器分析，通过使用各个特征来计算邮件是spam的概率。通过不断的分析，过滤器也不断地获得自更新。比如，通过各种特征判断一个包含单词AAA的邮件是spam，那么单词AAA成为垃圾邮件特征的概率就增加了。

这样，贝叶斯过滤器就有了自适应能力，既能自动进行，也能够用户手工操作，也就更能适应单个用户的使用。而垃圾邮件发送者要获得这样的适应能力就很难了，因此，更难逃避过滤器的过滤，但他们当然还是能够将邮件伪装成很普遍的正常邮件的样子。除非垃圾邮件发送者能去对某个人的过滤器进行判断，比如，采用发送回执的办法来了解哪些邮件被用户打开了等，这样他们就能够适应过滤器了。

虽然贝叶斯过滤器还存在有评分过滤器的缺陷，但是他更优化了。实践也证实，贝叶斯过滤器在客户端和服务器中效果是很明显的，优秀的贝叶斯过滤器能够识别超过99.9%的垃圾邮件。大多数现在应用的反垃圾邮件产品都采用了这样的技术。比如Foxmail中的贝叶斯过滤。

2.1.6 局限性和缺点

现行的很多采用过滤器技术的反垃圾邮件产品通常都采用了多种过滤器技术，以便使产品更为有效。过滤器通过他们的误报和漏报来分等级。漏报就是指垃圾邮件绕过了过滤器的过滤。而误报则是将正常的邮件判断为了垃圾邮件。完美的过滤器系统应该是不存在漏报和误报的，但是这是理想情况。

一些基于过滤器原理的反垃圾邮件系统通常有下面的三种局限性：

·可能被绕过。垃圾邮件发送者和他们用的发送工具也不是静态的，他们也会很快适应过滤器。比如，针对关键字列表，他们能够随机更改一些单词的拼写，比如("强悍", "弓虽悍", "强-悍").Hash-buster（在每个邮件中产生不同的HASH）就是来绕过hash过滤器的。当前普遍使用的贝叶斯过滤器能够通过插入随机单词或句子来绕过。多数过滤器都最多只能在少数几周才最有效，为了保持反垃圾邮件系统的实用性，过滤器规则就必须不断更新，比如每天或每周更新。

·误报问题。最头痛的问题就是将正常邮件判断为垃圾邮件。比如，一封包含单词sample的正常邮件可能因此被判断为垃圾邮件。某些正常服务器不幸包含在不负责任的组织发布的block list对某个网段进行屏蔽中，而不是因为发送了垃圾邮件（xfocus的服务器就是这样的一个例子）。但是，假如要减少误报问题，就可能造成严重的漏报问题了。

·过滤器复查。由于误报问题的存在，通常被标记为垃圾邮件的消息一般不会被立即删除，而是被放置到垃圾邮件箱里面，以便日后检查。不幸的是，这也意味着用户仍然必须花费时间去察看垃圾邮件，即便仅仅只针对邮件标题。

现在更严重的问题是，人们依然认为过滤器能有效阻止垃圾邮件。实际上，垃圾邮件过滤器并不能有效阻止垃圾邮件，在多数案例中，垃圾邮件依然存在，依然穿过了网络，并且依然被传播。除非用户不介意存在被误报的邮件，不介意依然会浏览垃圾邮件。过滤器能够帮助我们来组织并分隔邮件为垃圾邮件和正常邮件，但是过滤器技术并不能阻止垃圾邮件，实际上只是在"处理"垃圾邮件。

尽管过滤器技术存在局限，但是，这是现在最为广泛使用的反垃圾邮件技术。

2.2、验证查询

SMTP在设计的时候并没有考虑到安全问题。在1973年，电脑安全还没有什么意义，那个时候能够有一个可执行的邮件协议已很了不起了。比如，RFC524描述将SMTP作为单独协议的一些情况：

"虽然人们能够或可能能够，以本文档为基础设计软件，但请恰如其分地进行批注。请提出建议和问题。我坚信协议中依然存在问题，我希望读者能够阅读RFC的时候能够将他们都指出来。"

尽管SMTP的命令组已发展了很长时间，但是人们还是以RFC524为基础来执行SMTP的，而且还都假定问题（比如安全问题）都会在以后被解决。因此直到2004年，源自RFC524中的错误还是依然存在，这个时候SMTP已变得很广泛而很难简单被代替。垃圾邮件就是个滥用SMTP协议的例子，多数垃圾邮件工具都能够伪造邮件头，伪造发送者，或隐藏源头。

垃圾邮件一般都是使用的伪造的发送者地址，极少数的垃圾邮件才会用真实地址。垃圾邮件发送者伪造邮件有下面的几个原因：

*因为是违法的。在多个国家内，发送垃圾邮件都是违法行为，通过伪造发送地址，发送者就可能避免被起诉。

*因为不受欢迎。垃圾邮件发送者都明白垃圾邮件是不受欢迎的。通过伪造发送者地址，就可能减少这种反应。

*受到ISP的限制。多数ISP都有防止垃圾邮件的服务条款，通过伪造发送者地址，他们能够减少被ISP禁止网络访问的可能性。

因此，假如我们能够采用类似黑白名单相同，能够更智能地识别哪些是伪造的邮件，哪些是合法的邮件，那么就能从很大程度上解决垃圾邮件问题，验证查询技术正是基于这样的出发点而产生的。以下还会解析一些主要的反垃圾邮件技术，比如Yahoo!、微软、IBM等所倡导和主持的反垃圾邮件技术，把他们划分在反向验证查询技术中并不是很恰当，但是，从某种角度来说，这些技术都是更复杂的验证查询。

2.2.1、反向查询技术

从垃圾邮件的伪造角度来说，能够解决邮件的伪造问题，就能够避免大量垃圾

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有