这就是我们的初始训练集

仅靠准确度是不够的。训练集还必须涵盖所有可能的分类场景。一个“好”页面和一个“垃圾邮件”页面是不够的。你需要数百或数千个页面来提供一个很好的可能性范围。否则,机器学习程序就会摇摇欲坠,无法对狭窄训练集之外的项目进行分类。 幸运的是,我们最初的手动审核重新收录方法为我们提供了一组精心挑选的垃圾页面和好页面。

后来我们通过运行

并手动验证好页面和 柬埔寨手机号码 坏页面结果,进一步深入挖掘并扩大了训练集。 它在 Is It Spam 2.0 上效果很好。但在 1.0 上效果不太好。 第一次尝试:失败 对于我的第一个版本的工具,我使用贝叶斯过滤器作为我的机器学习工具。

我想嘿它适用于电子邮件垃圾邮件

为什么不适用于 SEO 垃圾 2018 年的 8 个 SEO 趋势 邮件呢? 显然,那时我已经神志不清了。贝叶斯过滤对垃圾邮件的作用就如同用棒球棒钓鱼一样。它偶尔会捕获垃圾邮件。但它也会漏掉很多垃圾邮件,将合法的电子邮件放入垃圾邮件文件夹,并且通常会让全世界的垃圾邮件发送者感到好笑。

但是在疯狂中

我忘记了所有这些小问题。Is It Spam 1.0 一开始看 短信列表 起来非常棒。初步测试显示准确率为 75%。这听起来可能不太好,但有了准确的置信度数据,它确实可以简化链接配置文件审查。我为这个机器学习工具的诞生而感到自豪。 但贝叶斯过滤器可能会“中毒”。

如果你给过滤器输入一个训练集

其中 90% 的垃圾页面都在谈论婚礼,那么该工具可能会将所有与婚礼相关的内容视为垃圾邮件。这正是我的情况:我输入了大约 10,000 页的垃圾婚礼链接(我们在婚礼行业做了很多工作)。在下一次测试中,Is It Spam 决定任何与婚姻有关的内容都是垃圾邮件。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部