使用特定垂直领域的训练集

准确率下降到 50%。 由于我们倾向于使用该工具来评估特定垂直领域的网站,因此这种方法永远行不通。每次测试都可能毒害过滤器。我们可以将训练集构建到数百万页,但我那尖尖的小脑袋无法考虑处理这一点所需的基础设施。 纯贝叶斯方法的真正问题在于它实际上只有一个特征:页面内容。

它忽略了链接

页面信任和权威性等因素。 哎呀。又回到 柬埔寨手机号 了原点。我把我的小人工智能送去接受咨询,并换了一个新大脑。 注意:如果没有 SEOmoz 的Pete 博士和Matt Peters 的帮助,我不可能解决这个问题。“感谢”似乎不够,但现在,只能这样了。

第二次尝试:获得合格的成功

我的第二个测试使用了逻辑回归。这个机器 他们可能只是用它来查找您的 学习模型使用数字数据,而不是文本。因此,我可以给它提供更多特征。经过第一次练习,这实际上并不太可怕。经过几个小时的工作,我得到了一个可以评估的工具: Page TrustFlow 和 CitationFlow(来自 MajesticSEO – 我现在正在添加 SEOmoz 指标) 每个单词的链接数 Page Flesch-Kincaid

它的准确率达到 85% 以上

如果你好奇的话,胜利是这样的: 这就是胜 短信列表 利的样子 然而,当我尝试使用该工具进行更一般的测试时,我的编码孩子被它那双大大的青春期小脚绊倒了。以下是一些比较有趣的结果: 它将自己视为垃圾邮件。

它认为兰德的博客是一个

充满垃圾邮件的绝望漩涡黑洞。 如果我们尝试在单一垂直领域之外建立训练集,假阳性仍然是一个大问题。 令人失望。但该工具在垂直领域运行良好,所以我们继续使用它。我们为每个客户构建一个自定义训练集,然后针对剩余的链接运行训练集。结果是一份相对清晰的报告: excel报表 结果和后续步骤 随着 IIS 逐渐学会走路,我们将大型链接配置文件评估的强力部分从 30 小时缩短到 3 小时。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部