您可以决定手动构建所有内容

或者,我就是这么做的。你知道,因为我有很多空闲时间。如果您不确定,请继续阅读。如果这个故事没有让您尖叫着跑向预构建的工具,请开始编码。我祝福你。 要素:Python、NLTK、scikit-learn 我为 IIS(它是垃圾邮件,而不是 Internet 信息服务器)勾勒出了如下流程: 从 SEOmoz、MajesticSEO 和 Google Webmaster Tools 下载所有外部链接页面的列表。

使用一个小 Python 脚本来抓取这些页面的内容

获取每个链接页面的 SEOmoz 和 MajesticSEO 指标。 构建 柬埔寨查询本机号码 我想要使用的任何附加功能。例如,我需要计算阅读等级和每个单词的链接数。我还需要提取所有有意义的单词,并计算这些单词的数量。

最后,将每个结果与我的训练集进行比较

为了做到这一切,我需要一种编 “做你喜欢的事”是糟糕的职业建议吗?程语言、某种自然语言处理(找出有意义的单词、清理 HTML 等)和一种可以连接到编程语言的机器学习算法。 我已经有点像一个 Python 黑客了(不是程序员——我的代码让程序员都哭了),所以 Python 是显而易见的编程语言选择。

我曾尝试过自然语言工具包

(NLTK)。它是为 Python 构建的,可以轻 短信列表 松过滤停用词、清理 HTML 以及完成我需要的所有其他工作。 对于我的机器学习工具集,我选择了一个名为 scikit-learn 的 Python 库,主要是因为那里有我可以实际阅读的教程。

我使用一些不太漂亮的 Python

代码将它们全部整合在一起,并将其连接到 MongoDB 数据库进行存储。 关于训练集 训练集决定了模型的成败。一个好的训练集意味着你的弹跳宝宝机器学习程序有一个好的老师。一个糟糕的训练集意味着它有Edna Krabappel。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部