使用 Python、 Selenium和Phantomjs 抓取每个剩余链接页面的缩略图。您不必执行此步骤,但如果您要从其他人那里获得帮助,它会有所帮助。 让某个可怜的家伙——一个忠实的 Portent 团队成员——来审查缩略图,快速检查它们是否是论坛、公然的链接垃圾邮件或其他东西。
在完成所有的准备工作之后
我的最终评审仍然耗时超过 10 个小时,令人眼 韩国手机号购买 花缭乱。 一定有更好的方法。我对机器学习的了解足以让我意识到它有潜力,所以我就投身其中。毕竟,这能有多难呢? 机器学习:基本概念 机器学习的概念 并不难理解: 拿一个需要分类的大型数据集。
它可能是书名
人名、Facebook 帖子,或者对 在隐私至上的世界中有效定位我来说,是链接网页。 定义类别。在本例中,我正在寻找“垃圾邮件”和“好邮件”。 获取这些项目的集合并手动对其进行分类。或者,如果你真的很幸运,你会找到别人为你分类的集合。例如,自然语言工具包有一个电影评论语料库,你可以用它来进行情绪分析。
这是你的训练集
选择正确的机器学习工具(哈哈)。 正确 短信列表配置它(哈哈哈哈哈哈哈哈哈哈嗅哈哈……对不起,我没事……哈哈哈哈哈哈啊啊啊啊啊啊啊啊)。 输入训练集,其中预先选定了特征(用于分类的商品属性)。如果可以的话,该工具会找到模式(咯咯笑)。 使用该工具将数据集中的每个项目与训练集进行比较。
以及对分类的信心
如果真的很酷,还会返回该分类中最重要的特征。 如果你忽略歇斯底里的笑声,这个过程似乎很简单。唉,笑声暴露了真相:这七个步骤很简单,就像“飞向月球,降落在月球上,飞回家”只需要三个简单的步骤一样。 注意:此时,您可以继续使用预构建的工具集,如BigML、Datameer或Google 的 Prediction API。