使用 Gdelt 通过上下文链接分析找到某个主题上最具影响力的网站
第一个例子是寻找最佳记者的好方法,但总体而言,顶尖记者往往是最受青睐的。很多时候,从主要出版物中挑选不太知名的作者的作品会更容易。因此,具影响力,并在特定主题、话题或节拍上享有最广泛的联合将会非常有帮助。使用 Gdelt 庞大而全面的数字新闻数据库以及Google BigQuery和گیفی، 可以更深入地挖掘关键战略信息,帮助您确定内容推销的优先顺序.
我们提取了 Gdelt 数据库中已知在给定时间段内存在的有关特定主题的所有文章。在这种情况下(如前面的例子),我们研究“行为健康”。对于我们在 Gdelt 数据库中找到的符合我们标准的每篇文章,我们还捕获了仅在文章上下文中找到的链接。
具体操作如下:
- 连接到 Google BigQuery 上的 Gdelt — 您可以在此处找到教程。
- 从 Gdelt 提取数据。您可以使用此命令:SELECT DocumentIdentifier,V2Themes,Extras,SourceCommonName,DATE FROM [gdelt-bq:gdeltv2.gkg] WHERE (V2Themes like ‘%Your Theme%’)。
- 选择您在此处找到的任何主题– 只需更改各部分之间的百分比。
- 提取每篇文章中找到的链接并创建边缘文件。这可以通过一个相对简单的 Python 脚本来完成,从查询结果中提取所有 <PAGE_LINKS>,清理链接以仅显示其根域(而不是完整的 URL)并将它们放在侧边栏文件的形式。
注意:边文件由源–>目标对组成。来源是文章,目标是文章中的链接。边列表将如下所示:
- 第 1 条,在文章中找到的第一个链接。
- 文章 1,文章中找到的第二个链接。
- 第 2 条,在文章中找到的第一个链接。
- 第 2 条,在文章中找到第二个链接。
- 第 2 条,文章中找到第三个链接。
从这里开始,边缘文件可用于创建网络可视化,其中节 电报数据 点代表发布者,而它们之间的边缘代表来自我们的 GDelt 数据的上下文链接,提取我们想要的任何主题。
最后一个概念代表了撰写有关成瘾的故事的出版商网络,以及这些故事之间的联系。
我们可以从该图表中了解到什么?
这告诉我们哪些节点(发布者网站)具有最多的入度链接 为您的网站设置 CDN 。换句话说:谁的联系最紧密?我们可以看到与这个话题最相关的是:
- tmz.com
- people.com
- 疾病预防控制中心
- CNN.com
- go.com
- 美国国立卫生研究院
- ap.org
- 洛杉矶时报
- jamanetwork.com
- 纽约时报网站
哪家出版商最有影响力?
利用 Gephi 提供的“中介中心性”分数,我们可以精确了解网络 比特币数据库美国 中哪些节点(发布者)充当信息传输的枢纽。具有最高“中介中心性”的节点可以被认为是网络的“连接器”。从这些高中介中心性节点获取信息为特定主题/主题的联合提供了更高的机会。