There is a 较新的版本 这个记录可用。

数据集 开放访问

一个大型Covid-19 Twitter Chatter DataSet,用于开放科学研究 - 国际合作

Banda,Juan M.; Tekumalla,ramya; 王,观音; 玉,景园; 刘,托..; 丁,云宁; artemova,凯塔瓦; Tutubalina,Elena.; Chowell,Gerardo.

版本34. 数据集。在版本30中 我们为我们的共同院胎提供的俄罗斯提供了一些其他历史推文。

由于Covid-19全球大流行的相关性,我们正在释放我们从与Covid-19 Chatter相关的Twitter流中获取的推文数据集。自从我们的第一个版本以来,我们已从我们的新协作者收到额外的数据,允许此资源增长到其当前大小。专门的数据收集从3月11日开始,每天产生超过400万推文。我们从1月27日到3月27日增加了我们的新合作者提供的其他数据,以提供额外的纵向覆盖。版本10添加了 在1月1日至5月8日之间收集的俄语〜150万推文,优雅地向我们提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们已包含每日Hashtags,提及和Emoijis以及它们的频率相应的ZIP文件。从版本14. 我们  已将Tweet标识符及其各自的语言用于DataSet的清洁版本。自从 版本20我们包含所有推文的语言和地点。

从流中收集的数据捕获了所有语言,但普遍率较高: 英语,西班牙语和法语。我们在full_dataset.tsv文件上释放所有推文和转发(789,761,611 唯一推文),以及Full_dataset-Clean-Clean.tsv文件上没有转发的清理版本(190,839,727 独特的推文)。我们有几个实际原因让我们离开转推,跟踪重要推文,他们的传播是其中之一。对于NLP任务,我们提供了频率_Terms.csv的前1000个频繁的术语,验证的前1000名Bigrams,以及频率_trigrams.csv中的前1000个Trigrams。 full_dataset-statistics.tsv.和full_dataset-clean-statistics.tsv文件中的两个数据集都包含每天的一些常规统计信息.tsv文件。有关更多统计信息和一些可视化访问: http://www.panacealab.org/covid19/ 

可以找到更多详细信息(并将更新更新: //github.com/thepanacealab/covid19_twitter)我们对数据集的预先打印(//arxiv.org/abs/2004.03688

与始终一样,由于Twitter的条款和条件仅用于研究目的,因此仅在此分发的推文仅为推文标识符(附加日期和时间)仅用于重新分发Twitter数据。需要使用它们以使用水。

该数据集至少将在每周更新两周期,至少使用其他推文,请查看用于这些更新的GitHub repo。 发布:我们已经标准化了资源的名称以匹配我们的预打印手稿,并且不必每周更新它。
Files (8.5 GB)
名称 尺寸
emojis.zip.
MD5:E5AFE8D65D2D45E1E983B354C82393FD
4.9 MB Download
频率_bigrams.csv.
MD5:E707FD92026E9843F9B2E64D7CDA1141
18.7 KB. Download
验证_terms.csv.
MD5:C0D24B2E4A1EEF5BC9D121B725A65722
12.1 KB. Download
验证_trigrams.csv.
MD5:C098F79D666E4FD7DBAE48CBA2A058CA
24.8 KB. Download
full_dataset-statistics.tsv.
MD5:EE3A6F87D6D785313FCDBD8CEC697F05
5.7 kB Download
full_dataset.tsv.gz.
MD5:9D33C7418293E0C7A29A3F7B65DE6A34
6.5 GB Download
full_dataset_clean-statistics.tsv.
MD5:4E2C0BECF25EF9D339FC980FA39FC901.
5.5 kB Download
full_dataset_clean.tsv.gz.
MD5:A6816E9335DACD5BE864C60425625E09.
1.8 GB Download
hashtags.zip.
MD5:232EFB954DBE88C70361744B71217ED.
102.5 MB. Download
提到
MD5:4A4962992DF4B372032046A4DC00246B.
170.7 MB. Download
86,840
101,166
views
downloads
所有版本 这个版本
意见 86,840543
下载 101,166368
数据量 137.0 TB.336.1 GB.
独特的观点 68,950452
独特的下载 23,698196

分享

引用