数据集 开放存取

用于开放式科学研究的大规模COVID-19 Twitter聊天数据集-国际合作

班达,胡安·M。; 特库玛拉(Rumya); 王冠宇; 于静媛; 刘拓; 丁玉宁; 卡蒂亚Artemova; Elena图图巴利纳; 杰拉尔·乔威尔

女44 of the dataset. 

由于COVID-19全球大流行的相关性,我们将发布从Twitter流中获取的与COVID-19聊天相关的推文数据集。自从我们的第一个版本发布以来,我们已经从新的合作者那里收到了更多数据,从而使该资源增长到当前的规模。从3月11日开始,专用数据收集每天产生超过400万条推文。从1月27日到3月27日,我们添加了新合作者提供的其他数据,以提供更多的纵向报道。版本10已添加 从1月1日至5月8日收集了约150万条俄语推文,由以下人员提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们包含了每日主题标签,提及和emoijis及其频率以及相应的zip文件。从版本14开始 我们  包含了数据集的干净版本的tweet标识符及其各自的语言。以来 第20版中,我们为所有推文添加了语言和位置信息。

从流中收集的数据可以捕获所有语言,但是较高的流行度是: 英文,西班牙文和法文。我们在full_dataset.tsv文件上释放所有推文和转发(903,223,501个唯一的推文),在full_dataset-clean.tsv文件上发布没有转发的纯净版本(226,582,903个唯一的推文)。有几个实际的原因使我们离开转发,跟踪重要的推文,它们的传播就是其中之一。对于NLP任务,我们在quent_terms.csv中提供了前1000个频繁术语,在quently_bigrams.csv中提供了前1000个二元组,并且在quently_trigrams.csv中提供了前1000个三元组。在full_dataset-statistics.tsv和full_dataset-clean-statistics.tsv文件中,这两个数据集每天都包含一些常规统计信息。有关更多统计信息和一些可视化信息,请访问: http://www.panacealab.org/covid19/ 

可以找到更多详细信息(并且更新速度更快: //github.com/thepanacealab/covid19_twitter)以及关于数据集的预印本(//arxiv.org/abs/2004.03688

一如往常,由于Twitter的条款和条件,此处分发的tweet仅仅是tweet标识符(添加了日期和时间),仅出于研究目的重新分发Twitter数据。它们需要水合才能使用。

该数据集将至少每两周更新一次,并附带其他推文,请查看github存储库以获取这些更新。 发布:我们已经对资源名称进行了标准化,以使其与印刷前的稿件相匹配,而不必每周进行更新。
档案 (9.9 GB)
名称 尺寸
emojis.zip
md5:5c4673f310e9d420724823b48ed52bad
6.1 MB 下载
quent_bigrams.csv
md5:183c1bd381e6cff2711dd9ba73bd9938
18.9 KB 下载
quent_terms.csv
md5:d56521d5b96deba482475e83816ea0cb
11.9 kb 下载
quent_trigrams.csv
md5:bfe0d85ba5807941f104614fd9f7e04a
24.8 KB 下载
full_dataset-statistics.tsv
md5:f213f7408d3197238eb0b54b73825c9b
7.0 kB 下载
full_dataset.tsv.gz
md5:7cbd37fa7312003d46b844ea368a9f3a
7.5 GB 下载
full_dataset_clean-statistics.tsv
md5:1d422a0e9a6dfebf5ed88c5a3beff380
6.7 kB 下载
full_dataset_clean.tsv.gz
md5:82eaedf62238a6495c97154aefc9c7f0
2.1 GB 下载
hastags.zip
md5:5d2627370bdd8115c6bb33993793afb7
121.2兆字节 下载
提及.zip
md5:1a076fc24105d5f623f0cf5930b2020a
201.2兆字节 下载
50,666
56,192
意见
资料下载
所有版本 这个版本
观看次数 50,66642
资料下载 56,1920
数据量 65.8 TB0字节
独特的景色 38,85541
独特下载 15,6750

分享

引用为