数据集 开放存取

用于开放式科学研究的大规模COVID-19 Twitter聊天数据集-国际合作

班达,胡安·M。; 特库玛拉(Rumya); 王冠宇; 于静源; 刘拓; 丁玉宁; 卡蒂亚Artemova; Elena图图巴利纳; 杰拉尔·乔威尔

女43 of the dataset. 

由于COVID-19全球大流行的相关性,我们将发布从Twitter流中获取的与COVID-19聊天相关的推文数据集。自从我们的第一个版本发布以来,我们已经从新的合作者那里收到了更多数据,从而使该资源增长到当前的规模。从3月11日开始,专用数据收集每天产生超过400万条推文。从1月27日到3月27日,我们添加了新合作者提供的其他数据,以提供更多的纵向报道。版本10已添加 从1月1日至5月8日收集了约150万条俄语推文,由以下人员提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们包含了每日主题标签,提及和emoijis及其频率以及相应的zip文件。从版本14开始 我们  包含了数据集的干净版本的tweet标识符及其各自的语言。以来 第20版中,我们为所有推文添加了语言和位置信息。

从流中收集的数据可以捕获所有语言,但是较高的流行度是: 英文,西班牙文和法文。我们会在full_dataset.tsv文件上发布所有推文和转发,(891,324,837个唯一的推文),在full_dataset-clean.tsv文件上发布没有转发的纯净版本(223,249,143个唯一的推文)。有几个实际的原因使我们离开转发,跟踪重要的推文,它们的传播就是其中之一。对于NLP任务,我们在quent_terms.csv中提供了前1000个频繁术语,在quently_bigrams.csv中提供了前1000个二元组,并且在quently_trigrams.csv中提供了前1000个三元组。在full_dataset-statistics.tsv和full_dataset-clean-statistics.tsv文件中,这两个数据集每天都包含一些常规统计信息。有关更多统计信息和一些可视化信息,请访问: http://www.panacealab.org/covid19/ 

可以找到更多详细信息(并且更新速度更快: //github.com/thepanacealab/covid19_twitter)以及关于数据集的预印本(//arxiv.org/abs/2004.03688

一如往常,由于Twitter的条款和条件,此处分发的tweet仅仅是tweet标识符(添加了日期和时间),仅出于研究目的重新分发Twitter数据。它们需要水合才能使用。

该数据集将至少每两周更新一次,并附带其他推文,请查看github存储库以获取这些更新。 发布:我们已经对资源名称进行了标准化,以使其与印刷前的稿件相匹配,而不必每周进行更新。
档案 (9.8 GB)
名称 尺寸
emojis.zip
md5:b149c7fd5c21f87cd93656d447ef9056
6.0 MB 下载
quent_bigrams.csv
md5:e1a56dc7672da3ddaadc7bfc3c2210c4
18.3 kb 下载
quent_terms.csv
md5:e81bda05c1095208407fa6c0306bc074
11.9 kb 下载
quent_trigrams.csv
md5:9b2c855ab48aa7d6cb5d2234a3b3b222
24.2 KB 下载
full_dataset-statistics.tsv
md5:57b9c0360c852bab0dc4dfea50e0ee39
6.9 kB 下载
full_dataset.tsv.gz
md5:2b6a8341608bae209f647ee0daee572d
7.4 GB 下载
full_dataset_clean-statistics.tsv
md5:685461aa25b69badee2ea18e4ee95a3f
6.6 kB 下载
full_dataset_clean.tsv.gz
md5:23a4d64a936b8f72a9704c0a063dd1c8
2.1 GB 下载
hashtags.zip
md5:d37028048a3514cc45f61999d3b9bb59
119.5兆字节 下载
提及.zip
md5:01f217594885636c4a011baeba71f56b
198.3兆字节 下载
49,666
52,892
意见
资料下载
所有版本 这个版本
观看次数 49,6664
资料下载 52,8920
数据量 60.0 TB0字节
独特的景色 38,0514
独特下载 15,3420

分享

引用为