数据集 开放存取
班达,胡安·M。;
特库玛拉(Rumya);
王冠宇;
于静源;
刘拓;
丁玉宁;
卡蒂亚Artemova;
Elena图图巴利纳;
杰拉尔·乔威尔
女43 of the dataset.
由于COVID-19全球大流行的相关性,我们将发布从Twitter流中获取的与COVID-19聊天相关的推文数据集。自从我们的第一个版本发布以来,我们已经从新的合作者那里收到了更多数据,从而使该资源增长到当前的规模。从3月11日开始,专用数据收集每天产生超过400万条推文。从1月27日到3月27日,我们添加了新合作者提供的其他数据,以提供更多的纵向报道。版本10已添加 从1月1日至5月8日收集了约150万条俄语推文,由以下人员提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们包含了每日主题标签,提及和emoijis及其频率以及相应的zip文件。从版本14开始 我们 包含了数据集的干净版本的tweet标识符及其各自的语言。以来 第20版中,我们为所有推文添加了语言和位置信息。
从流中收集的数据可以捕获所有语言,但是较高的流行度是: 英文,西班牙文和法文。我们会在full_dataset.tsv文件上发布所有推文和转发,(891,324,837个唯一的推文),在full_dataset-clean.tsv文件上发布没有转发的纯净版本(223,249,143个唯一的推文)。有几个实际的原因使我们离开转发,跟踪重要的推文,它们的传播就是其中之一。对于NLP任务,我们在quent_terms.csv中提供了前1000个频繁术语,在quently_bigrams.csv中提供了前1000个二元组,并且在quently_trigrams.csv中提供了前1000个三元组。在full_dataset-statistics.tsv和full_dataset-clean-statistics.tsv文件中,这两个数据集每天都包含一些常规统计信息。有关更多统计信息和一些可视化信息,请访问: http://www.panacealab.org/covid19/
可以找到更多详细信息(并且更新速度更快: //github.com/thepanacealab/covid19_twitter)以及关于数据集的预印本(//arxiv.org/abs/2004.03688)
一如往常,由于Twitter的条款和条件,此处分发的tweet仅仅是tweet标识符(添加了日期和时间),仅出于研究目的重新分发Twitter数据。它们需要水合才能使用。
名称 | 尺寸 | |
---|---|---|
emojis.zip
md5:b149c7fd5c21f87cd93656d447ef9056 |
6.0 MB | 下载 |
quent_bigrams.csv
md5:e1a56dc7672da3ddaadc7bfc3c2210c4 |
18.3 kb | 下载 |
quent_terms.csv
md5:e81bda05c1095208407fa6c0306bc074 |
11.9 kb | 下载 |
quent_trigrams.csv
md5:9b2c855ab48aa7d6cb5d2234a3b3b222 |
24.2 KB | 下载 |
full_dataset-statistics.tsv
md5:57b9c0360c852bab0dc4dfea50e0ee39 |
6.9 kB | 下载 |
full_dataset.tsv.gz
md5:2b6a8341608bae209f647ee0daee572d |
7.4 GB | 下载 |
full_dataset_clean-statistics.tsv
md5:685461aa25b69badee2ea18e4ee95a3f |
6.6 kB | 下载 |
full_dataset_clean.tsv.gz
md5:23a4d64a936b8f72a9704c0a063dd1c8 |
2.1 GB | 下载 |
hashtags.zip
md5:d37028048a3514cc45f61999d3b9bb59 |
119.5兆字节 | 下载 |
提及.zip
md5:01f217594885636c4a011baeba71f56b |
198.3兆字节 | 下载 |