数据集 开放存取
班达,胡安·M。;
特库玛拉(Rumya);
王冠宇;
于静媛;
刘拓;
丁玉宁;
卡蒂亚Artemova;
Elena图图巴利纳;
杰拉尔·乔威尔
女44 of the dataset.
由于COVID-19全球大流行的相关性,我们将发布从Twitter流中获取的与COVID-19聊天相关的推文数据集。自从我们的第一个版本发布以来,我们已经从新的合作者那里收到了更多数据,从而使该资源增长到当前的规模。从3月11日开始,专用数据收集每天产生超过400万条推文。从1月27日到3月27日,我们添加了新合作者提供的其他数据,以提供更多的纵向报道。版本10已添加 从1月1日至5月8日收集了约150万条俄语推文,由以下人员提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们包含了每日主题标签,提及和emoijis及其频率以及相应的zip文件。从版本14开始 我们 包含了数据集的干净版本的tweet标识符及其各自的语言。以来 第20版中,我们为所有推文添加了语言和位置信息。
从流中收集的数据可以捕获所有语言,但是较高的流行度是: 英文,西班牙文和法文。我们在full_dataset.tsv文件上释放所有推文和转发(903,223,501个唯一的推文),在full_dataset-clean.tsv文件上发布没有转发的纯净版本(226,582,903个唯一的推文)。有几个实际的原因使我们离开转发,跟踪重要的推文,它们的传播就是其中之一。对于NLP任务,我们在quent_terms.csv中提供了前1000个频繁术语,在quently_bigrams.csv中提供了前1000个二元组,并且在quently_trigrams.csv中提供了前1000个三元组。在full_dataset-statistics.tsv和full_dataset-clean-statistics.tsv文件中,这两个数据集每天都包含一些常规统计信息。有关更多统计信息和一些可视化信息,请访问: http://www.panacealab.org/covid19/
可以找到更多详细信息(并且更新速度更快: //github.com/thepanacealab/covid19_twitter)以及关于数据集的预印本(//arxiv.org/abs/2004.03688)
一如往常,由于Twitter的条款和条件,此处分发的tweet仅仅是tweet标识符(添加了日期和时间),仅出于研究目的重新分发Twitter数据。它们需要水合才能使用。
名称 | 尺寸 | |
---|---|---|
emojis.zip
md5:5c4673f310e9d420724823b48ed52bad |
6.1 MB | 下载 |
quent_bigrams.csv
md5:183c1bd381e6cff2711dd9ba73bd9938 |
18.9 KB | 下载 |
quent_terms.csv
md5:d56521d5b96deba482475e83816ea0cb |
11.9 kb | 下载 |
quent_trigrams.csv
md5:bfe0d85ba5807941f104614fd9f7e04a |
24.8 KB | 下载 |
full_dataset-statistics.tsv
md5:f213f7408d3197238eb0b54b73825c9b |
7.0 kB | 下载 |
full_dataset.tsv.gz
md5:7cbd37fa7312003d46b844ea368a9f3a |
7.5 GB | 下载 |
full_dataset_clean-statistics.tsv
md5:1d422a0e9a6dfebf5ed88c5a3beff380 |
6.7 kB | 下载 |
full_dataset_clean.tsv.gz
md5:82eaedf62238a6495c97154aefc9c7f0 |
2.1 GB | 下载 |
hastags.zip
md5:5d2627370bdd8115c6bb33993793afb7 |
121.2兆字节 | 下载 |
提及.zip
md5:1a076fc24105d5f623f0cf5930b2020a |
201.2兆字节 | 下载 |