数据集 开放存取

用于开放式科学研究的大规模COVID-19 Twitter聊天数据集-国际合作

班达,胡安·M。; 特库玛拉(Rumya); 王冠宇; 于静源; 刘拓; 丁玉宁; 卡蒂亚Artemova; Elena图图巴利纳; 杰拉尔·乔威尔

女38 数据集。在版本30中 我们还增加了合著者提供的一些其他俄语历史性推文。

由于COVID-19全球大流行的相关性,我们将发布从Twitter流中获取的与COVID-19聊天相关的推文数据集。自从我们的第一个版本发布以来,我们已经从新的合作者那里收到了更多数据,从而使该资源增长到当前的规模。从3月11日开始,专用数据收集每天产生超过400万条推文。从1月27日到3月27日,我们添加了新合作者提供的其他数据,以提供更多的纵向报道。版本10已添加 从1月1日至5月8日收集了约150万条俄语推文,由以下人员提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们包含了每日主题标签,提及和emoijis及其频率以及相应的zip文件。从版本14开始 我们 包含了数据集的干净版本的tweet标识符及其各自的语言。以来 第20版中,我们为所有推文添加了语言和位置信息。

从流中收集的数据可以捕获所有语言,但是较高的流行度是: 英文,西班牙文和法文。我们会在full_dataset.tsv文件上发布所有推文和转发(834,386,222个唯一的推文),并在full_dataset-clean.tsv文件上发布没有转发的纯净版本(205,701,547个唯一的推文)。有几个实际的原因使我们离开转发,跟踪重要的推文,它们的传播就是其中之一。对于NLP任务,我们在quent_terms.csv中提供了前1000个频繁术语,在quently_bigrams.csv中提供了前1000个二元组,并且在quently_trigrams.csv中提供了前1000个三元组。在full_dataset-statistics.tsv和full_dataset-clean-statistics.tsv文件中,这两个数据集每天都包含一些常规统计信息。有关更多统计信息和一些可视化信息,请访问: http://www.panacealab.org/covid19/ 

可以找到更多详细信息(并且更新速度更快: //github.com/thepanacealab/covid19_twitter)以及关于数据集的预印本(//arxiv.org/abs/2004.03688

一如往常,由于Twitter的条款和条件,此处分发的tweet仅仅是tweet标识符(添加了日期和时间),仅出于研究目的重新分发Twitter数据。它们需要水合才能使用。

该数据集将至少每两周更新一次,并附带其他推文,请查看github存储库以获取这些更新。 发布:我们已经对资源名称进行了标准化,以使其与印刷前的稿件相匹配,而不必每周进行更新。
档案 (9.1 GB)
名称 尺寸
emojis.zip
md5:9c38947528b0248c7b480f51f0f8bc82
5.4兆字节 下载
quent_bigrams.csv
md5:3596b00c2c54f29414da9b33eacb8001
18.8 KB 下载
quent_terms.csv
md5:34e40e12b17942ad2708a9c0ae4f8633
12.0 KB 下载
quent_trigrams.csv
md5:ab1e00f95ea4c8ef7f610f02916ed562
25.4 KB 下载
full_dataset-statistics.tsv
md5:457ff9e6ad4b731452541760069d1fb7
6.2 kb 下载
full_dataset.tsv.gz
md5:dc55c103f1c61cf0ec9234a21d97ec7c
6.9 GB 下载
full_dataset_clean-statistics.tsv
md5:0e78fca18cb7458d2d3ea961a26da5d3
6.0 kb 下载
full_dataset_clean.tsv.gz
md5:e69bbf57897333efd4f023fc24032086
1.9 GB 下载
hashtags.zip
md5:61f1334c83f6c866344e7987df105e32
110.5兆字节 下载
提及.zip
md5:40c871967ec486f242f9db111687cfe6
183.6兆字节 下载
44,575
34,847
意见
资料下载
所有版本 这个版本
观看次数 44,5750
资料下载 34,8470
数据量 28.9 TB0字节
独特的景色 34,3370
独特下载 13,0630

分享

引用为