数据集 开放访问
Banda,Juan M.;
Tekumalla,ramya.;
王,观音;
玉,景园;
刘,托..;
丁,云宁;
artemova,凯塔瓦;
Tutubalina,Elena.;
Chowell,Gerardo.
版本56. of the dataset.
由于Covid-19全球大流行的相关性,我们正在释放我们从与Covid-19 Chatter相关的Twitter流中获取的推文数据集。自从我们的第一个版本以来,我们已从我们的新协作者收到额外的数据,允许此资源增长到其当前大小。专门的数据收集从3月11日开始,每天产生超过400万推文。我们从1月27日到3月27日增加了我们的新合作者提供的其他数据,以提供额外的纵向覆盖。版本10添加了 在1月1日至5月8日之间收集的俄语〜150万推文,优雅地向我们提供: Katya Artemova(NRU HSE)和Elena Tutubalina(KFU)。从版本12开始,我们已包含每日Hashtags,提及和Emoijis以及它们的频率相应的ZIP文件。从版本14. 我们 已将Tweet标识符及其各自的语言用于DataSet的清洁版本。自从 版本20我们包含所有推文的语言和地点。
从流中收集的数据捕获了所有语言,但普遍率较高: 英语,西班牙语和法语。我们在full_dataset.tsv文件(1,008,411,895个唯一推文)上释放所有推文和转发,以及full_dataset-clean.tsv文件上没有转发的清洁版本(257,164,087个独特的推文)。我们有几个实际原因让我们离开转推,跟踪重要推文,他们的传播是其中之一。对于NLP任务,我们提供了频率_Terms.csv的前1000个频繁的术语,验证的前1000名Bigrams,以及频率_trigrams.csv中的前1000个Trigrams。 full_dataset-statistics.tsv.和full_dataset-clean-statistics.tsv文件中的两个数据集都包含每天的一些常规统计信息.tsv文件。有关更多统计信息和一些可视化访问: http://www.panacealab.org/covid19/
可以找到更多详细信息(并将更新更新: //github.com/thepanacealab/covid19_twitter)我们对数据集的预先打印(//arxiv.org/abs/2004.03688)
与始终一样,由于Twitter的条款和条件仅用于研究目的,因此仅在此分发的推文仅为推文标识符(附加日期和时间)仅用于重新分发Twitter数据。需要使用它们以使用水。
姓名 | 尺寸 | |
---|---|---|
emojis.zip.
MD5:926C481AE9B52DD56F88113C0025C1D8 |
7.4 MB | Download |
频率_bigrams.csv.
MD5:C89B38638E385ACF887CFEC1784FCCEF. |
19.8 KB. | Download |
验证_terms.csv.
MD5:1DA79447BAA23BC911F98537FC2E0AD8 |
11.9 KB. | Download |
验证_trigrams.csv.
MD5:B368AB44AC708B91E85125FCE63CB92B. |
27.4 KB. | Download |
full_dataset-statistics.tsv.
MD5:ABC1FD1E1D56FF6786C177D4682DD709 |
8.6 kB | Download |
full_dataset.tsv.gz.
MD5:D69C7AE59DCF502555722FA7BE703E08 |
8.5 GB | Download |
full_dataset_clean-statistics.tsv.
MD5:044045821A0F6987181960D384054062 |
8.2 kB | Download |
full_dataset_clean.tsv.gz.
MD5:439D645181B6C9CA6B7540E74A89B075 |
2.4 GB | Download |
hashtags.zip.
MD5:7369A02598B96CE5D93A0B04424C2688 |
138.7 MB. | Download |
提到
MD5:0DC6A426635C51302D9E5DA794107305 |
228.6 MB. | Download |