数据集 开放存取

BIP4COVID19:冠状病毒相关出版物的影响指标和指标

拟南芥; 伊利亚斯·卡内洛斯(Ilias Kanellos); 塞拉菲姆·查佐普洛斯; 达娜(Danae Pla Karidi); 西奥多·达拉加加斯

该数据集包含与以下内容相关的一组出版物的影响力指标和指标: 新冠肺炎传染病 以及引起它的冠状病毒。它基于:

  1. Τhe CORD-19数据集 由团队发布 语义学者1
  2. Τ他策划了由 LitCovid集线器2.

这些数据已被清理并与来自 新冠肺炎-TweetID 以及其他来源(例如PMC)。结果是的数据集 230,857篇独特文章以及相关元数据(例如,基础引文网络)。我们利用此数据集为每篇文章生成以下影响度量的值:

  • 影响: 基于引用的度量,反映文章的总体影响。这是基于PageRank3 网络分析方法。在引用网络的背景下,它根据每篇文章在整个网络中的中心地位来估计其重要性。该度量是使用PaperRanking(//github.com/diwis/PaperRanking) 图书馆4.
  • Impact_alt: 基于引用的度量,反映文章的总体影响。这是每篇文章的引文计数,是根据BIP4COVID19数据集中包含的文章之间的引文网络计算得出的。
  • 人气: 基于引用的度量,反映文章的当前影响。这是基于AttRank5 引文网络分析方法。诸如PageRank之类的方法偏向于最近发表的文章(新文章需要时间才能获得其第一篇引文)。 AttRank结合了基于注意力的机制(类似于优先附件的时间限制版本)来缓解此问题,以明确吸引研究人员'倾向于阅读最近受到广泛关注的论文。这就是为什么它更适合捕获电流"hype" of an article.
  • 人气替代: 另一种基于引用的衡量标准,反映了文章的当前影响(这是BIP4COVID19直到版本26提供的基本受欢迎程度)。这是基于RAM6 引文网络分析方法。诸如PageRank之类的方法对最近发表的文章有偏见(新文章需要时间才能获得其第一篇引文)。 RAM使用称为"time-awareness"。这就是为什么它更适合捕获电流"hype"一篇文章。该度量是使用PaperRanking(//github.com/diwis/PaperRanking) 图书馆4.
  • 社交媒体关注度: 与本文相关的推文数量。相关数据是从 新冠肺炎-TweetID 数据集。在此版本中,先前数据集中已考虑7 / 11-13 / 11之间的推文。  

我们提供了五个CSV文件,所有文件均包含相同的信息,但是每个文件的条目均按不同的影响程度排序。所有CSV文件均以制表符分隔,并具有相同的列(PubMed_id,PMC_id,DOI,influence_score,popularity_alt_score,流行度得分,influence_alt得分,tweets计数)。

该作品基于以下出版物:

  1. 新冠肺炎 Open Research 数据集 (CORD-19). 2020. Version 2021-01-03 Retrieved from //pages.semanticscholar.org/coronavirus-research. Accessed 2021-01-03. doi:10.5281/zenodo.3715506
  2. 陈Q,分配A,&Lu Z.(2020年)掌握最新的冠状病毒研究,《自然》 579:193(2021-01-03版)
  3. R. Motwani L. Page,S。Brin和T. Winograd。 1999年。PageRank引文排名:网络订购。技术报告。斯坦福资讯实验室。
  4. I. Kanellos,T。Vergoulis,D。Sacharidis,T。Dalamagas和Y. Vassiliou:基于影响力的科学出版物排名:一项调查和实验评估。 TKDE 2019
  5. I. Kanellos,T. Vergoulis,D. Sacharidis,T. Dalamagas,Y. Vassiliou:通过短期科学影响对论文进行排名。 CoRR abs / 2006.00951(2020)
  6. 鲁米·戈什(Rumi Ghosh),郭宗庭,许春南(Chun-Nsu Hsu),林守德和克里斯蒂娜·勒曼(Kristina Lerman)。 2011。动态引文网络中的时间感知排名。在数据挖掘研讨会(ICDMW)中。 373–380

可以找到一个使用这些数据来促进COVID-19文献​​探索的Web用户界面。 这里。预印本中的更多详细信息 这里.

在此版本中,数据集包含一个额外的分数(influence_alt =引文计数)。

请引用: 拟南芥, 伊利亚斯·卡内洛斯(Ilias Kanellos), 塞拉菲姆·查佐普洛斯, 达娜(Danae Pla Karidi), 西奥多·达拉加加斯. "BIP4COVID19: Releasing impact measures for articles relevant to 新冠肺炎". bioRxiv 2020.04.11.037093; doi: //doi.org/10.1101/2020.04.11.037093

使用条款: 提供这些数据"as is",没有任何形式的保证。数据是根据知识共享署名4.0国际许可提供的。

我们感谢项目“从大数据管理向数据科学的迁移”(MIS 5002437/3)对这项工作的支持,该项目是在“增强竞争力,企业家精神”运营计划资助的“强化研究和创新基础设施”行动下实施的和创新”(NSRF 2014-2020),并由希腊和欧盟共同资助(欧洲区域发展基金会)。
档案 (103.2 MB)
名称 尺寸
article_by_influence.txt
md5:25ee01e94c45aff4df45c745f9747e50
20.6兆字节 下载
article_by_influence_alt.txt
md5:305e4da3e216f225d00bc8f9e7da45f5
20.6兆字节 下载
article_by_popularity.txt
md5:94a4394e682c48281acdab05965ef465
20.6兆字节 下载
article_by_popularity_alt.txt
md5:37576c62b7b7e2d00a3e2651de8d8127
20.6兆字节 下载
Articles_by_tweets.txt
md5:1c1c127ac88acd1dfca2e4cdf3e5caff
20.6兆字节 下载
  • 陈Q,分配A,&Lu Z.(2020年)掌握最新的冠状病毒研究,《自然》 579:193(2021-01-03版)

  • 新冠肺炎 Open Research 数据集 (CORD-19). 2020. Version 2021-01-03. Retrieved from //pages.semanticscholar.org/coronavirus-research. Accessed 2021-01-03.

  • I. Kanellos,T。Vergoulis,D。Sacharidis,T。Dalamagas和Y. Vassiliou:基于影响力的科学出版物排名:一项调查和实验评估。 TKDE 2019

  • I. Kanellos,T. Vergoulis,D. Sacharidis,T. Dalamagas,Y. Vassiliou:通过短期科学影响对论文进行排名。 CoRR abs / 2006.00951(2020)

  • R. Motwani L. Page,S。Brin和T. Winograd。 1999年。PageRank引文排名:网络订购。技术报告。斯坦福资讯实验室。

  • 鲁米·戈什(Rumi Ghosh),郭宗庭,许春南(Chun-Nsu Hsu),林守德和克里斯蒂娜·勒曼(Kristina Lerman)。 2011。动态引文网络中的时间感知排名。在数据挖掘研讨会(ICDMW)中。 373–380

58,399
8,535
意见
资料下载
所有版本 这个版本
观看次数 58,39994
资料下载 8,5350
数据量 69.1 GB0字节
独特的景色 54,78094
独特下载 6,5190

分享

引用为