有一个 较新的版本 该记录的可用。

数据集 开放存取

SRSF1和RNPS1识别的人和病毒RNA结合位点和位点簇的特征

罗根(PK) ; EJ穆卡基; 卑诗省雪莉

该数据集是为以下文章开发的:

 Rogan PK,Mucaki EJ和Shirley BC。严重的RNA病毒性肺部感染的发病机理的拟议分子机制[版本1;同行评审:等待同行评审]。 F1000研究 2020, 9:943 (//doi.org/10.12688/f1000research.25390.1)

第1章扩展数据表

该档案库包含研究文章的扩展数据表"严重RNA病毒性肺部感染的分子发病机制的拟议机制"。这些表提供 跨各种RNA病毒基因组(包括多个SARS-CoV-2和流感病毒株)和人类转录组的SRSF1,RNPS1和hnRNP A1结合位点和信息致密簇计数,病毒基因组SRSF1所需的估计SARS-CoV-2倍增时间结合位点的可用性超过宿主转录组内的位点,并分析了被确诊的放射基因签名辐照误诊的流感,登革热和再生障碍性贫血患者。这些表是:

第1节-表1。 RNPS1和hnRNPA1的结合位点以及RNPS1和RN的信息密集簇
RNA病毒基因组中的hnRNPA1
第1节-表2A。 RNA病毒中SRSF1(重复1)的信息密集簇的详细分析
基因组
第1节-表2B。 RNA病毒中SRSF1(重复2)的信息密集型簇的详细分析
基因组
第1部分-表2C。 RNA病毒基因组中RNPS1信息密集簇的详细分析
第1部分-表2D。 RNA病毒中hnRNP A1信息密集簇的详细分析
基因组
第1节-表3。 多个冠状病毒菌株(两条链)的结合位点分析
第1节-表4A。 多种甲型H3N2流感病毒株的结合位点分析(仅负链)
第1节-表4B。 多种甲型流感(H3N2)菌株(两条链)的结合位点分析
第1节-表5。 SRSF1,RNPS1和hnRNPA1结合位点和信息密集的基因簇
第1节-表6A。 与DRIP-和DRIPc-seq相交的转录组信息密集簇
间隔
第1节-表6B。 DRIP和DRIPc-seq间隔内的外显子组范围内的信息密集集群
第1节-表6C。 跨DRIP-和DRIPc-seq的强结合位点的转录组全扫描
间隔
第1部分-表6D。 在DRIP和DRIPc-seq间隔内对强结合位点进行外显子组扫描
第1节-表7。 流感,登革热病毒和再生障碍性贫血的假阳性率
辐射签名
第1节-表8。 导致甲型流感患者假阳性的辐射模型基因
登革热病毒和再生障碍性贫血
第1节-表9A。 超出宿主转录组SRSF1结合所需的SARS-CoV-2加倍时间
站点(仅正链站点)
第1节-表9B。 超出宿主转录组SRSF1结合所需的SARS-CoV-2加倍时间
站点(考虑了两个子线)

第二节 人类和病毒基因组的所有SRSF1,hnRNPA1和RNPS1结合位点轨道

我们提供了底图轨迹,这些轨迹提供了人类转录组(GRCh37),人类外显子组(包括外显子周围的+/- 300nt)上SRSF1,RNPS1和hnRNPA1的结合位点(和结合位点簇)的位置和强度),以及本研究中研究的所有病毒基因组(冠状病毒,登革热,HIV-1 [两个毒株]和流感[两个毒株])。请注意,如果未为特定病毒基因组找到簇,则Zenodo存档中将不存在该基因组的文件。

夹“群集到DRIPseq的交叉口轨迹”包含轨道,该轨道指示在何处鉴定出结合位点簇,并与DRIP-seq和DRIPc-seq区间相交,该区间指示在人类基因组中何处形成R-Loop的证据。 DRIP-seq数据集(GSE68845)不是特定于链的。 DRIPc-seq(GSE70189)是特定于链的,并且在交叉点中已被考虑在内(例如,跟踪仅列出在正链DRIPc-seq间隔中找到的正链簇)。

由于规模庞大,指示单个结合位点位置的人类转录组和外显子组轨迹被分为两个单独的文件(按链分隔)。虽然将包含人类结合位点信息的自定义轨道设计为上载到UCSC基因组浏览器,但是包含转录组范围的结合位点信息的文件可能太大而无法上传,并且可能需要进一步过滤(即按染色体)。

要将其分类为簇,同一链上的结合位点必须具有 总计为>50位,每个绑定站点必须在25nt之内有一个相邻站点,并且群集中的所有绑定站点必须具有 Ri 大于最小位阈值。对于人类转录组和外显子组,此最小位数设置为 R 顺序 。病毒结合位点的最小位数设置为0.1 * R 顺序 。本工作中使用的基于信息密度的聚类算法在  Lu and Rogan 2018 (//f1000research.com/articles/7-1933/v2),可通过Zenodo(//dx.doi.org/10.5281/zenodo.1892051 )。

Section 3. Binding site clusters - 棒糖 plots

棒棒糖图显示了人类转录组,人类外显子组和病毒基因组(冠状病毒,登革热,HIV-1 [两个毒株]和流感[一个毒株])的基因组坐标和信息密度。的高度"lollipop"对应于集群的信息密度。上面的标签"lollipops"给出簇的起始和终止基因组座标(GRCh37),然后是括在方括号中的簇中的位点数。与人类转录组/外显子组相关的棒棒糖图均包含单个基因。流感有8个片段,每个片段都需要自己的图,其他被检测的病毒基因组在一个图中显示。

人体图的文件命名约定:

  • RBP_Gene.png
  • 例如RNPS1_ADK.png

病毒图的文件命名约定(不总是出现在方括号中的元素):

  • 病毒[。流感片段] .RiThreshold.Strand.RBP.png
  • 例如武汉-胡-1。完整基因组.4.2位.PosStrand.hnRNPA1.png

指定的Ri阈值表示构成簇的所有结合位点均具有 Ri 大于或等于阈值。

第4节。扫描的所有结合位点的Ri(b,l)矩阵

本研究中使用的以下RNA结合蛋白(RBP)的基于信息论的位置权重矩阵:SRSF1,hnRNPA1和RNPS1。我们使用两种不同的RNPS1结合模型研究了结合。虽然相似,但这两个模型在结合位点基序的相对侧均包含结合位点信息,这就是为什么我们发现谨慎地使用两个模型进行扫描的原因。

每个文件的结构:

第1行:开始位置,结束位置和 R 顺序 [用于生成模型的序列的平均强度]

随后的几行描述了结合位点每个位置上的信息:

  • 前四列: Ri 核苷酸在基质[A,C,G,T]位置上的贡献
  • 第5行:矩阵的位置
  • 最后四列:用于生成模型的结合位点数量,该模型在矩阵的此位置[A,C,G,T]具有特定核苷酸

例:

-2.965775           1.282153            0.034225            -4.906891           0            1              19          8            0

在矩阵的零位置(第一个核苷酸),a‘C’将对结合位点强度产生积极影响,‘G’会相对中立,‘A’ or ‘T’会对结合位点强度产生负面影响。

R的产生i(b,l)的矩阵和计算 Ri 值,可以通过使用Delila软件包来完成(//alum.mit.edu/www/toms/delila/delilaprograms.html )。

第5节。Ri和站点间距离-直方图

两组直方图 Ri 转录组,人类外显子组和病毒基因组(冠状病毒,登革热,HIV-1 [两株]和流感[一株])的分布和位点间距离分布。 

人体图的文件命名约定(方括号中的元素并不总是出现):

  • [IntersiteDistancesThreshold-]人类-[DRIPc] -AllChrs-RBP [-RiThreshold] .png
  • 例如IntersiteDistances500-Human-AllChrs-hnRNPA1-4.6-bits.png

病毒图的文件命名约定(不总是出现在方括号中的元素):

  • [IntersiteDistancesThreshold-]链RBP病毒[。流感片段] [-RiThreshold] .png
  • 例如IntersideDistances1000-PosStrandOnly-SRSF1-top50000sitesReplicate1-HIV-1-Strain-B.png

为所有站点间距离直方图指定了站点间距离阈值500或1000。从图中排除了超出相应阈值的任何距离。剧情介绍 Ri 分布包含一条虚线,指示 R 顺序 如果在图的范围内可见。

第6章Perl脚本和描述

该档案包含该档案中讨论的所有Perl脚本'相关手稿 和描述它们的文档文件("Perl脚本描述页面.docx")。这些程序及其一般功能如下:

“ClusterToDRIPseqAnalysisProgram.pl” –报告哪些信息密集的簇位于DRIPc和/或DRIP-seq区间内(分别和按基因)

“ClusterToDRIPseqAnalysisProgram.GeneDensityFinder.pl” –使用脚本的输出“ClusterToDRIPseqAnalysisProgram.pl”确定基因内信息密集簇的数量和密度(基因内总簇和DRIPc-seq区间内的总簇)

“computeIntersiteDistance.pl” –通过基因组坐标列表确定同一基因中所有结合位点之间的距离

“removeOutliersHigherThanN.pl” –放弃脚本计算的站点间距离“computeIntersiteDistance.pl”大于指定的阈值

“getStatisticsOnCol.pl” – 从脚本的输出计算值的计数,几何平均值,中位数,算术平均值和标准偏差“removeOutliersHigherThanN.pl”

“ScanDataSummaryProgram.pl” – 确定结合位点的数量(在指定的 Ri 从结合位点坐标数据中的已知基因中找到的阈值(程序还会使用外部A549和肺细胞表达数据集报告这些基因的总表达)

“TotalBindingSitePerCellCalculator.pl” – 估计在任何给定时间在单个A549或肺细胞中表达的结合位点数量。

另请参见信息图: Rogan, Peter; Klesc, Ryan; Mucaki, Eliseos; C. Shirley, Ben (2020): A proposed molecular mechanism for pathogenesis of severe RNA-viral pulmonary infections. figshare. Figure. //doi.org/10.6084/m9.figshare.12718799.v1
档案 (2.7 GB)
名称 尺寸
第1节。扩展数据Tables.zip
md5:e07cc036da7a8db6b20ada76c7b6771c
17.0兆字节 下载
第二节 Binding site tracks for human and viral genomes.zip
md5:cef8d01c6169de9ca21c18e9b684e39b
2.2 GB 下载
Section 3. Binding site clusters - 棒糖 plots.zip
md5:11c61fe3841b04ad696f70279ef3f72a
546.5兆字节 下载
第4节。所有扫描的结合位点的Ribl矩阵
md5:ae566cef2b856dfac56720c932dd5b82
1.7 kB 下载
第5节。Ri和站点间距离-histograms.zip
md5:0067213c034432e07ce66f5480133a96
10.1兆字节 下载
第6节。Perl脚本和Descriptions.zip
md5:059e9be093da39596d7cb5e5241dd6bd
26.1 KB 下载
  • Rogan et al. A proposed molecular mechanism for pathogenesis of severe RNA-viral pulmonary infections. F1000研究 (2020) //doi.org/10.12688/f1000research.25390.1

850
79
意见
资料下载
所有版本 这个版本
观看次数 850356
资料下载 7919
数据量 43.3 GB 8.2 GB
独特的景色 698324
独特下载 427

分享

引用为