你的位置:吉林管理系统开发 > 联系我们 > 管理系统开发 python的scanpy库读取几种常见才略的单细胞数据文献汇总

管理系统开发 python的scanpy库读取几种常见才略的单细胞数据文献汇总

时间:2024-09-28 11:18:26 点击:196 次

领先你需要有Python管理系统开发,以及它配套的代码剪辑器哈。从零开动开动学习一个编程言语,咱们笃信是领先得装置好它,比如前边咱们教师了Python的装置,它多个版块的互异以及管制,详见:Python初体验之弄解析版块互异和若何装置管制,然后给出来了两个Python剪辑器,即是PyCharm约略JupyterLab,任选其一王人不错掀开你的Python从零开动之旅。若是你照实是从零开动,提倡参考咱们的推选的学习汉典哈:Python从零开动的配套b站视频和竹素 。

scanpy 是用于单细胞数据分析的 Python 库,需要有Python基础,才有可能跟底下的教程进行scanpy的单细胞数据分析进程哦!

读前热身准备:

在Python编程体系读取单细胞文献数据会用到scanpy这个库,是以需要装置scanpy这个库:

pip install scanpy -i https://pypi.tuna.tsinghua.edu.cn/simple

装置好之后,就不错使用了。领先聚首一下单细胞抒发量矩阵的多种文献才略,主要包括以下几种:

Matrix Market Exchange Format (MEX):.mtx 文献,该文献包含了一个寥落矩阵,其中每一溜代表一个基因,每一列代表一个细胞,而每个元素则示意基因在相应细胞中的抒发量。频繁会有三个文献构成:barcodes.tsv(细胞记号)、features.tsv(基因记号)和 matrix.mtx(抒发矩阵)。Hierarchical Data Format (HDF5):.h5 文献,HDF5 是一种用于存储和组织大畛域科学数据的文献才略。在单细胞数据中,不错使用 HDF5 存储抒发矩阵、基因和细胞的元数据等信息。AnnData:.h5ad 文献,是基于 HDF5 的文献才略,由 anndata 库界说。它不错包含单细胞数据的抒发矩阵、基因和细胞的元数据、样品信息等。Comma-Separated Values (CSV) 或文本文献:.csv 或 .txt 文献,包含抒发矩阵的文本文献。每一溜代表一个基因,每一列代表一个细胞,元素是抒发量。1.读取h5文献

图片

使用scanpy读取如上图所示的h5文献,咱们不错用read_10x_h5()这个函数进行h5文献读取,底下是简便的示范;

read_10x_h5(filename)

参数:

filename:文献名,填写你要读取的h5文献,比如:"/home/my/data/GSE10086_filtered_bc.h5"这么的文献旅途。

更多细目见:https://scanpy.readthedocs.io/en/latest/generated/scanpy.read_10x_h5.html

实战:

川崎春花开始一天时就吞下柏忌,领先优势一度只剩下1杆,可是之后她再也没有丢分,抓到4只小鸟,包括五号洞,三杆洞6号铁打到2米抓到全天第一只小鸟,以及17号洞,三杆洞推入3米推杆抓到最后一只小鸟,战胜了最后一组出发的同学年、同期的两位选手:尾关彩美悠、樱井心那。

不过杉浦悠太在转职业之前,已经声名远播。去年,他以业余身份赢得宫崎县凤凰乡村俱乐部举行的邓禄普凤凰高球赛,成为历史上第七个以业余身份在日巡赛上夺冠的选手。

上图中这个文献的下载地址:https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM5344nnn/GSM5344024/suppl/GSM5344024_B1.KO_normal.adjacent.lung_filtered_feature_bc_matrix.h5

我照旧把这个文献下载好了并放在C:/Users/my/Desktop/data目次下,当前开动读取h5文献吧!

代码如下:

#导入scanpy库import scanpy as sc#读取h5文献data=sc.read_10x_h5('C:/Users/my/Desktop/data/GSM5344024_B1.KO_normal.adjacent.lung_filtered_feature_bc_matrix.h5')#检察数据print(data)

成果如下:

AnnData object with n_obs × n_vars = 13113 × 31053    var: 'gene_ids', 'feature_types', 'genome'

不错看出读取文献之后的data变量是一个AnnData数据对象,包含13113个细胞和31053个基因。

2.读取txt文献

txt即是普粗浅通的文本文献云尔,是以很容易读取:

图片

使用scanpy读取如上图所示的txt文献,咱们不错用**read_text()**这个函数进行txt文献读取,底下是简便的示范;

read_text(filename)

参数:

filename:文献名,填写你要读取的txt文献,比如:"/home/my/data/GSE10086_filtered_bc.txt.gz"这么的文献旅途。

更多细目见:https://scanpy.readthedocs.io/en/latest/generated/scanpy.read_text.html#scanpy.read_text

实战:

上图中这个文献的下载地址:https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM5101nnn/GSM5101014/suppl/GSM5101014_Pt1_Superficial_CountMatrix.txt.gz

我照旧把这个文献下载好了并放在C:/Users/my/Desktop/data目次下,管理系统开发当前开动读取txt文献吧!

代码如下:

#导入scanpy库import scanpy as sc#读取txt文献data=sc.read_text('C:/Users/my/Desktop/data/GSM5101014_Pt1_Superficial_CountMatrix.txt.gz')#检察数据print(data)

成果如下:

AnnData object with n_obs × n_vars = 32738 × 2315

不错看出读取文献之后的data变量是一个AnnData数据对象,包含32738个细胞和2315个基因。

3.读取tab文献

它实质上亦然txt文本文献,不论是csv才略和tsv才略,王人是同样的。

图片

使用scanpy读取如上图所示的tab文献,咱们不错用read_text()这个函数进行tab文献读取,底下是简便的示范;

read_text(filename)

参数:

filename:文献名,填写你要读取的tab文献,比如:"/home/my/data/GSE10086_filtered_bc.tab.gz"这么的文献旅途。

更多细目见https://scanpy.readthedocs.io/en/latest/generated/scanpy.read_text.html#scanpy.read_text

实战:

上图中这个文献的下载地址:https://ftp.ncbi.nlm.nih.gov/geo/series/GSE131nnn/GSE131935/suppl/GSE131935_SS2_15_0160_rpkms.tab.gz

我照旧把这个文献下载好了并放在C:/Users/my/Desktop/data目次下,当前开动读取tab文献吧!

代码如下:

#导入scanpy库import scanpy as sc#读取tab文献data=sc.read_text('C:/Users/my/Desktop/data/GSE131935_SS2_15_0160_rpkms.tab.gz')#检察数据print(data)

成果如下:

AnnData object with n_obs × n_vars = 24490 × 384

不错看出读取文献之后的data变量是一个AnnData数据对象,包含24490个细胞和384个基因。

4.读取10X才略的文献

图片

使用scanpy读取如上图所示的10X才略文献,咱们不错用**read_10x_mtx()**这个函数进行3个文献读取,底下是简便的示范;

read_10x_mtx(path)

参数:

path:上图中的3个文献方位的文献目次,比如:"/home/my/data/GSE10086_RAW"这么的文献旅途。

更多细目见:https://scanpy.readthedocs.io/en/latest/generated/scanpy.read_10x_mtx.html

实战:

上图中这3个文献的下载地址:

https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM6567nnn/GSM6567952/suppl/GSM6567952_Control-features.tsv.gz

https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM6567nnn/GSM6567952/suppl/GSM6567952_Control-barcodes.tsv.gz

https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM6567nnn/GSM6567952/suppl/GSM6567952_Control-matrix.mtx.gz

我照旧把这3个文献下载好了并放在C:/Users/my/Desktop/data/GSM6567952目次下,并把这三个文献重定名如下:

features.tsv.gzbarcodes.tsv.gzmatrix.mtx.gz

若是不重定名的话,scanpy就会识别不了这三个文献而导致不成读取文献,当前开动读取10X文献吧!

代码如下:

#导入scanpy库import scanpy as sc#读取tab文献data=sc.read_10x_mtx('C:/Users/my/Desktop/data/GSM6567952')#检察数据print(data)

成果如下:

AnnData object with n_obs × n_vars = 6794880 × 27998    var: 'gene_ids', 'feature_types'

不错看出读取文献之后的data变量是一个AnnData数据对象,包含6794880个细胞和27998个基因。

5.读取h5ad文献

h5ad文献底本即是Python编程言语体系的单细胞存储才略的文献,是以是最便捷的,然而它对r言语用户来说就不友好了哦。

图片

使用scanpy读取如上图所示的h5ad文献,咱们不错用read_h5ad()这个函数进行h5ad文献读取,底下是简便的示范;

read_h5ad(filename)

参数:

小程序开发

filename:文献名,填写你要读取的tab文献,比如:"/home/my/data/GSE10086_filtered_bc.h5ad.gz"这么的文献旅途。

更多细目见:https://scanpy.readthedocs.io/en/latest/generated/scanpy.read_h5ad.html

实战:

上图中这个文献的下载地址:https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM4648nnn/GSM4648564/suppl/GSM4648564_adipose_raw_counts.h5ad.gz

我照旧把这个文献下载好并解压好后,放在C:/Users/my/Desktop/data目次下。

提防:这个文献要进行解压后,scanpy才能读取文献:

#导入scanpy库import scanpy as sc#读取h5ad文献data=sc.read_h5ad('C:/Users/my/Desktop/data/GSM4648564_adipose_raw_counts.h5ad')#检察数据print(data)

成果如下:

AnnData object with n_obs × n_vars = 33694 × 11167

不错看出读取文献之后的data变量是一个AnnData数据对象,包含33694个细胞和11167个基因。

其它文献

常见的单细胞数数据文献差未几就这些了,不同文献使用scanpy的不同读取函数进行读取就行了。

若是是遭遇了比拟冷门的单细胞矩阵文献,也原谅留言推敲哈。基本上就遇河架桥,碰到问题搞定问题即可。

scanpy的其它功能

当前scanpy是Python编程体系最流行的单细胞数据处理库了管理系统开发,是以它笃信是不单是是读取单细胞转录组抒发量矩阵那么简便,它包罗万象,不错出几十个以致上百个条记徐徐指示民众聚首它哈。它提供了好多用于处理和分析单细胞RNA测序数据的功能,以下是 scanpy 常见的功能:

数据加载:撑执多种才略的数据加载,包括常见的文本才略(如CSV、TXT)、AnnData才略等。数据预处理:包括数据归一化、基因过滤、细胞过滤、批次效应清除等。可视化器用:提供了丰富的可视化器用,包括画图细胞聚类、基因抒发、UMAP、t-SNE等。细胞聚类:包括常见的聚类算法,如k均值聚类(K-means)、DBSCAN等。基因象征:用于象征不同细胞类型的基因,通过基因互异抒发分析来谮媚。细胞亚群谮媚:通过分析细胞的抒发阵势,识别细胞亚群。细胞情景揣度:通过分析基因抒发的样子,揣度细胞的情景,如细胞周期阶段。互异抒发分析:用于比拟不同细胞类型或情景之间的基因抒发互异。数据集整合:提供了一些器用,用于整合来自不同履行或批次的单细胞数据。轨迹分析:用于分析单细胞数据中细胞的发育轨迹,了解细胞发育和分化过程。单细胞汇聚分析:探索单细胞数据中的细胞间互相作用汇聚。高档可视化:撑执使用高档图形库,如umap-learn和igraph,进行更复杂的数据可视化。 本站仅提供存储工作,悉数内容均由用户发布,如发现存害或侵权内容,请点击举报。
服务热线
官方网站:lhwstu.cn
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:2852320325
邮箱:w365jzcom@qq.com
地址:武汉东湖新技术开发区光谷大道国际企业中心
关注公众号

Powered by 吉林管理系统开发 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 云迈科技 版权所有