首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

纤维素合成酶基因家族的生物信息学分析

2022-08-10 来源:华拓网


目 录

摘要··················································································1

关键词················································································1

前言··················································································2

1 材料与方法··········································································4

1.1 获取氨基酸序列····································································4

1.2 序列比对及进化树构建······················································4

2 结果与分析··········································································4

2.1 水稻纤维素合成酶基因家族组成······················································4

2.2 纤维素合成酶各成员蛋白质序列的多重比对············································6

2.3 纤维素合成酶成员的进化分析·······················································17

3 讨论···············································································20

4 参考文献···········································································20

5 致谢···············································································20

水稻纤维素合成酶基因家族的生物信息学分析

作者: 吴赵 指导老师:彭喜旭 专业:生物科学 (湖南科技大学 生命科学学院,湖南湘潭 411201 )

摘 要: 本文利用DNAStar和MEGA软件对水稻纤维素合成酶基因家族进行生物信息学分析。结果表明,水稻纤维素合成酶基因家族分为CesA(纤维素合成酶家族)和Csl(纤维素合成酶相似家族)两个家族,其中CesA有11个成员;Csl有34个成员,蛋白质序列对比和进化树分析表明,CesA家族可分3组,其中CesA7可以看出是第一组与第二组的过渡支。Csl家族可以分为6组。这些结果为纤维素合成酶基因家族成员的结构、功能分析和进化起源的探索提供了资料。

关键词:纤维素合成酶;基因家族;进化树;生物信息学;水稻

Bioinformatics analysis of cellulose synthase Gene family of rice

Major:Life Sciences

Author: Wu Zhao Director: Peng Xixu,

(School of Life Sciences of Hunan University of Science and Technology Xiangtan 411201,

Hunan)

Abstract : This article analyze the cellulose synthase gene family of rice by using the DNAStar and MEGA software, The results show that cellulose synthase gene family is formed by the cellulose synthase family which is make up of eleven members and the cellulose synthase-like family which including thirty-four members, By Protein sequence alignment and phylogenetic analysis,we know that the family of CesA can divided into three groups .the member CesA7 can be seen as the transition of the group one and group two ,The family of Csl can be divided into six groups, This results laiding a foundation on origin, evolution and function research of ccellulose synthase gene family.

Key words: cellulose synthase; gene family; evolution tree;Bioinformatics;rice

1

前言

纤维素是生物圈最丰富的有机质,占植物界碳素的50%以上,是植物的结构多糖,是它们的细胞壁主要成分。纤维素是线形葡萄糖,残疾通过β(1→4)糖苷键连接的纤维二糖可看成是它的二糖单位。它是在细胞质膜上的纤维素合成酶催化下合成的,此酶同时催化多条糖链的合成。自然界中每年可产生约1 800 亿t 纤维素。纤维素广泛分布于植物和大多数藻类中, 一些细菌、真菌甚至某些动物也能合成纤维素。纤维素在造纸、纺织、食品、林业、生物能源等工农业生产领域中有着广泛的经济和商业价值, 这使得它一直成为人们研究的热点。纤维素的基本单位是吡喃式D2葡萄糖, 通过β(1, 4 )糖苷键相连[2 ]。虽然纤维素合酶基因首先在木醋杆菌(Acetobacter xylinum)中被发现[3~ 5 ], 但近年来随着人类对石油、煤炭的大量需求及石油价格的飞速增长, 对植物纤维素合酶基因及其蛋白的研究显得更有价值。 要掌握纤维素合成酶基因的调控, 可以通过植物基因工程方式增加植物中的纤维素含量, 而同时相对减少木质素的含量[6], 这样可以充分减少由造纸工业带来的环境污染, 也可以更加充分地利用纤维素来造福于人类。同时增加纤维素含量以改善其品质, 将会培育更适于造纸的新型树种。

纤维素是在细胞质膜上的纤维素合成酶催化下合成的,对纤维素合成酶(cellulose synthase,CESA)的了解可以更使纤维素的人工合成更具效率。

所有的CESA 与CSl (cellulose-synthase-like protein,纤维素合成酶相似蛋白)蛋白都具有跨膜蛋白的特征, 在N端与C端具2个或多个跨膜区域中, 其中间为亲水胞内区, 相似性比较结果表明了CESA 与CSl蛋白之间最大的同源性出现在中间胞内区。有关研究结果表明, 高尔基体存在着大量的糖苷转移活性, 因此, 有许多研究者认为, 部分CSl蛋白可能位于高尔基体的膜上。植物CESA 蛋白含有一个植物特异保守区和一个超变区(HVR ) ,N端含有2个锌指区, 紧跟着HVR 区, 这是植物CESA 蛋白所特有的结构特征[7 ]。1999 年,Delmer 提出了一个纤维素合酶的三维结构模型, 即8 个跨膜结构域在细胞膜上形成一个 “洞” , 正在合成的β(1→4) 葡萄糖苷链经此 “洞” 到达细胞外形成细胞壁。 N 2端形成的蛋白间互作结构域位于胞内, 可以结合各种催化活性所需的因子。纤维素合成酶基因的大小为 315~515 kb ,有 9~13 个内含子,转录的mRNA范围为310~315 kb ,编码的蛋白长约985~1088个氨基酸,序列同源性53 %~98 %。其内含子和外显子的边界区域是高度保守的,基因结构的差异主要在于内含子的多少。CESA 基因家族目前有40多个基因。公共数据库里收集了来自40多个不同植物的1400 多个相关序列,新的序列还在不断增加。植物纤维素合酶是一个由36个单体组成的玫瑰状复合体,其单体主要由植物纤维素合酶(cellulose synthase, CesA)基因家族成员编码。近年来的研究证明CesA1,CesA3,CesA6在初生细胞壁的合成中起着不可替代的作用,CesA4,CesA7,CesA8与次生细胞壁的形成有直接的关系。而CesA2,CesA5,CesA9,CesA10的功能还不是很清楚。类纤维素合酶(cellulose-synthase-like protein, Csl蛋白)家族共分CslA、 CslF、CslC、CslD、CslE 和CslH等6个家族。Csl基因家族功能还处于探索阶段,目前只有少数的报道。有研究表明Csl基因与半纤维素的合成有关;有文献指出在旱金莲花(Tropaeolum)中发现Csl与I型初生细胞壁的半纤维素主要成分xyloglucan(XyG)的-1,4-glucan骨架合成有关,该基因与拟南芥CslC4高度同源。而Burton等报道水稻CslF基因家族与细胞物细胞壁形成和生长发育中的重要作用,但绝大多数的Csl基因功能有待进一步研究。近年来,科学家采用了ESTs(Expressed Sequence tags),cDNA微阵列,反向遗传学等技术手段,在拟南芥纤维素合酶基因的的定位、表达和功能的研究上取得了一定的进展,而在探索纤维素的合成对外界环境胁迫的反应方面研究较少。

因为纤维素合酶(CesA )多基因现象的存在, 所以它与存在的大量纤维素合酶相似蛋白(Csl)

[1 ]

2

构成了一个庞大的超基因家族。目前CesA 基因R 基因家族已有40 多个基因, 并且在不断地增加着。CesA 基因的长度大约在3.5~5.5 Kb 之间, 含有9~13个内含子, 其内含子和外显子的边界区域是高度保守的, 基因结构的差异主要决定于内含子的多少。CesA 基因转录产物介于3.0~3.5Kb之间,编码的肽链长度约为985~1088个氨基酸。CESA蛋白家族各成员的氨基酸数目大约在985~1088之间,它们之间的一致性为53%~ 98%; CesA 包含了2 个高变区, 即N 端约有150 个氨基酸残基,A 区与B 区(植物纤维素合成酶基因特有的保守区,A 区有DX, „, XDXD,B 区与酶的催化活性有关, 除含有一个保守的天冬氨酸残基外, 还有一个序列QXXRW )之间约有50个氨基酸。

2000 年, Richmond 和 Somerville 以拟南芥基因(AtCes1)及棉花纤维素合酶多肽氨基酸序列为初始序列, 对拟南芥基因组DNA 序列进行反复检测后发现, 至少有41 个高度相关的基因或DNA 序列, 其中有10个纤维素合酶的编码基因被验证, 而其余的基因或DNA 序列编码产物在结构上与AtCes 具有相似性, 但由于它们的功能目前还不清楚, 所以被命名为纤维素合酶相似蛋白。依据序列结构特征的不同,Csl 蛋白可分为6 个族: CslA、 CslF、CslC、CslD、CslE 和CslH。

现在对生物信息的分析都能从生物信息学提供的各种蛋白质以及基因数据库中获得大量资料,比较著名的如GenBank与PIR。

生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;发现了新基因信息之后进行蛋白质空间结构模拟和预测。目前研究的主要方向有:序列比对,基因识别,基因重组,蛋白质结构的预测,基因表达,蛋白质反应的预测,以及建立进化论的模型。

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况: Orthologous: 不同种族,相同功能的基因 Paralogous: 相同种族,不同功能的基因

Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。

目前,水稻基因组已测定,为水稻纤维素合成酶基因家族的蛋白质以及基因研究提供了一个数据平台。

本文通过对水稻纤维素合成酶基因家族分析,得到较为完整的纤维素合成酶基因家族数据,为纤维素合成酶基因家族的起源、进化和功能研究奠定基础。

[8]

3

1.材料与方法

1.1获取氨基酸序列

水稻纤维素合成酶基因家族的蛋白质序列是通过(http://rice.plantbiology.msu.edu.)获得的。在

左侧选中Community Annotation,点击Rice Gene Families在Rice Gene Families找到cellulose synthase gene family。点击右侧show details分别查找cellulose synthase family和cellulose synthase-like family,分别统计各家族的成员名字;基因座;在染色体上的位置;外显子的数目;及其蛋白质序列。其蛋白质序列可以先复制基因位置如LOC_Os01g54620,再在左侧选择Search Functions中的Locus Search,最后download其蛋白质序列。其他序列按此步骤一一找出。

1.2 序列比对及进化树构建 1.2.1序列比对

cellulose synthase gene family的氨基酸序列比对用DNAStar(Lasergene)软件执行。

多重序列比对(MegAlign)

输入序列File(Enter Sequences):Add all 完成( Done)

查看(View):Aligenment report,

装饰定义options(New Decoration):shade black

1.2.2进化树的构建

在ClustalW运算的基础上,再用MEGA4软件 形成进化树。 打开序列(Alignment):Alignment Exploer/CLUSTAL 创建新的序列 (Creat a new Alignment):OK 多序列比对 (Align by ClustalW):OK

输出序列 (Data)(Export Alignment):MEGA Format 打开数据 (Open the data in MEGA):YES

输出解鞋带值(phylogeny)Bootstarp Test of phylogeny

2.结果与分析

2.1 水稻纤维素合成酶基因家族组成

搜索数据库(http://rice.plantbiology.msu.edu)发现,水稻纤维素合成酶基因家族分为水稻纤维素合成酶基因家族(Cellulose Synthase Family )和水稻纤维素合成酶相似基因家族(Cellulose Synthase-like Family)两个基因家族,其中CESA家族有11个成员,CSL家族有34个成员,我们对其中的各个成员在染色体上的位置,外显子数目以及蛋白质以及基因登陆号做了具体的记录。其中CESA家族各成员信息见表1,CSL家族各成员信息见表2。

4

表1 CESA家族成员信息

OsCESA

1 2 3 4

chr

5 3 7 1

Acc

AC135426 AC135958 AP005248 AP003237 AC104487 AP005824 AC022457 AP003837 AP005579 AC731763 AP003612

Pos(cm)

4.565—4.571 33.772—33.779 13.740—13.746 31.421—31.427 35.170—35.176 8.495—8.500 17.190—17.195 5.851—5.857 17.190—17.195 17.361—17.362 23.776—23.779

extron

13 14 13 12 13 12 8 14 10 2 7

PID

AAU44296 AAP21426 BAD30574 BAD97094 AAD41140 BAC84511 AAK27814 BAC57282 BAD33645

LOC

LOC_Os05g08370 LOC_Os03g59340 LOC_Os07g24190 LOC_Os01g54620 LOC_Os03g62090 LOC_Os07g14850 LOC_Os10g32980 LOC_Os07g10770 LOC_Os09g25490 LOC_Os12g29300 LOC_Os06g39970

5 6 7 8 9 10 11

3 7 10 7 9 12 6

BAD32845

表2 CSL家族成员信息

OsCSL

C1 A1 E2 A6 A4 A5 C9 H2 H3 C7 D2 A3 D5 A9 C10 F9 F8 F2 F1 F4 F3 A7 F6 C3 D3

extron

5 9 8 9 8 10 6 7 8 5 4 12 1 9 5 3 3 2 2 3 3 10 3 5 2

chr

1 2 2 2 3 3 3 4 4 5 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8

ACC

AP003377 AP005785 AP005113 AP005297 AC073556 AC084766 AC133450 AL606632 AL606632 AC108873 AP001552 AP003509 AP005449 AP008212 AP005309 AP005126 AP005126 AP004261 AP004261 AP004261 AP004261 AP004260 AP004635 AP004013 AP004459

PID

BAC10759 BAD34025 AAL25130 BAD16122 AAL84294 AAL82530 AAT85054 CAD41009 CAD41008 AAT44138 BAA93027 BAD37274 BAD61907 BAD37742 BAC56816 BAC80027 BAC65371 BAC65378

BAC83321 BAC83322 BAC79726 BAC66734

BAD01697

LOC

LOC_Os01g56130 LOC_Os02g09930 LOC_Os02g49332 LOC_Os02g51060 LOC_Os03g07350 LOC_Os03g26044 LOC_Os03g56060 LOC_Os04g35020 LOC_Os04g35030 LOC_Os05g43530 LOC_Os06g02180 LOC_Os06g12460 LOC_Os06g22980 LOC_Os06g42020 LOC_Os07g03260 LOC_Os07g36610 LOC_Os07g36630 LOC_Os07g36690 LOC_Os07g36700 LOC_Os07g36740 LOC_Os07g36750 LOC_Os07g43710 LOC_Os08g06380 LOC_Os08g15420 LOC_Os08g25710

POS(cM)

32.317-32.321 5.151-5.158 30.142-30.148 31.222-31.226 3.728-3.732 14.923-14.929 31.923-31.927 21.109-21.113 21.116-21.121 25.238-25.242 0.659-0.664 6.757-6.761 13.413-13.417 25.230-25.234 1.604-1.307 21.900-21.907 21.909-21.914 21.969-21.972 21.988-21.990 22.005-22.011 22.014-22.018 26.157-22.162 3.543-3.549 9.382-9.386 15.639-15.643

5

续表2 OsCSL A11

C2 E1

extron 11

5 7

chr 8

9 9

ACC

AP004666 AP005568 AP005759 AP005759 AC119148 AC090441 AC021893 AC027037 AL845342

PID

BAD09847 BAD33623 BAD46389 BAD46391 ABB47240 AAK91320 AAK98678 AAL58185 ABA99552

LOC

LOC_Os08g33740 LOC_Os09g25900 LOC_Os09g30120 LOC_Os09g30130 LOC_Os10g20090 LOC_Os10g20260 LOC_Os10g26630 LOC_Os10g42750 LOC_Os12g36890

POS(cM)

21.075-21.083 15.545-15.548 18.306-18.313 18.314-18.320 10.018-10.023 10.109-10.116 13.824-13.829 22.990-22.994 22.569-22.573

E6 H1

F7 A2 D1 D4

7 9

2 9 2 2

9 10

10 10 10 12

Abbreviation:ACC为该成员的基因登陆号,PID为蛋白质登陆号,extron为外显子数目,chr为染色体,LOC为染色体的位置,Pos为在染色体上的长度。

从表1我们可以发现纤维素合成酶成员中有3个分布在7号染色体上,CESA10只有两个外显子,从表2可以看出CSL家族中有8个成员分布在7号染色体上,可以说7号染色体是纤维素合成酶超家族分布最密集的地方,整个D族外显子数目普遍较少,为1至4个,其中CSLD5没有内含子。从整个家族上看11号染色体上没有纤维素合成酶基因家族的分布。

2.2纤维素合成酶各成员蛋白质序列的多重比对

将CESA家族中的11个成员与CSL家族中的34个成员的氨基酸序列用MEGA 4软件进行多重序列比对,可以得到图1与图2。

从图2.1我们可以看出家族中分散分布了多个保守域,保守域同源性较高,保守域外同源性较低,其中CESA4与CESA11比较特殊,它们的氨基酸序列与其它成员有较大不同,CESA10的氨基酸序列最短只有244个氨基酸残基。表明它们在进化路上与其它成员出现了分歧。

6

7

8

图1 CESA家族成员蛋白质序列的多重比对

从图2我们可以看出,整个CSL大家族中存在多个保守域,这些保守域的蛋白质序列决定了该酶的特定功能,我们可以看到各个大组(A,C,D,E,F,H)它们的保守序列具有高度相似性,这表明它们在进化上的亲缘关系极其相近,此外我们可以发现整个H组的序列较短。

9

10

11

12

13

14

15

16

图2 CSL家族成员蛋白质序列的多重比对

2.3纤维素合成酶成员的进化分析

为了了解纤维素合成酶基因家族系统发育的关系,我们根据预测得到的11个CESA的氨基酸序列和34个CSL氨基酸序列,用MEGA软件以邻接法构建系统发育树,可以发现CESA家族可以分为三组,其中CESA5,CESA3,CESA6,CESA9,CESA7可分为第一大组,CESA1,CESA2,CESA8可分为第二大组,其中CESA4,CESA11,CESA10比较特殊将其分为第三组,其中CESA7可以看出第一组与第二组的过渡。详细信息见图3。

而CSL家族可以分为六大组;其中CSLF1,CSLF2,CSLF3,CSLF4,CSLF6,CSLF7,CSLF8,CSLF9为第一大组;CSLD1,CSLD2,CSLD3,CSLD4,CSLD5为第二大组;CSLH1,CSLH2,CSLH3为第三大组,CSLE1,CSLE2,CSLE6为第四大组,CSLC1,CSLC2,CSLC3,CSLC7,CSLC9,CSLC10为第五大组,CSLA1,CSLA2,CSLA3,CSLA4,CSLA5,CSLA6,CSLA7,CSLA9,CSLA11为第六组。其中CSLF6在进化上处在第一组与第二组的过渡支。具体信息见图4。

17

9710054 OsCESA5 OsCESA3 OsCESA6Ⅰ

18 OsCESA935 OsCESA7 OsCESA18932 OsCESA2100 OsCESA8 OsCESA4 OsCESA11 OsCESA10

图3 水稻CESA家族的系统发生树

Ⅲ 18

96 OsCSLF294 OsCSLF153 OsCSLF479 OsCSLF975 OsCSLF8Ⅰ

49 OsCSLF362 OsCSLF799 OsCSLF6 OsCSLD499 OsCSLD36562 OsCSLD5Ⅱ

13 OsCSLD275 OsCSLD1 OsCSLH2100 OsCSLH3Ⅲ

63 OsCSLH1 OsCSLE299 OsCSLE1Ⅳ 100 OsCSLE661 OsCSLC136 OsCSLC7 OsCSLC997Ⅴ 65 OsCSLC10 OsCSLC376 OsCSLC210092 OsCSLA5 OsCSLA754 OsCSLA18514 OsCSLA9 OsCSLA11Ⅵ

29 OsCSLA66 OsCSLA335 OsCSLA492 OsCSLA2

图4 水稻CSL家族的系统发生树

19

3 讨论

利用生物信息学方法对基因进行分析,发现新线索和新规律,指导实验工作的设计,可避免实验的盲目性和不必要的重复。在基因研究的相关文献报道中,生物信息学内容所占比例有越来越高的趋势。特别是近年来水稻的蛋白质以及基因数据库免费开放,为cellulose synthase gene family的生物信息学分析提供了重要资料,相信在不久的将来人们将能更好的认识了解纤维素合成酶,并调控其在生物中的作用。

参考文献

[1] Englehardt J Sources. Industrial derivatives and commercial applications of cellulose[J]. Carbohydrase Eur, 1995, 12: 5-14.

[2] Delmer D P. Cellulose biosynthesis: exciting times for a difficult field of study[J]. A new Rev Plant Physiology Plant Mol Biol, 1999, 50: 245-276.

[3] Saxena IM ,Brown RMJ. Identification of a second cellulose synthase gene (acsA ) in Acetobacter xylinum [J]. Bacteriol, 1995, 177(18): 276- 283.

[4] Saxena IM, Lin FC, Brown RMJ. Identification of a new gene in an operon for cellulose biosynthesis in Acetobacter xylinum [J]. Plant Mol Biol, 1991, 16 (6): 947-954.

[5] Wong HC, Fear AL, Calhoon RD, et al. Genetic organization of the cellulose synthase operon in Aetobacter xylinum [J]. Proc Natl Acad Sci USA, 1990, 87(20) : 8130- 8134.

[6] Wei T, Aaron Nelson, Emmanuel Johnson. Increasing cellulose production and transgenic plant growth in forest tree species [J]. Journal of Forestry Research,2005, 16 (1): 67-72.

[7] 魏建华, 宋艳茹. 植物纤维素合酶基因研究进展[J]. 植物学通报, 2002, 19 (6): 641- 649 .

[8] Richmond T A , Somerville C R. The cellulose synthase super family[J]. Plant Physiology, 2000, 124: 495- 498 .

致谢

本论文是在彭喜旭老师和王海华教授的悉心指导下完成的。从论文的选题、设计、方案的制定实施到研究结果的分析整理以及论文的撰写,无不凝结着老师的心血与智慧。引导我进入一个既陌生而又令人兴奋的生物信息学新领域—比较植物基因组与分子进化,当我遇到难题时,彭老师和王老师及时给予指导和解答,正是老师自始至终坚持不懈地指导和督促,使我得以顺利完成课题研究;在发表论文的撰写方面,面对我所罗列的一堆数据,是导师去粗撷英,亲力而为组织撰写,数易其稿,认真修改,才得以顺利定稿成文。王老师和彭老师渊博的知识、开拓创新的学者风范、严谨求实的治学作风、宽容豁达的处世态度、对科学研究的执着追求和敬业精神,时刻激励着我并将使我受益终身。在导师的传道授业解惑中,让我接受了生物信息学及分子生物学的教育,科学研究素养得到了很好的提高,在此,谨向导师致以崇高的敬意和衷心的感谢。

20

因篇幅问题不能全部显示,请点此查看更多更全内容