-
白边侧足海天牛(Elysia leucolegnote)属于软体动物门囊舌目(Sacoglossa)海天牛超科(Elysioidea)海天牛属(Elysia),该种分布于中国的香港[1]、海口[2]以及泰国[3]、菲律宾[4]等地红树林。目前,在我国已报道有8种海天牛的分布记录[1,5]。海天牛属部分种具有保留藻类叶绿体并使其发挥光合作用的能力[6-7]。这种被吸收后且继续发挥功能的叶绿体被称为盗质体[8]。不同物种的盗质体寿命的决定因素和盗质体发挥功能的分子机制等相关的研究[9-13] 对叶绿体的内共生理论的揭示[14]以及指导植物抗逆方案的设计都具有重要的意义[15-17],但受限于光合软体动物材料的稀缺性,此相关研究的规模十分有限。白边侧足海天牛在我国的分布有利于科研人员就地取材,为我国在此方向的深入研究提供了独特的材料。分子机制的揭示离不开物种基因组的信息。海天牛属目前尚未有染色体水平上的高质量基因组的报道。基因组已经成为深入研究分子机制的关键内容。基因组含量在同一个物种里是保持稳定的[18-20]。高通量测序为一种广泛用于多种动植物基因组测序的技术[21],将高通量获得的原始数据通过质控以后,利用K-mer分析法评估基因组大小、杂合度和重复率等特征[22-23]。基因组测序大大促进了动植物的遗传进化及功能基因研究,但深度测序之前的低覆盖度的全基因组调查尤为重要,因为其可以决定基因组测序中的最合适的测序、拼装方式[24]。本实验旨在采用高通量测序技术结合K-mer分析[25],对白边侧足海天牛基因组进行测定及评估,为后续深度测序提供基础信息。
-
基于流式细胞术分析海天牛基因组大小,当变异系数控制在 5% 以内时,以84K杨作为对照样品(图1-A)信号峰清晰集中,84K杨与海天牛的混合样品的信号峰独立分离且距离较近(图1-B)。利用84K杨作为对照样品,根据混合样品PI 荧光强度以及峰值的倍数关系,计算海天牛基因组是84K杨的1.69倍,84K杨的核DNA相对含量为1.129 20,基因组平均值为470.155 Mb;估算出海天牛的核DNA相对含量为2.218 71,基因组平均值为794.562 Mb。
-
基因组调查利用第二代高通量测序技术进行双末端测序,获得全基因组的序列结果。测序共得到海天牛原始数据约25.8 Gb,共171 847 064条原始序列;过滤后约25.1 Gb,原始数据Q30比例为91.33%,过滤后Q30 比例为91.78%,满足基因组调查需要的测序数据量(表1)。比较原始数据与过滤数据(表2)的碱基的分布情况(图2-A、 2-B),过滤前后除了测序时前几个bp碱基含量略有波动属正常现象,其余每个测序位置A碱基和T碱比例相等,G碱基和C碱基比例相等,N碱基的数量为0。原始数据与过滤后数据的测序质量分布在Q30到Q40之间,Q30序列占比高,表明测序结果质量高可用于后续分析。
数据类型 数值 原始序列数/条 171 847 064 原始碱基数/bp 25 777 059 600 过滤序列数/条 167 523 764 过滤序列所占比例/% 97.48 过滤碱基数/bp 25 128 564 600 原始数据Q30比值/% 91.33 过滤数据Q30比值/% 91.78 过滤数据所有读长上的碱基质量值大于30且波动小,说明过滤后数据质量稳定(图3-A);实际G、C碱基含量与理论G、C碱基含量都在38%左右出现峰值,且没有明显的偏差,表明测序结果没有偏向性(图3-B);过滤后所有的数据读长都为150 bp(图3-C);全部序列达到Q20,超过95%序列达到Q30,且集中在Q36(表2)。以上结果表明,过滤后的数据读长长,质量高,没有碱基偏好性适用于K-mer分析。
-
使用K-mer的分析方法可以预测白边侧足海天牛的基因组特征。选择K-mer的条件为17和19展开分析,样本17-mer和19-mer分布曲线为非正常泊松分布,呈现双峰分布,在17×和27×附近各有1个峰值(图3-A、图3-B)。总测序深度约为30×,根据17-mer分析,预测海天牛基因组大小约为724.8 Mb,基因组重复率为52.8%,杂合度为1.55%,模型拟合值为99.38%;19-mer分析预测海天牛基因组大小约为730.8 Mb,基因组重复率为35.1%,杂合度为1.68%,模型拟合值为99.72%(表3)。
参数 数值 总序列数/条 83761882 低质量序列数/条 0 序列长度/bp 150 G、C碱基含量/% 36 项目 17-mer 19-mer 深度 30× 30× 单倍体基因组长度/ bp 724,811,356 730,805,267 基因重复序列长度/ bp 382,653,068 256,787,169 基因特有序列长度/ bp 342,158,287 474,018,098 杂合度/ % 1.55104 1.67714 模型拟合/ % 99.3794 99.7184 读错误率/ % 0.148872 0.206886 -
选用SOAPdenovo2软件对海天牛样本进行预组装,设置K-mer参数为29时,在scaffold尺度上,得到含N碱基的基因组大小628 574 653 bp,不含N的基因组大小627 289 254 bp;Scaffold N50长度为373 bp,共405 072条;Scaffold数量2 258 693条,最长的scaffold长度为22 424 bp。在contig的尺度上,以contig N50为358 bp数量有419 361条。得到含N碱基的基因组大小624 854 764 bp,不含N的基因组大小624 854 764 bp,最长的contig为22 424 bp(表4)。组装成Scaffold的contig的数量为168 878条,每个scaffold的平均contig数目为1.5。除此,还得到scaffold尺度上的各碱基的含量,碱基A数量为207 638 986 bp,占总的碱基数目的33.03%;碱基C数量为110 706 106 bp,占总的碱基数目的17.61%;碱基G数量为109 134 885 bp,占总的碱基数目的17.36%;碱基T与碱基A的数量及占比基本相同,碱基T数量为199 809 277 bp占总的碱基数目的31.79%;剩下的所有为碱基N,数量为1 285 399 bp,占总的碱基数目的0.20%。最后计算得到G、C碱基含量为35.05%。GC-depth分析显示,测序无偏向性;平均深度集中在30×,GC 深度分布被分为2层。
类型 Scaffold
长度/bp
数量/条Contig
长度/bp
数量/条N50 373 405072 358 419361 N60 273 602827 262 624669 N70 204 870539 195 903051 N80 155 1225846 150 1271270 N90 122 1684983 120 1739030 最长片段 22424 1 22424 1 总计 628574653 2258693 624854764 2313267
Whole genome survey analysis of Elysia leucolegnote
doi: 10.15886/j.cnki.rdswxb.2022.05.005
- Received Date: 2021-11-04
- Accepted Date: 2022-03-31
- Rev Recd Date: 2022-04-12
- Available Online: 2022-07-12
- Publish Date: 2022-09-21
-
Key words:
- Elysia leucolegnote /
- genomic survey analysis /
- genome size /
- heterozygosity
Abstract: Elysia leucolegnote are sacoglossan sea slugs, belonging to the family Elysiidae and the genus Elysia. They are distributed in mangroves throughout China, Thailand and the Philippines. Photosynthetic sea slugs are famous for their ability of photosynthesis. Stolen chloroplasts are called kleptoplasts. However, there has been no important breakthrough in the molecular mechanism research of kleptoplasts. In this context whole genome survey analysis of E. leucolegnote was conducted to find the clue about the regulation of photosynthesis and maintenance of chloroplast activities by high-throughput sequencing technology. The high-throughput sequencing produced 25 Gb high-quality data in E. leucolegnote, with a total sequencing depth of about 30x. According to 17-mer analysis, the predicted genome size was 724.8 Mb, the genome duplication rate was 52.8%, the heterozygosity was 1.55%, and the model fitting value was 99.38%. The 19-mer analysis predicted that the genome size was 730.8 Mb, with the genome duplication rate of 35.1%, the heterozygosity of 1.68%, and the model fitting value of 99.72%. A draft genome of E. leucolegnote Ker was obtained by preliminary assembly with a total length of 628 Mb. These results showed that E. leucolegnote is a highly heterozygous species with a genome size of more than 700 Mb.
Citation: | LI Xinyu, DING Mengying, FENG Erhui, ZHANG Yuanyuan, ZHANG Kelan, WAN Yinglang. Whole genome survey analysis of Elysia leucolegnote[J]. Journal of Tropical Biology, 2022, 13(5): 457-463. doi: 10.15886/j.cnki.rdswxb.2022.05.005 |