一种水稻复杂性状基因定位的方法论文和设计-杨行海

全文摘要

本发明涉及植物基因定位技术领域，特别涉及一种水稻复杂性状基因定位的方法，本申请采用目标性状差异显著的两个水稻亲本，构建F2群体，根据表型将F2群体分成≥3个亚群，并在每个亚群中选取表型一致的≥30个单株，提取DNA构建多个混池进行重测序，通过将每个混池的测序reads与参考基因组序列比对，利用软件GATK检测SNP，采用SNP‑index方法计算对应位点的SNP‑index和ΔSNP‑index值，绘制出ΔSNP‑index的分布图，将显著关联ΔSNP‑index对应区域为候选区域，取相同物理位置上不同ΔSNP‑index的交集对应的区域为最终候选区域，再根据基因注释网站、测序深度和ΔSNP‑index值预测出候选基因。该方法成本低、耗时短、效率高，能定位出多个候选基因，能快速缩小目标基因所在的候选区域，能准确预测出紧密连锁的目标基因数目。

主设计要求

1.一种水稻复杂性状基因定位的方法，其特征在于，包括以下步骤：(1)群体构建：选取目标性状差异显著的两个水稻亲本，亲本经杂交获得F1代，F1代自交获得F2代分离群体；(2)表型鉴定与分群：对步骤(1)的两个亲本和F2代分离群体中各个单株进行表型鉴定，并根据表型性状将F2代分离群体分为4个亚群：完全黑色、部分黑色、棕色和白色；(3)构建多个混池：在步骤(2)分群的每个亚群中挑选出≥30个单株，每个亚群的单株取新鲜叶片，并采用CTAB法提取每个单株DNA，将各单株DNA等量混合，组成多个DNA混池；(4)测序：检测步骤(3)中的两个亲本和每个亚群混池的DNA质量，样品DNA合格后用于构建测序文库，文库质量检测合格后，进行基因组重测序；(5)数据比对与SNP检测：将步骤(4)获得的reads重新定位到水稻参考基因组后，通过BWA软件，将获得的reads比对到参考基因组进行比对，统计参考基因组上碱基的覆盖情况，通过GATK软件检测SNPs；(6)SNP-index分析：首先，将步骤(5)的SNPs中有多个基因型的SNPs、reads支持度小于4的SNPs位点、混池间基因型一致的SNPs位点以及隐性混池基因不是来自于隐性亲本的SNPs位点依次过滤掉；然后，利用两亲本的SNPs数据，分别计算出各混池的SNP-index，对各个混池的SNP-index进行两两比较并计算出Δ(SNP-index)，并采用Distance方法对Δ(SNP-index)进行拟合，最后分别绘制出各个混池的SNP-index以及Δ(SNP-index)在染色体上的分布图；所述各混池SNP-index采用两两比较的方法，计算公式为：其中n代表所有混池的数量，m代表任意两个混池且m＝2；(7)候选基因分析：选取在95％或99％置信区间对应的阈值以上的基因组区域作为目标基因的候选区域，目标基因的候选区域在不同Δ(SNP-index)的结果中出现相同的候选区域时，选取这些区域的交集作为最终的候选区域；再利用水稻基因组注释网站对候选区域内的基因进行注释，预测功能与花青素相关的基因作为候选基因；候选区域包含或邻近水稻花青素合成相关的已知基因作为候选基因；选取测序深度不低于4×，且Δ(SNP-index)≥0.67所在的基因为候选基因。

设计方案

1.一种水稻复杂性状基因定位的方法，其特征在于，包括以下步骤：

(1)群体构建：选取目标性状差异显著的两个水稻亲本，用于构建分离群体；

(2)表型鉴定与分群：对步骤(1)的两个亲本和分离群体中各个单株进行表型鉴定，并根据表型性状对分离群体进行分群；

(3)构建多个混池：在步骤(2)分群的每个亚群中挑选出≥30个单株，每个亚群的单株取新鲜叶片，并采用CTAB法提取每个单株DNA，将各单株DNA等量混合，组成多个DNA混池；

(4)测序：检测步骤(3)中的两个亲本和每个亚群混池的DNA质量，样品DNA合格后用于构建测序文库，文库质量检测合格后，进行基因组重测序；

(5)数据比对与SNP检测：将步骤(4)获得的reads重新定位到水稻参考基因组后，通过 BWA软件，将获得的reads比对到参考基因组进行比对，统计参考基因组上碱基的覆盖情况，通过GATK软件检测SNPs；

(6)SNP-index分析：首先，将步骤(5)的SNP中有多个基因型的SNP、read支持度小于4的 SNP位点、混池间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点依次过滤掉；然后，利用两亲本的SNP数据，分别计算出各混池的SNP-index，对各个混池的 SNP-index进行比较并计算出ΔSNP-index，并采用Distance方法对ΔSNP-index进行拟合，最后分别绘制出各个混池的SNP-index以及ΔSNP-index在染色体上的分布图；

(7)候选基因分析：选取在95％或99％置信区间对应的阈值以上的基因组区域作为目标基因的候选区域，再利用水稻基因组注释网站对候选区域内的基因进行注释，预测功能与目标性状相关的基因作为候选基因；候选区域包含或邻近水稻目标性状合成相关的已知基因作为候选基因；选取测序深度不低于4×，且△SNP-index≥＝0.67、尤其是SNP-index ＝1的纯合变异位点所在的基因为候选基因。

2.根据权利要求1所述一种水稻复杂性状基因定位的方法，其特征在于，步骤(1)中，所述亲本为糙米种皮为黑色、花青素含量高达1642.99μg\/g的东兰墨，以及糙米种皮为白色、花青素低至3.84μg\/g的黄华占。

3.根据权利要求1所述一种水稻复杂性状基因定位的方法，其特征在于，步骤(1)中，所述分离群体为F _{2<\/sub>群体。}

4.根据权利要求1所述一种水稻复杂性状基因定位的方法，其特征在于，步骤(1)中，所述表型为糙米种皮颜色和糙米花青素含量。

5.据权利要求1所述一种水稻复杂性状基因定位的方法，其特征在于，步骤(2)中，所述分离群体分为≥3个亚群，具体分为4个亚群：完全黑色、部分黑色、棕色和白色。

6.根据权利要求1所述一种水稻复杂性状基因定位的方法，其特征在于，步骤(6)中，

所述各混池SNP-index采用两两比较的方法，计算公式为：设计说明书

【技术领域】

本发明涉及植物基因定位技术领域，具体涉及一种水稻复杂性状基因定位的方法。

【背景技术】

复杂性状泛指由多基因和非遗传因素共同作用的一类性状。复杂性状涵盖范围广，包括经典的数量性状、表型间断分布的性状以及其他其它复杂性状。研究由多基因控制的复杂性状对于作物适应环境和遗传改良有着重要意义。然而由于复杂性状的基因控制方式较为复杂，单个基因具有相对小的表型效应，且容易受到环境的影响。因此，解析复杂性状的控制基因一直是比较困难的。

利用传统QTL作图可以定位复杂性状基因，但该方法需要构建高世代、大样本群体，采用基于PCR的标记进行基因分型，耗时又耗力，且只能鉴定两个相应的等位基因。近年来，伴随测序技术的快速发展，高通量测序技术已逐渐应用于复杂性状的基因定位，其中， QTL-seq就是一种快速、高效、价廉的基因定位方法。QTL-seq是由日本科学家Hiroki Takagi等于2013年首次提出的一种基因定位技术，该方法将集团分离分析法(Bulked- segregant analysis，BSA)与全基因组重测序技术进行结合，鉴定与目标性状关联的QTLs，其具体思路是：子代群体中选择表现出极端性状单株，按照表型分成两组，每组20-50个单株，对每个单株提取DNA，并对DNA分别进行等量混合，形成2个极端表型池，随后进行混池 DNA测序，将两个混池的测序reads比对到参考基因组序列，计算对应位点的SNP-index，然后将两个混池的SNP-index值相减进而计算出ΔSNP-index，最后将与性状相关的QTL定位在ΔSNP-index差异比较大的区域。但该方法只构建两个表型极端池，只关联出与目标性状相关的1-2个主效基因。

因此，本申请发明了一种基因定位新方法—PCAMP(Pair-wise Comparison Analysis for Multiple Pool-seq)，通过选取目标性状差异显著的两个亲本杂交再自交，获得F _{2<\/sub>群体，依据表型将F_{2<\/sub>群体分成≥3个亚群，在每个亚群中选取表型一致的≥30个单株，提取DNA组成混池(Bulk)进行基因组重测序，最后通过SNP-index方法进行关联分析，鉴定出目标基因候选区域，进而预测候选基因的方法。}}

【发明内容】

鉴于上述内容，本发明提供一种水稻复杂性状基因定位的方法，该方法耗时短、成本低、效率高，该方法能定位出多个候选基因，能快速缩小目标基因候选区域，能准确预测出紧密连锁的目标基因数目，为后续研究提供较大的应用价值。

为达到上述目的，本发明所采用的技术方案，包括以下步骤：

(1)群体构建：选取目标性状差异显著的两个水稻亲本，用于构建分离群体；

(2)表型鉴定与分群：对步骤(1)的两个亲本和分离群体中各个单株进行表型鉴定，并根据表型性状对分离群体进行分群；

(4)测序：检测步骤(3)中的两个亲本和每个亚群混池的DNA质量，样品DNA合格后用于构建测序文库，文库质量检测合格后，通过Illumina HiSeq X Ten进行基因组重测序；

(5)数据比对与SNP检测：将步骤(4)获得的reads重新定位到水稻参考基因组后，通过BWA软件，将获得的reads比对到参考基因组进行比对，统计参考基因组上碱基的覆盖情况，通过GATK软件检测SNPs；

(6)SNP-index分析：将步骤(5)的SNP中有多个基因型的SNP、read支持度小于4的 SNP位点、混池间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点依次过滤掉，然后利用两亲本的SNP数据，分别计算出各混池的SNP-index，对各个混池的 SNP-index进行比较并计算出ΔSNP-index，并采用Distance方法对ΔSNP-index进行拟合，最后分别绘制出各个混池的SNP-index以及ΔSNP-index在染色体上的分布图；

(7)候选基因分析：选取在95％或99％置信区间对应的阈值以上的基因组区域作为目标基因的候选区域，利用水稻基因组注释网站对候选区域内的基因进行注释，预测功能与目标性状相关的基因作为候选基因；候选区域包含或邻近水稻目标性状合成相关的已知基因作为候选基因；选取测序深度不低于4×，且△SNP-index≥＝0.67、尤其是SNP- index＝1的纯合变异位点所在的基因为候选基因。

进一步的，步骤(1)中，所述亲本为糙米种皮为黑色、花青素含量高达1642.99μg\/g 的东兰墨，以及糙米种皮为白色、花青素低至3.84μg\/g的黄华占。

进一步的，步骤(1)中，所述分离群体为F_{2<\/sub>群体。}

进一步的，步骤(1)中，所述表型为糙米种皮颜色和糙米花青素含量。

进一步的，步骤(2)中，所述分离群体分为≥3个亚群，具体分为4个亚群：完全黑色、部分黑色、棕色和白色。

进一步的，步骤(6)中，所述各混池SNP-index采用两两比较的方法，计算公式为：其中n代表所有混池的数量且n≥3，m代表任意两个混池且m＝2。

进一步的，步骤(6)中，所述ΔSNP-index的计算方法为：任意两个混池SNP-index 的差值。

进一步的，步骤(7)中，所述目标基因的候选区域在不同ΔSNP-index的结果中出现相同的候选区域时，选取这些区域的交集作为最终的候选区域。

进一步的，步骤(7)中，所述性状为复杂性状：花青素。

所述SNP-index是根据reads测序深度信息计算，表示子代群体与亲本之间的序列差异程度，是指某个位点含有SNP的reads数与测到该位点的总reads数的比值，SNP-index 的值范围在0～1之间。若SNP-index为0，则表示所有测到的reads都来自被用作参考基因组的亲本的基因组；若SNP-index为1，代表所有reads都来自另一个亲本；若SNP-index为0.5，则代表混池中SNP来自两个亲本的基因组的频率一致。

本发明的有益效果是：

1、采用本发明的PCAMP方法，成功定位出10个水稻种皮花青素合成相关的基因组区域，其中5个与前人研究结果一致，准确确定位出与水稻花青素相关的候选基因数目多，效率高。

2、本发明所用群体为F_{2<\/sub>群体，只需经过亲本杂交一次获得F_{1<\/sub>后再自交一代就能获得F _{2<\/sub>分离群体，群体构建所需时间短；采用多个混池测序的方法，所需测序的个体数量少、费用低。}}}

3、本发明首先将分离群体的每个混池(即极端表型混池和中间型表型混池)观测到的SNP都计算出SNP-index，其次将任意两个池的SNP-index值相减后得到ΔSNP-index，然后将各个SNP-index和ΔSNP-index对应该SNP所在染色体位置作图，再对ΔSNP-index做零假设和显著性检验，选取在P＜0.05或P＜0.01下显著关联(即选取95％或99％置信区间对应的阈值以上)的物理位置为候选区间，当在不同ΔSNP-index的结果中出现相同的候选区域时，选取这些区域的交集作为最终的候选区域，可以快速缩小目标基因的候选区域，同时能准确预测出紧密连锁的目标基因数目；利用水稻基因组注释网站对候选基因进行注释后，选取SNP位点差异性大即ΔSNP-index≥＝0.67(尤其是＝1)的纯合变异位点所在的基因为候选基因，可以准确预测出与目标性状关联的候选基因。

【附图说明】

图1是W-B1的SNP-index关联值在水稻12条染色体上的分布；

图2是W-B2的SNP-index关联值在水稻12条染色体上的分布；

图3是W-B3的SNP-index关联值在水稻12条染色体上的分布；

图4是B2-B1的SNP-index关联值在水稻12条染色体上的分布；

图5是B3-B1的SNP-index关联值在水稻12条染色体上的分布；

图6是B3-B2的SNP-index关联值在水稻12条染色体上的分布。

【具体实施方式】

以下实施例用于说明本发明，但不用来限制本发明的范围。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的修改或替换，均属于本发明的范围。

实施例1

一种水稻复杂性状基因定位的方法，包括以下步骤：

(1)群体构建：选取糙米种皮为黑色、花青素含量高达1642.99μg\/g的东兰墨，以及糙米种皮为白色、花青素低至3.84μg\/g的黄华占为亲本，利用黄华占与东兰墨米杂交再自交获得F _{2<\/sub>群体；}

(2)表型鉴定与分群：检测步骤(1)的亲本黄华占、东兰墨米和F_{2<\/sub>群体中各个单株的种皮颜色，采用高效液相色谱法测定糙米花青素含量，依据各单株籽粒的种皮颜色和花青素含量，将F _{2<\/sub>群体分为4个亚群：完全黑色、部分黑色、棕色、白色；}}

上述糙米花青素包括6种花青素：天竺葵色素、牵牛花色素、飞燕草色素、芍药色素、矢车菊色素和锦葵色素；

(3)构建多个混池：在步骤(2)的4个亚群中，每个亚群挑选出30个单株，每个亚群取单株上部1-2片叶，并利用CTAB法提取每个单株的DNA，并分别进行等量混合，组成4个DNA 混池，即黑色池(B1)、部分黑色池(B2)、棕色池(B3)和白色池(W)；

(4)测序：2个亲本和4个混池的DNA检测合格后，采用超声破碎法将DNA随机打断成 350bp的片段，DNA片段经末端修复、3'端加A、加测序接头、纯化、PCR扩增完成测序文库的构建，文库经质检合格后，通过Illumina HiSeq X Ten进行基因组重测序；

(5)数据比对及SNP检测：将步骤(4)重测序获得的reads需要重新定位到水稻参考基因组上，利用BWA软件把测序获得的短序列与参考基因组比对，获得亲本黄华占、亲本东兰墨米、W、B1、B2和B3的比对率分别为98.40％、98.73％、98.54％、98.48％、98.62％、 98.57，6个混池的平均测序深度为64.76×，至少覆盖1×基因组覆盖度为94.98％，6个混池基因组被均匀覆盖，测序随机性较好；再利用GATK软件检测SNP，获得黄华占为2,123,666个 SNPs，东兰墨米为576,236个SNPs，W为2,265,539个SNPs，B1为2,238,962个SNPs，B2为2, 264,753个SNPs，B3为2,301,734个SNPs；利用SnpEff软件对上述SNPs进行注释和预测变异影响；

(6)SNP-index分析：先对步骤(5)获得的SNP进行过滤：即将步骤(5)的SNP中有多个基因型的SNP、read支持度小于4的SNP位点、混池间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点依次过滤掉，最终由混池W-B1得到1,668,781个高质量的可信SNP位点，由混池W-B2得到1,674,742个高质量的可信SNP位点，由混池W-B3得到1, 683,759个高质量的可信SNP位点，由混池B1-B2得到1,669,167个高质量的可信SNP位点，由混池B1-B3得到1,680,364个高质量的可信SNP位点，由混池B2-B3得到1,688,944个高质量的可信SNP位点；接着，利用两亲本的SNP数据，分别计算各混池的SNP-index，对各个混池的 SNP-index进行两两比较，计算公式为：

设计图

一种水稻复杂性状基因定位的方法论文和设计

一种水稻复杂性状基因定位的方法论文和设计-杨行海

全文摘要

主设计要求

设计方案

相关信息详情

猜你喜欢