全文摘要
本发明涉及植物基因定位技术领域,特别涉及一种水稻复杂性状基因定位的方法,本申请采用目标性状差异显著的两个水稻亲本,构建F2群体,根据表型将F2群体分成≥3个亚群,并在每个亚群中选取表型一致的≥30个单株,提取DNA构建多个混池进行重测序,通过将每个混池的测序reads与参考基因组序列比对,利用软件GATK检测SNP,采用SNP‑index方法计算对应位点的SNP‑index和ΔSNP‑index值,绘制出ΔSNP‑index的分布图,将显著关联ΔSNP‑index对应区域为候选区域,取相同物理位置上不同ΔSNP‑index的交集对应的区域为最终候选区域,再根据基因注释网站、测序深度和ΔSNP‑index值预测出候选基因。该方法成本低、耗时短、效率高,能定位出多个候选基因,能快速缩小目标基因所在的候选区域,能准确预测出紧密连锁的目标基因数目。
主设计要求
1.一种水稻复杂性状基因定位的方法,其特征在于,包括以下步骤:(1)群体构建:选取目标性状差异显著的两个水稻亲本,亲本经杂交获得F1代,F1代自交获得F2代分离群体;(2)表型鉴定与分群:对步骤(1)的两个亲本和F2代分离群体中各个单株进行表型鉴定,并根据表型性状将F2代分离群体分为4个亚群:完全黑色、部分黑色、棕色和白色;(3)构建多个混池:在步骤(2)分群的每个亚群中挑选出≥30个单株,每个亚群的单株取新鲜叶片,并采用CTAB法提取每个单株DNA,将各单株DNA等量混合,组成多个DNA混池;(4)测序:检测步骤(3)中的两个亲本和每个亚群混池的DNA质量,样品DNA合格后用于构建测序文库,文库质量检测合格后,进行基因组重测序;(5)数据比对与SNP检测:将步骤(4)获得的reads重新定位到水稻参考基因组后,通过BWA软件,将获得的reads比对到参考基因组进行比对,统计参考基因组上碱基的覆盖情况,通过GATK软件检测SNPs;(6)SNP-index分析:首先,将步骤(5)的SNPs中有多个基因型的SNPs、reads支持度小于4的SNPs位点、混池间基因型一致的SNPs位点以及隐性混池基因不是来自于隐性亲本的SNPs位点依次过滤掉;然后,利用两亲本的SNPs数据,分别计算出各混池的SNP-index,对各个混池的SNP-index进行两两比较并计算出Δ(SNP-index),并采用Distance方法对Δ(SNP-index)进行拟合,最后分别绘制出各个混池的SNP-index以及Δ(SNP-index)在染色体上的分布图;所述各混池SNP-index采用两两比较的方法,计算公式为:其中n代表所有混池的数量,m代表任意两个混池且m=2;(7)候选基因分析:选取在95%或99%置信区间对应的阈值以上的基因组区域作为目标基因的候选区域,目标基因的候选区域在不同Δ(SNP-index)的结果中出现相同的候选区域时,选取这些区域的交集作为最终的候选区域;再利用水稻基因组注释网站对候选区域内的基因进行注释,预测功能与花青素相关的基因作为候选基因;候选区域包含或邻近水稻花青素合成相关的已知基因作为候选基因;选取测序深度不低于4×,且Δ(SNP-index)≥0.67所在的基因为候选基因。
设计方案
1.一种水稻复杂性状基因定位的方法,其特征在于,包括以下步骤:
(1)群体构建:选取目标性状差异显著的两个水稻亲本,用于构建分离群体;
(2)表型鉴定与分群:对步骤(1)的两个亲本和分离群体中各个单株进行表型鉴定,并 根据表型性状对分离群体进行分群;
(3)构建多个混池:在步骤(2)分群的每个亚群中挑选出≥30个单株,每个亚群的单株 取新鲜叶片,并采用CTAB法提取每个单株DNA,将各单株DNA等量混合,组成多个DNA混池;
(4)测序:检测步骤(3)中的两个亲本和每个亚群混池的DNA质量,样品DNA合格后用于 构建测序文库,文库质量检测合格后,进行基因组重测序;
(5)数据比对与SNP检测:将步骤(4)获得的reads重新定位到水稻参考基因组后,通过 BWA软件,将获得的reads比对到参考基因组进行比对,统计参考基因组上碱基的覆盖情况, 通过GATK软件检测SNPs;
(6)SNP-index分析:首先,将步骤(5)的SNP中有多个基因型的SNP、read支持度小于4的 SNP位点、混池间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点 依次过滤掉;然后,利用两亲本的SNP数据,分别计算出各混池的SNP-index,对各个混池的 SNP-index进行比较并计算出ΔSNP-index,并采用Distance方法对ΔSNP-index进行拟合, 最后分别绘制出各个混池的SNP-index以及ΔSNP-index在染色体上的分布图;
(7)候选基因分析:选取在95%或99%置信区间对应的阈值以上的基因组区域作为目 标基因的候选区域,再利用水稻基因组注释网站对候选区域内的基因进行注释,预测功能 与目标性状相关的基因作为候选基因;候选区域包含或邻近水稻目标性状合成相关的已知 基因作为候选基因;选取测序深度不低于4×,且△SNP-index≥=0.67、尤其是SNP-index =1的纯合变异位点所在的基因为候选基因。
2.根据权利要求1所述一种水稻复杂性状基因定位的方法,其特征在于,步骤(1)中,所 述亲本为糙米种皮为黑色、花青素含量高达1642.99μg\/g的东兰墨,以及糙米种皮为白色、 花青素低至3.84μg\/g的黄华占。
3.根据权利要求1所述一种水稻复杂性状基因定位的方法,其特征在于,步骤(1)中,所 述分离群体为F 2<\/sub>群体。
4.根据权利要求1所述一种水稻复杂性状基因定位的方法,其特征在于,步骤(1)中,所 述表型为糙米种皮颜色和糙米花青素含量。
5.据权利要求1所述一种水稻复杂性状基因定位的方法,其特征在于,步骤(2)中,所述 分离群体分为≥3个亚群,具体分为4个亚群:完全黑色、部分黑色、棕色和白色。
6.根据权利要求1所述一种水稻复杂性状基因定位的方法,其特征在于,步骤(6)中,
所述各混池SNP-index采用两两比较的方法,计算公式为:设计说明书
【技术领域】
本发明涉及植物基因定位技术领域,具体涉及一种水稻复杂性状基因定位的方 法。
【背景技术】
复杂性状泛指由多基因和非遗传因素共同作用的一类性状。复杂性状涵盖范围 广,包括经典的数量性状、表型间断分布的性状以及其他其它复杂性状。研究由多基因控制 的复杂性状对于作物适应环境和遗传改良有着重要意义。然而由于复杂性状的基因控制方 式较为复杂,单个基因具有相对小的表型效应,且容易受到环境的影响。因此,解析复杂性 状的控制基因一直是比较困难的。
利用传统QTL作图可以定位复杂性状基因,但该方法需要构建高世代、大样本群 体,采用基于PCR的标记进行基因分型,耗时又耗力,且只能鉴定两个相应的等位基因。近年 来,伴随测序技术的快速发展,高通量测序技术已逐渐应用于复杂性状的基因定位,其中, QTL-seq就是一种快速、高效、价廉的基因定位方法。QTL-seq是由日本科学家Hiroki Takagi等于2013年首次提出的一种基因定位技术,该方法将集团分离分析法(Bulked- segregant analysis,BSA)与全基因组重测序技术进行结合,鉴定与目标性状关联的QTLs, 其具体思路是:子代群体中选择表现出极端性状单株,按照表型分成两组,每组20-50个单 株,对每个单株提取DNA,并对DNA分别进行等量混合,形成2个极端表型池,随后进行混池 DNA测序,将两个混池的测序reads比对到参考基因组序列,计算对应位点的SNP-index,然 后将两个混池的SNP-index值相减进而计算出ΔSNP-index,最后将与性状相关的QTL定位 在ΔSNP-index差异比较大的区域。但该方法只构建两个表型极端池,只关联出与目标性状 相关的1-2个主效基因。
因此,本申请发明了一种基因定位新方法—PCAMP(Pair-wise Comparison Analysis for Multiple Pool-seq),通过选取目标性状差异显著的两个亲本杂交再自交, 获得F 2<\/sub>群体,依据表型将F2<\/sub>群体分成≥3个亚群,在每个亚群中选取表型一致的≥30个单株, 提取DNA组成混池(Bulk)进行基因组重测序,最后通过SNP-index方法进行关联分析,鉴定 出目标基因候选区域,进而预测候选基因的方法。
【发明内容】
鉴于上述内容,本发明提供一种水稻复杂性状基因定位的方法,该方法耗时短、成 本低、效率高,该方法能定位出多个候选基因,能快速缩小目标基因候选区域,能准确预测 出紧密连锁的目标基因数目,为后续研究提供较大的应用价值。
为达到上述目的,本发明所采用的技术方案,包括以下步骤:
(1)群体构建:选取目标性状差异显著的两个水稻亲本,用于构建分离群体;
(2)表型鉴定与分群:对步骤(1)的两个亲本和分离群体中各个单株进行表型鉴 定,并根据表型性状对分离群体进行分群;
(3)构建多个混池:在步骤(2)分群的每个亚群中挑选出≥30个单株,每个亚群的 单株取新鲜叶片,并采用CTAB法提取每个单株DNA,将各单株DNA等量混合,组成多个DNA混 池;
(4)测序:检测步骤(3)中的两个亲本和每个亚群混池的DNA质量,样品DNA合格后 用于构建测序文库,文库质量检测合格后,通过Illumina HiSeq X Ten进行基因组重测序;
(5)数据比对与SNP检测:将步骤(4)获得的reads重新定位到水稻参考基因组后, 通过BWA软件,将获得的reads比对到参考基因组进行比对,统计参考基因组上碱基的覆盖 情况,通过GATK软件检测SNPs;
(6)SNP-index分析:将步骤(5)的SNP中有多个基因型的SNP、read支持度小于4的 SNP位点、混池间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点 依次过滤掉,然后利用两亲本的SNP数据,分别计算出各混池的SNP-index,对各个混池的 SNP-index进行比较并计算出ΔSNP-index,并采用Distance方法对ΔSNP-index进行拟合, 最后分别绘制出各个混池的SNP-index以及ΔSNP-index在染色体上的分布图;
(7)候选基因分析:选取在95%或99%置信区间对应的阈值以上的基因组区域作 为目标基因的候选区域,利用水稻基因组注释网站对候选区域内的基因进行注释,预测功 能与目标性状相关的基因作为候选基因;候选区域包含或邻近水稻目标性状合成相关的已 知基因作为候选基因;选取测序深度不低于4×,且△SNP-index≥=0.67、尤其是SNP- index=1的纯合变异位点所在的基因为候选基因。
进一步的,步骤(1)中,所述亲本为糙米种皮为黑色、花青素含量高达1642.99μg\/g 的东兰墨,以及糙米种皮为白色、花青素低至3.84μg\/g的黄华占。
进一步的,步骤(1)中,所述分离群体为F2<\/sub>群体。
进一步的,步骤(1)中,所述表型为糙米种皮颜色和糙米花青素含量。
进一步的,步骤(2)中,所述分离群体分为≥3个亚群,具体分为4个亚群:完全黑 色、部分黑色、棕色和白色。
进一步的,步骤(6)中,所述各混池SNP-index采用两两比较的方法,计算公式为: 其中n代表所有混池的数量且n≥3,m代表任意两个混池且m=2。
进一步的,步骤(6)中,所述ΔSNP-index的计算方法为:任意两个混池SNP-index 的差值。
进一步的,步骤(7)中,所述目标基因的候选区域在不同ΔSNP-index的结果中出 现相同的候选区域时,选取这些区域的交集作为最终的候选区域。
进一步的,步骤(7)中,所述性状为复杂性状:花青素。
所述SNP-index是根据reads测序深度信息计算,表示子代群体与亲本之间的序列 差异程度,是指某个位点含有SNP的reads数与测到该位点的总reads数的比值,SNP-index 的值范围在0~1之间。若SNP-index为0,则表示所有测到的reads都来自被用作参考基因组 的亲本的基因组;若SNP-index为1,代表所有reads都来自另一个亲本;若SNP-index为0.5, 则代表混池中SNP来自两个亲本的基因组的频率一致。
本发明的有益效果是:
1、采用本发明的PCAMP方法,成功定位出10个水稻种皮花青素合成相关的基因组 区域,其中5个与前人研究结果一致,准确确定位出与水稻花青素相关的候选基因数目多, 效率高。
2、本发明所用群体为F2<\/sub>群体,只需经过亲本杂交一次获得F1<\/sub>后再自交一代就能获 得F 2<\/sub>分离群体,群体构建所需时间短;采用多个混池测序的方法,所需测序的个体数量少、 费用低。
3、本发明首先将分离群体的每个混池(即极端表型混池和中间型表型混池)观测 到的SNP都计算出SNP-index,其次将任意两个池的SNP-index值相减后得到ΔSNP-index, 然后将各个SNP-index和ΔSNP-index对应该SNP所在染色体位置作图,再对ΔSNP-index做 零假设和显著性检验,选取在P<0.05或P<0.01下显著关联(即选取95%或99%置信区间 对应的阈值以上)的物理位置为候选区间,当在不同ΔSNP-index的结果中出现相同的候选 区域时,选取这些区域的交集作为最终的候选区域,可以快速缩小目标基因的候选区域,同 时能准确预测出紧密连锁的目标基因数目;利用水稻基因组注释网站对候选基因进行注释 后,选取SNP位点差异性大即ΔSNP-index≥=0.67(尤其是=1)的纯合变异位点所在的基 因为候选基因,可以准确预测出与目标性状关联的候选基因。
【附图说明】
图1是W-B1的SNP-index关联值在水稻12条染色体上的分布;
图2是W-B2的SNP-index关联值在水稻12条染色体上的分布;
图3是W-B3的SNP-index关联值在水稻12条染色体上的分布;
图4是B2-B1的SNP-index关联值在水稻12条染色体上的分布;
图5是B3-B1的SNP-index关联值在水稻12条染色体上的分布;
图6是B3-B2的SNP-index关联值在水稻12条染色体上的分布。
【具体实施方式】
以下实施例用于说明本发明,但不用来限制本发明的范围。在不背离本发明精神 和实质的情况下,对本发明方法、步骤或条件所作的修改或替换,均属于本发明的范围。
实施例1
一种水稻复杂性状基因定位的方法,包括以下步骤:
(1)群体构建:选取糙米种皮为黑色、花青素含量高达1642.99μg\/g的东兰墨,以及 糙米种皮为白色、花青素低至3.84μg\/g的黄华占为亲本,利用黄华占与东兰墨米杂交再自 交获得F 2<\/sub>群体;
(2)表型鉴定与分群:检测步骤(1)的亲本黄华占、东兰墨米和F2<\/sub>群体中各个单株 的种皮颜色,采用高效液相色谱法测定糙米花青素含量,依据各单株籽粒的种皮颜色和花 青素含量,将F 2<\/sub>群体分为4个亚群:完全黑色、部分黑色、棕色、白色;
上述糙米花青素包括6种花青素:天竺葵色素、牵牛花色素、飞燕草色素、芍药色 素、矢车菊色素和锦葵色素;
(3)构建多个混池:在步骤(2)的4个亚群中,每个亚群挑选出30个单株,每个亚群 取单株上部1-2片叶,并利用CTAB法提取每个单株的DNA,并分别进行等量混合,组成4个DNA 混池,即黑色池(B1)、部分黑色池(B2)、棕色池(B3)和白色池(W);
(4)测序:2个亲本和4个混池的DNA检测合格后,采用超声破碎法将DNA随机打断成 350bp的片段,DNA片段经末端修复、3'端加A、加测序接头、纯化、PCR扩增完成测序文库的构 建,文库经质检合格后,通过Illumina HiSeq X Ten进行基因组重测序;
(5)数据比对及SNP检测:将步骤(4)重测序获得的reads需要重新定位到水稻参考 基因组上,利用BWA软件把测序获得的短序列与参考基因组比对,获得亲本黄华占、亲本东 兰墨米、W、B1、B2和B3的比对率分别为98.40%、98.73%、98.54%、98.48%、98.62%、 98.57,6个混池的平均测序深度为64.76×,至少覆盖1×基因组覆盖度为94.98%,6个混池 基因组被均匀覆盖,测序随机性较好;再利用GATK软件检测SNP,获得黄华占为2,123,666个 SNPs,东兰墨米为576,236个SNPs,W为2,265,539个SNPs,B1为2,238,962个SNPs,B2为2, 264,753个SNPs,B3为2,301,734个SNPs;利用SnpEff软件对上述SNPs进行注释和预测变异 影响;
(6)SNP-index分析:先对步骤(5)获得的SNP进行过滤:即将步骤(5)的SNP中有多 个基因型的SNP、read支持度小于4的SNP位点、混池间基因型一致的SNP位点以及隐性混池 基因不是来自于隐性亲本的SNP位点依次过滤掉,最终由混池W-B1得到1,668,781个高质量 的可信SNP位点,由混池W-B2得到1,674,742个高质量的可信SNP位点,由混池W-B3得到1, 683,759个高质量的可信SNP位点,由混池B1-B2得到1,669,167个高质量的可信SNP位点,由 混池B1-B3得到1,680,364个高质量的可信SNP位点,由混池B2-B3得到1,688,944个高质量 的可信SNP位点;接着,利用两亲本的SNP数据,分别计算各混池的SNP-index,对各个混池的 SNP-index进行两两比较,计算公式为:
设计图
相关信息详情
申请码:申请号:CN201910057825.X
申请日:2019-01-22
公开号:CN109727639A
公开日:2019-05-07
国家:CN
国家/省市:45(广西)
授权编号:CN109727639B
授权时间:20191008
主分类号:G16B 20/30
专利分类号:G16B20/30;G16B20/20;C12Q1/6869;C12Q1/6806
范畴分类:申请人:广西壮族自治区农业科学院
第一申请人:广西壮族自治区农业科学院
申请人地址:530007 广西壮族自治区南宁市西乡塘区大学东路174号
发明人:杨行海;张宗琼;夏秀忠;农保选;李丹婷;邓国富;曾宇;熊发前;戴高兴;梁海福;荘洁
第一发明人:杨行海
当前权利人:广西壮族自治区农业科学院
代理人:韦玲双
代理机构:11340
代理机构编号:北京天奇智新知识产权代理有限公司
优先权:关键词:当前状态:审核中
类型名称:外观设计
标签:水稻论文; 基因合成论文; 高通量测序论文; 基因组注释论文; 基因位点论文; 测序深度论文; 定位设计论文; 基因组论文; 科学论文; 性状分离论文; 科普论文; snp论文; dna测序技术论文; snp基因分型论文;