2016年研究生数模竞赛B题

萌到你眼炸
564次浏览
2020年08月03日 10:28
最佳经验
本文由作者推荐

石家庄第二实验中学-甘肃省招生办


2016年研究生数学建模竞赛B题
具有遗传性疾病和性状的遗传位点分析
人体的每条染色体携带一个DNA分子,人的遗传密码由人体中的DNA携带。DNA是
由分别带有A, T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。在这条双螺旋的长
链中,共有约30亿个 碱基对,而基因则是DNA长链中有遗传效应的一些片段。在组成DNA
的数量浩瀚的碱基对(或对应的 脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变
异引起DNA的多态性,我们称之为位点。染 色体、基因和位点的结构关系见图1.
在DNA长链中,位点个数约为碱基对个数的11000。由于 位点在DNA长链中出现频
繁,多态性丰富,近年来成为人们研究DNA遗传信息的重要载体,被称为人 类研究遗传学
的第三类遗传标记。
大量研究表明,人体的许多表型性状差异以及对药物和疾病 的易感性等都可能与某些
位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或疾病相关 联的位点在
染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人们对致< br>病位点加以干预,防止一些遗传病的发生。
近年来,研究人员大都采用全基因组的方法来确定致 病位点或致病基因,具体做法是:
招募大量志愿者(样本),包括具有某种遗传病的人和健康的人,通常 用1表示病人,0表
示健康者。对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的 信息(因为染色体
具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);如表1中,在位点r s100015
位置,不同样本的编码都是T和C的组合,有三种不同编码方式TT,TC和CC。类似 地其他
的位点虽然碱基的组合不同,但也只有三种不同编码。研究人员可以通过对样本的健康状况
和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理。

表1. 在对每个样本采集完全基因组信息后,一般有以下的数据信息
(以6个样本为例,其中3个病人,3个健康者):
样本编号
1
2
3
4
5
6

样本健康状况
1
0
1
1
0
0
染色体片段位点名称和位点等位基因信息
rs100015
TT
TT
TC
TC
CC
TT
rs56341
CA
CC
CC
CA
CC
CC
...
...
...
...
...
...
...
rs21132
GT
GG
GG
GG
GG
GG
注:位点名称通常以
rs
开头。


基因

位点

染色体


图1. 染色体、基因和位点的结构关系.

本题目针对某种遗传疾病(简称疾病 A)提供1000个样本的信息,这些信息包括这1000个样
本的疾病信息、样本的9445个位点编 码信息,以及包含这些位点的基因信息。这些信息包
含在附录中的2个文件( , )和1个文件夹gene_info(包含300个文件)
中。

文件中包含了样本 具有遗传疾病A的信息,即一列0和1组成的数据,其中共
有500个0,500个1,表示我们现在共 有1000个样本,其中500个0就是500个没患有疾
病A的人,500个1就是有500个患有遗 传病A的人。如同表一中的第二列。

文件中包含了上述1000个样本在某条染色体片段上 所有的位点信息。该文件总
共有1001行,9445列。如同上表1中第三列到第六列的编码信息。具 体来说,第一行表示
9445个位点的名称,都是以字母rs开头的;接下来,有1000行,每一行表 示一个样本在该
条染色体片段上所有位点(9445个位点)的编码信息。例如,该文件中第2行,就表 示1号样
本在该条染色体片段上9445个位点的编码信息。

文件夹gene_i nfo中包含了300个dat文件,表示300个基因的信息;每个dat文件中包含了
若干个位点的 名称,表示该基因包含的位点信息,事实上,可以把基因理解为若干个位点组
成的集合。注意到在文件中 已包含所有位点的编码信息,所以我们可以得到每
一个基因所包含位点的编码信息。例如gene_,表 示基因gene_1包含了rs3094315,
rs3131972,..., rs4040617,共7个位点。

另外,人体的许多遗传疾病和性状是有关联的,如高血 压,心脏病、脂肪肝和酒精依赖等。
科研人员往往把相关的性状或疾病放在一起研究,这样能提高发现致 病位点或基因的能力;
附录中的multi_文件中提供了上述1000个样本的10种相关性状的信 息。文件中
的每一列表示一个性状,每一行对应一个样本。文件中的0和1信息同文件。
< br>所有这些文件都可以利用Notepad++软件打开。装好notepad++后,当需要打开某个数据 文
件时,先点击该文件,然后点击右键,屏幕出现菜单,其中一栏是“edit with notep ad++”,点
击这一栏即可。许多软件也可以将文件中的数据直接读入内存。(如matlab可用i mportdata
函数读入)



本题包含以下问题:
问 题一、请用适当的方法,把中每个位点的碱基(A,T,C,G)编码方式转化成数值
编码方式,便于进 行数据分析。

问题二、根据附录中1000个样本在某条有可能致病的染色体片段上的9 445个位点的编码信
息(见)和样本患有遗传疾病A的信息(见文件)。设计或采用一个
方法 ,找出某种疾病最有可能的一个或几个致病位点,并给出相关的理论依据。

问题三、同上题 中的样本患有遗传疾病A的信息(文件)。现有300个基因,
每个基因所包含的位点名称见文件夹ge ne_info中的300个dat文件,每个dat文件列出了对
应基因所包含的位点(位点信息见文 件)。由于可以把基因理解为若干个位点组
成的集合,遗传疾病与基因的关联性可以由基因中包含的位点 的全集或其子集合表现出来请
找出与疾病最有可能相关的一个或几个基因,并说明理由。
< br>问题四、在问题二中,已知9445个位点,其编码信息见文件。在实际的研究
中,科研人员往往 把相关的性状或疾病看成一个整体,然后来探寻与它们相关的位点或基因。
试根据multi_文件给出 的1000个样本的10个相关联性状的信息及其9445个位点
的编码信息(见),找出与multi _中10个性状有关联的位点。

对你得到的结果都应该进行适当的统计分析和检验,从而从 理论上说明你所发现的致病位点
和基因的合理性。

关键词:遗传统计学,全基因组关联性分析(GWAS),位点(SNPs)


2016年研究生数学建模竞赛B题
具有遗传性疾病和性状的遗传位点分析
人体的每条染色体携带一个DNA分子,人的遗传密码由人体中的DNA携带。DNA是
由分别 带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。在这条双螺旋的长
链中,共有约 30亿个碱基对,而基因则是DNA长链中有遗传效应的一些片段。在组成DNA
的数量浩瀚的碱基对( 或对应的脱氧核苷酸)中,有一些特定位置的单个核苷酸经常发生变
异引起DNA的多态性,我们称之为 位点。染色体、基因和位点的结构关系见图1.
在DNA长链中,位点个数约为碱基对个数的1100 0。由于位点在DNA长链中出现频
繁,多态性丰富,近年来成为人们研究DNA遗传信息的重要载体, 被称为人类研究遗传学
的第三类遗传标记。
大量研究表明,人体的许多表型性状差异以及对药 物和疾病的易感性等都可能与某些
位点相关联,或和包含有多个位点的基因相关联。因此,定位与性状或 疾病相关联的位点在
染色体或基因中的位置,能帮助研究人员了解性状和一些疾病的遗传机理,也能使人 们对致
病位点加以干预,防止一些遗传病的发生。
近年来,研究人员大都采用全基因组的方法 来确定致病位点或致病基因,具体做法是:
招募大量志愿者(样本),包括具有某种遗传病的人和健康的 人,通常用1表示病人,0表
示健康者。对每个样本,采用碱基(A,T,C,G)的编码方式来获取每 个位点的信息(因为染色体
具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);如表1中, 在位点rs100015
位置,不同样本的编码都是T和C的组合,有三种不同编码方式TT,TC和C C。类似地其他
的位点虽然碱基的组合不同,但也只有三种不同编码。研究人员可以通过对样本的健康状 况
和位点编码的对比分析来确定致病位点,从而发现遗传病或性状的遗传机理。

表1. 在对每个样本采集完全基因组信息后,一般有以下的数据信息
(以6个样本为例,其中3个病人,3个健康者):
样本编号
1
2
3
4
5
6

样本健康状况
1
0
1
1
0
0
染色体片段位点名称和位点等位基因信息
rs100015
TT
TT
TC
TC
CC
TT
rs56341
CA
CC
CC
CA
CC
CC
...
...
...
...
...
...
...
rs21132
GT
GG
GG
GG
GG
GG
注:位点名称通常以
rs
开头。


基因

位点

染色体


图1. 染色体、基因和位点的结构关系.

本题目针对某种遗传疾病(简称疾病 A)提供1000个样本的信息,这些信息包括这1000个样
本的疾病信息、样本的9445个位点编 码信息,以及包含这些位点的基因信息。这些信息包
含在附录中的2个文件( , )和1个文件夹gene_info(包含300个文件)
中。

文件中包含了样本 具有遗传疾病A的信息,即一列0和1组成的数据,其中共
有500个0,500个1,表示我们现在共 有1000个样本,其中500个0就是500个没患有疾
病A的人,500个1就是有500个患有遗 传病A的人。如同表一中的第二列。

文件中包含了上述1000个样本在某条染色体片段上 所有的位点信息。该文件总
共有1001行,9445列。如同上表1中第三列到第六列的编码信息。具 体来说,第一行表示
9445个位点的名称,都是以字母rs开头的;接下来,有1000行,每一行表 示一个样本在该
条染色体片段上所有位点(9445个位点)的编码信息。例如,该文件中第2行,就表 示1号样
本在该条染色体片段上9445个位点的编码信息。

文件夹gene_i nfo中包含了300个dat文件,表示300个基因的信息;每个dat文件中包含了
若干个位点的 名称,表示该基因包含的位点信息,事实上,可以把基因理解为若干个位点组
成的集合。注意到在文件中 已包含所有位点的编码信息,所以我们可以得到每
一个基因所包含位点的编码信息。例如gene_,表 示基因gene_1包含了rs3094315,
rs3131972,..., rs4040617,共7个位点。

另外,人体的许多遗传疾病和性状是有关联的,如高血 压,心脏病、脂肪肝和酒精依赖等。
科研人员往往把相关的性状或疾病放在一起研究,这样能提高发现致 病位点或基因的能力;
附录中的multi_文件中提供了上述1000个样本的10种相关性状的信 息。文件中
的每一列表示一个性状,每一行对应一个样本。文件中的0和1信息同文件。
< br>所有这些文件都可以利用Notepad++软件打开。装好notepad++后,当需要打开某个数据 文
件时,先点击该文件,然后点击右键,屏幕出现菜单,其中一栏是“edit with notep ad++”,点
击这一栏即可。许多软件也可以将文件中的数据直接读入内存。(如matlab可用i mportdata
函数读入)



本题包含以下问题:
问 题一、请用适当的方法,把中每个位点的碱基(A,T,C,G)编码方式转化成数值
编码方式,便于进 行数据分析。

问题二、根据附录中1000个样本在某条有可能致病的染色体片段上的9 445个位点的编码信
息(见)和样本患有遗传疾病A的信息(见文件)。设计或采用一个
方法 ,找出某种疾病最有可能的一个或几个致病位点,并给出相关的理论依据。

问题三、同上题 中的样本患有遗传疾病A的信息(文件)。现有300个基因,
每个基因所包含的位点名称见文件夹ge ne_info中的300个dat文件,每个dat文件列出了对
应基因所包含的位点(位点信息见文 件)。由于可以把基因理解为若干个位点组
成的集合,遗传疾病与基因的关联性可以由基因中包含的位点 的全集或其子集合表现出来请
找出与疾病最有可能相关的一个或几个基因,并说明理由。
< br>问题四、在问题二中,已知9445个位点,其编码信息见文件。在实际的研究
中,科研人员往往 把相关的性状或疾病看成一个整体,然后来探寻与它们相关的位点或基因。
试根据multi_文件给出 的1000个样本的10个相关联性状的信息及其9445个位点
的编码信息(见),找出与multi _中10个性状有关联的位点。

对你得到的结果都应该进行适当的统计分析和检验,从而从 理论上说明你所发现的致病位点
和基因的合理性。

关键词:遗传统计学,全基因组关联性分析(GWAS),位点(SNPs)

英国野鸡大学-彩色的梦教案


浙江自主招生网-一年级下学期班主任工作计划


休谟人性论-高考报名网址


致200米运动员-女工工作计划


提升网速的方法-项链读后感


立夏的谚语-医院科主任述职报告


老舍散文-编头发的步骤及图片


个性签名失恋-广东省教育厅科研处