2016年研究生数模竞赛B题_「金点文库网」分享知识创造价值

石家庄第二实验中学-甘肃省招生办

2016年研究生数学建模竞赛B题
具有遗传性疾病和性状的遗传位点分析
人体的每条染色体携带一个DNA分子，人的遗传密码由人体中的DNA携带。DNA是
由分别带有A, T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。在这条双螺旋的长
链中，共有约30亿个碱基对，而基因则是DNA长链中有遗传效应的一些片段。在组成DNA
的数量浩瀚的碱基对（或对应的脱氧核苷酸）中，有一些特定位置的单个核苷酸经常发生变
异引起DNA的多态性，我们称之为位点。染色体、基因和位点的结构关系见图1.
在DNA长链中，位点个数约为碱基对个数的11000。由于位点在DNA长链中出现频
繁，多态性丰富，近年来成为人们研究DNA遗传信息的重要载体，被称为人类研究遗传学
的第三类遗传标记。
大量研究表明，人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些
位点相关联，或和包含有多个位点的基因相关联。因此，定位与性状或疾病相关联的位点在
染色体或基因中的位置，能帮助研究人员了解性状和一些疾病的遗传机理，也能使人们对致< br>病位点加以干预，防止一些遗传病的发生。
近年来，研究人员大都采用全基因组的方法来确定致病位点或致病基因，具体做法是：
招募大量志愿者（样本），包括具有某种遗传病的人和健康的人，通常用1表示病人，0表
示健康者。对每个样本，采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体
具有双螺旋结构，所以用两个碱基的组合表示一个位点的信息）；如表1中，在位点r s100015
位置，不同样本的编码都是T和C的组合，有三种不同编码方式TT,TC和CC。类似地其他
的位点虽然碱基的组合不同，但也只有三种不同编码。研究人员可以通过对样本的健康状况
和位点编码的对比分析来确定致病位点，从而发现遗传病或性状的遗传机理。

表1. 在对每个样本采集完全基因组信息后，一般有以下的数据信息
(以6个样本为例，其中3个病人，3个健康者)：
样本编号
1
2
3
4
5
6

样本健康状况
1
0
1
1
0
0
染色体片段位点名称和位点等位基因信息
rs100015
TT
TT
TC
TC
CC
TT
rs56341
CA
CC
CC
CA
CC
CC
...
...
...
...
...
...
...
rs21132
GT
GG
GG
GG
GG
GG
注：位点名称通常以
rs
开头。

基因

位点

染色体

图1. 染色体、基因和位点的结构关系.

本题目针对某种遗传疾病(简称疾病 A)提供1000个样本的信息，这些信息包括这1000个样
本的疾病信息、样本的9445个位点编码信息，以及包含这些位点的基因信息。这些信息包
含在附录中的2个文件( , )和1个文件夹gene_info(包含300个文件)
中。

文件中包含了样本具有遗传疾病A的信息，即一列0和1组成的数据，其中共
有500个0，500个1，表示我们现在共有1000个样本，其中500个0就是500个没患有疾
病A的人，500个1就是有500个患有遗传病A的人。如同表一中的第二列。

文件中包含了上述1000个样本在某条染色体片段上所有的位点信息。该文件总
共有1001行，9445列。如同上表1中第三列到第六列的编码信息。具体来说，第一行表示
9445个位点的名称，都是以字母rs开头的；接下来，有1000行，每一行表示一个样本在该
条染色体片段上所有位点(9445个位点)的编码信息。例如，该文件中第2行，就表示1号样
本在该条染色体片段上9445个位点的编码信息。

文件夹gene_i nfo中包含了300个dat文件，表示300个基因的信息；每个dat文件中包含了
若干个位点的名称，表示该基因包含的位点信息，事实上，可以把基因理解为若干个位点组
成的集合。注意到在文件中已包含所有位点的编码信息，所以我们可以得到每
一个基因所包含位点的编码信息。例如gene_，表示基因gene_1包含了rs3094315,
rs3131972,..., rs4040617，共7个位点。

另外，人体的许多遗传疾病和性状是有关联的，如高血压，心脏病、脂肪肝和酒精依赖等。
科研人员往往把相关的性状或疾病放在一起研究，这样能提高发现致病位点或基因的能力；
附录中的multi_文件中提供了上述1000个样本的10种相关性状的信息。文件中
的每一列表示一个性状，每一行对应一个样本。文件中的0和1信息同文件。
< br>所有这些文件都可以利用Notepad++软件打开。装好notepad++后，当需要打开某个数据文
件时，先点击该文件，然后点击右键，屏幕出现菜单，其中一栏是“edit with notep ad++”,点
击这一栏即可。许多软件也可以将文件中的数据直接读入内存。（如matlab可用i mportdata
函数读入）

本题包含以下问题：
问题一、请用适当的方法，把中每个位点的碱基(A,T,C,G)编码方式转化成数值
编码方式，便于进行数据分析。

问题二、根据附录中1000个样本在某条有可能致病的染色体片段上的9 445个位点的编码信
息(见)和样本患有遗传疾病A的信息（见文件）。设计或采用一个
方法，找出某种疾病最有可能的一个或几个致病位点，并给出相关的理论依据。

问题三、同上题中的样本患有遗传疾病A的信息（文件）。现有300个基因，
每个基因所包含的位点名称见文件夹ge ne_info中的300个dat文件，每个dat文件列出了对
应基因所包含的位点(位点信息见文件)。由于可以把基因理解为若干个位点组
成的集合，遗传疾病与基因的关联性可以由基因中包含的位点的全集或其子集合表现出来请
找出与疾病最有可能相关的一个或几个基因，并说明理由。
< br>问题四、在问题二中，已知9445个位点，其编码信息见文件。在实际的研究
中，科研人员往往把相关的性状或疾病看成一个整体，然后来探寻与它们相关的位点或基因。
试根据multi_文件给出的1000个样本的10个相关联性状的信息及其9445个位点
的编码信息(见)，找出与multi _中10个性状有关联的位点。

对你得到的结果都应该进行适当的统计分析和检验，从而从理论上说明你所发现的致病位点
和基因的合理性。

关键词：遗传统计学，全基因组关联性分析(GWAS)，位点(SNPs)

2016年研究生数学建模竞赛B题
具有遗传性疾病和性状的遗传位点分析
人体的每条染色体携带一个DNA分子，人的遗传密码由人体中的DNA携带。DNA是
由分别带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子。在这条双螺旋的长
链中，共有约 30亿个碱基对，而基因则是DNA长链中有遗传效应的一些片段。在组成DNA
的数量浩瀚的碱基对（或对应的脱氧核苷酸）中，有一些特定位置的单个核苷酸经常发生变
异引起DNA的多态性，我们称之为位点。染色体、基因和位点的结构关系见图1.
在DNA长链中，位点个数约为碱基对个数的1100 0。由于位点在DNA长链中出现频
繁，多态性丰富，近年来成为人们研究DNA遗传信息的重要载体，被称为人类研究遗传学
的第三类遗传标记。
大量研究表明，人体的许多表型性状差异以及对药物和疾病的易感性等都可能与某些
位点相关联，或和包含有多个位点的基因相关联。因此，定位与性状或疾病相关联的位点在
染色体或基因中的位置，能帮助研究人员了解性状和一些疾病的遗传机理，也能使人们对致
病位点加以干预，防止一些遗传病的发生。
近年来，研究人员大都采用全基因组的方法来确定致病位点或致病基因，具体做法是：
招募大量志愿者（样本），包括具有某种遗传病的人和健康的人，通常用1表示病人，0表
示健康者。对每个样本，采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色体
具有双螺旋结构，所以用两个碱基的组合表示一个位点的信息）；如表1中，在位点rs100015
位置，不同样本的编码都是T和C的组合，有三种不同编码方式TT,TC和C C。类似地其他
的位点虽然碱基的组合不同，但也只有三种不同编码。研究人员可以通过对样本的健康状况
和位点编码的对比分析来确定致病位点，从而发现遗传病或性状的遗传机理。

表1. 在对每个样本采集完全基因组信息后，一般有以下的数据信息
(以6个样本为例，其中3个病人，3个健康者)：
样本编号
1
2
3
4
5
6

样本健康状况
1
0
1
1
0
0
染色体片段位点名称和位点等位基因信息
rs100015
TT
TT
TC
TC
CC
TT
rs56341
CA
CC
CC
CA
CC
CC
...
...
...
...
...
...
...
rs21132
GT
GG
GG
GG
GG
GG
注：位点名称通常以
rs
开头。