数学与互联网蛮夷_「金点文库网」分享知识创造价值

英语音标快速记忆法-尚恩是谁的孩子

数学与互联网

XX学院 XXXX（专业）
XXX 123456789(学号)

互联网的发展与数学息息相关，计算机与各种算法的研究是分不
开的，可以说没有数学互联网就没有今天的发展。根据Minniwatts
Market ing统计资料，到2007年3月，全球互联网用户总数已经超
过11亿。现在，互联网已成为人们个人和工作生活的重要部分。互
联网技术的普遍应用，是进入信息社会的标志。
一现代语言处理
数学是解决信息检索和自然语言处理的最好工具。它能非常清晰
地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用
数学工具解决一个语言问题时，总会感叹数学之美。
长期以来，人类一直梦想着能让机器代替人来翻译语言、识别语
音、认识文字和进行海量文献的自动检索，这就需要让机器理解语言。
但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这
个问题，人们容易想到的办法就是让机器模拟人类进行学习，学习人
类的语法、分析语句等等。遗憾的是，几十年过去了，在计算机处理
语言领域，基于语法规则的方法几乎毫无突破。
首先成功利用数学方法解决自然语言处理问题的是语音和语言
处理大师贾里尼克。当时贾里尼克在 IBM 公司做学术休假，领导了

一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模
型就是在那个时候提出的。真正实现一个好的统计语言模型还有许多
细节问题需要解决。贾里尼克和他的同事的贡献在于提出了统计语言
模型，而且很漂亮地解决了所有的细节问题
而在语音识别问题上，贾里尼克以前，科学家们把这个问题当作
人工智能问题和模式匹配问题。而贾里尼克把它当成通信问题，并用
两个隐含马尔可夫模型把语音识别概括得清清楚楚。这个框架结构对
至今的语音和语言处理有着深远的影响，它从根本上使得语音识别有
实用的可能。贾里尼克本人后来也因此当选美国工程院院士
二信息和度量
信息是个很抽象的概念。我们常常说信息很多，或者信息较少，
但却很难说清楚信息到底有多少。直到 1948 年，香农提出了“信息
熵”的概念，才解决了对信息的量化度量问题。
一条信息的信息量大小和它的不确定性有直接的关系。比如说，
我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，
就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了
解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我
们可以认为，信息量的度量就等于不确定性的多少。对于任意一个随
机变量 X，它的熵定义如下：

变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就
越大。有了“熵”这个概念，便能度量信息。
语言模型是为了用上下文预测当前的文字，模型越好，预测得越准，
那么当前文字的不确定性就越小。信息熵正是对不确定性的衡量，因
此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵
出发，定义了一个称为语言模型复杂度的概念，直接衡量语言模型的
好坏。一个模型的复杂度越小，模型越好。
三布尔代数和搜索引擎的索引
建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的
网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。
今天在网上所看到的每个引擎都宣称自己多么睿智、多么智能化，其
实从根本上都没有跳出布尔代数的框框。
世界上不可能有比二进制更简单的计数方法了，也不可能有比布
尔运算更简单的运算了。运算的元素只有两个1 （TRUE，真) 和 0
（FALSE，假)。基本的运算只有“与”（AND)、“或” (OR) 和“非”
（NOT) 三种全部运算。
对于一个用户输入的关键词，搜索引擎要判断每篇文献是否含有
这个关键词，如果一篇文献含有它，我们相应地给这篇文献一个逻辑
值 -- 真（TRUE,或 1），否则，给一个逻辑值 -- 假（FALSE, 或0）。
一篇文献对于每一个条件，都有一个 True 或者 False 的答案，根
据真值表就能算出每篇文献是否是要找的。
对于互联网的搜索引擎来讲，每一个网页就是一个文献。互联网

的网页数量是巨大的，网络中所用的词也非常非常多。因此这个索引
是巨大的，在万亿字节这个量级。为了保证对任何搜索都能提供相关
的网页，所有的搜索引擎都是对所有的词进行索引。为了网页排名方
便，索引中还需存有大量附加信息，诸如每个词出现的位置、次数等
等。因此，整个索引就变得非常之大，以至于不可能用一台计算机存
下。大家普遍的做法就是根据网页的序号将索引分成很多份，分别存
储在不同的服务器中。每当接受一个查询时，这个查询就被分送到许
许多多服务器中，这些服务器同时并行处理用户请求，并把结果送到
主服务器进行合并处理，最后将结果返回给用户。
四图论和网络爬虫
互联网中自动下载互联网所有的网页，需要用到图论中的遍历算
法。关于图的算法有很多，但最重要的是图的遍历算法，也就是如何
通过弧访问图的各个节点。图的遍历算法有两种，一是先要尽可能广
地访问每个节点所直接连接的其他节点，这种图的遍历算法称为“广
度优先算法”。另外一种种方法叫“深度优先算法”（DFS)，因为它
是一条路走到黑。这两种方法都可以保证访问到全部的目的地。当然，
不论采用哪种方法，都应该用一个小本本，记录已经访问过的地点，
以防同一个地点访问多次或者漏掉哪个地点。
互联网其实就是一张大图，可以把每一个网页当作一个节点，运
用超链接，便可以任何一个网页出发，用图的遍历算法，自动地访问
到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫，
或者在一些文献中称为“机器人”。世界上第一个网络爬虫是由麻省

理工学院的学生马休. 格雷在 1993 年写成的。他给他的程序起了个
名字叫“互联网漫游者”。以后的网络爬虫越写越复杂，但原理是一
样的。
现在的互联网非常巨大，不可能通过一台或几台计算机服务器就
能完成下载任务因此，一个商业的网络爬虫需要有成千上万个服务
器，并且由快速网络连接起来。如何建立这样复杂的网络系统，如何
协调这些服务器的任务，就是网络设计和程序设计的艺术了。
五如何确定网页和查询的相关性
如果要查找关于“原子能的应用”的网页。第一步是在索引中找
到包含这三个词的网页。现在任何一个搜索引擎都包含几十万甚至是
上百万个多少有点关系的网页。那么哪个应该排在前面呢？显然应该
根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因
此，这里的关键问题是如何度量网页和查询的相关性。
短语“原子能的应用”可以分成三个关键词：原子能、的、应用，包
含这三个词多的网页应该比包含它们少的网页相关。当然，这个办法
有一个明显的漏洞，就是长的网页比短的网页占便宜，因为长的网页
总的来讲包含的关键词要多些。因此我们需要根据网页的长度，对关
键词的次数进行归一化，也就是用关键词的次数除以网页的总字数。
这个商被称为“关键词的频率”，或者“单文本词汇频率” 。比如，
在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出
现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035
和 0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询

“原子能的应用”相关性的一个简单的度量。概括地讲，如果一个查
询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是:
TF1, TF2, ..., TFN。。那么，这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
但存在着一个漏洞，词“的”站了总词频的 80% 以上，而它对确定
网页的主题几乎没有用，这种词被称为“应删除词”，也就是说在度
量相关性是不应考虑它们的频率。在汉语中，应删除词还有 “是”、
“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，
上述网页的相似度就变成了0.007，其中“原子能”贡献了0.002，
“应用”贡献了 0.005。
但还是存在着问题，在汉语中，“应用”是个很通用的词，而“原子
能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需
要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件： 1. 一个词预测主题能力越强，权重就越大，反之，权重就
越小。在网页中看到“原子能”这个词，或多或少地能了解网页的主
题。看到“应用”一次，对主题基本上还是一无所知。因此，“ 原子
能“的权重就应该比应用大。2. 应删除词的权重应该是零。
如果一个关键词只在很少的网页中出现，通过它就容易锁定搜索
目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我
们看到它仍然不很清楚要找什么内容，因此它应该小。概括地讲，假
定一个关键词ｗ在Ｄｗ个网页中出现过，那么Ｄｗ越大，ｗ的
权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频

率指数” 缩写为ＩＤＦ，它的公式为ｌｏｇ（Ｄ／Ｄｗ）其中Ｄ是
全部网页数。利用 IDF，相关性计算个公式就由词频的简单求和变成
了加权求和，即 TF1*IDF1 + TF2*IDF2 ＋... + TFN*IDFN。现在的
搜索引擎对 TFIDF 进行了不少细微的优化，使得相关性的度量更加
准确了。
六余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们
确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。
Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相< br>似的新闻放到一类中。计算机其实读不懂新闻，它只能快速计算。这
就要求设计一个算法来算出任意两篇新闻的相似性。为了做到这一点
需要想办法用一组数字来描述一篇新闻。
对于一篇新闻中的所有实词，我们可以计算出它们的单文本词汇
频率逆文本频率值（TFIDF)。不难想象，和新闻主题有关的那些实
词频率高，TFIDF 值很大。我们按照这些实词在词汇表的位置对它
们的 TFIDF 值排序。比如词汇表有六万四千个词。如果单词表中的
某个次在新闻中没有出现，对应的值为零，那么这 64,000 个数，组
成一个64,000维的向量。我们就用这个向量来代表这篇新闻，并成
为新闻的特征向量。如果两篇新闻的特征向量相近，则对应的新闻内
容相似，它们应当归在一类，反之亦然。
向量实际上是多维空间中有方向的线段。如果两个向量的方向一
致，即夹角接近零，那么这两个向量就相近。而要确定两个向量方向

是否一致，这就要用到余弦定理计算向量的夹角了。当两条新闻向量
夹角的余弦等于一时，这两条新闻完全重复（用这个办法可以删除重
复的网页）；当夹角的余弦接近于一时，两条新闻相似，从而可以归
成一类；夹角的余弦越小，两条新闻越不相关。
七总结
互联网能发展至今天，数学可谓是功不可没。对任何问题总是能
到找相应的准确的数学模型。数学把繁杂的问题简单化而
数学的美
妙之处了，它把一些复杂的问题变得如此的简单。当然，归根结
底，不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人
服务的。
一个正确的数学模型应当在形式上是简单的。一个正确的模型在
它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确，但
是，如果认定大方向是对的，就应该坚持下去。

dnf炼金术士-levis牛仔裤

随心呼-最美女警花

致我们终将逝去的青春电影结局-昨天下了一夜雨

暴走大事件主题曲-工商银行的理财产品

调音师微电影-李克克

造成的近义词-火车票预订时间

水瓶座的爱情-氧化氢

早安少女组钱琳-华罗庚杯