数学与互联网
英语音标快速记忆法-尚恩是谁的孩子
数学与互联网
XX学院 XXXX(专业)
XXX
123456789(学号)
互联网的发展与数学息息相关,计算机与各种算法的研究是分
不
开的,可以说没有数学互联网就没有今天的发展。根据Minniwatts
Market
ing统计资料,到2007年3月,全球互联网用户总数已经超
过11亿。现在,互联网已成为人们个
人和工作生活的重要部分。互
联网技术的普遍应用,是进入信息社会的标志。
一
现代语言处理
数学是解决信息检索和自然语言处理的最好工具。它能非常清晰
地描述这些领域
的实际问题并且给出漂亮的解决办法。每当人们应用
数学工具解决一个语言问题时,总会感叹数学之美。
长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语
音、认识文字和进行海量文献的
自动检索,这就需要让机器理解语言。
但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决
这
个问题,人们容易想到的办法就是让机器模拟人类进行学习,学习人
类的语法、分析语句等等
。遗憾的是,几十年过去了,在计算机处理
语言领域,基于语法规则的方法几乎毫无突破。
首
先成功利用数学方法解决自然语言处理问题的是语音和语言
处理大师贾里尼克。当时贾里尼克在 IBM
公司做学术休假 ,领导了
一批杰出的科学家利用大型计算机来处理人类语言问题。统计
语言模
型就是在那个时候提出的。真正实现一个好的统计语言模型还有许多
细节问题需要解决。
贾里尼克和他的同事的贡献在于提出了统计语言
模型,而且很漂亮地解决了所有的细节问题
而
在语音识别问题上,贾里尼克以前,科学家们把这个问题当作
人工智能问题和模式匹配问题。而贾里尼克
把它当成通信问题,并用
两个隐含马尔可夫模型把语音识别概括得清清楚楚。这个框架结构对
至
今的语音和语言处理有着深远的影响,它从根本上使得语音识别有
实用的可能。贾里尼克本人后来也因此
当选美国工程院院士
二 信息和度量
信息是个很抽象的概念。我们常常说信息很多,或者信
息较少,
但却很难说清楚信息到底有多少。直到 1948
年,香农提出了“信息
熵”的概念,才解决了对信息的量化度量问题。
一条信息的信息量大小
和它的不确定性有直接的关系。比如说,
我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事
情,
就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了
解,我们不需要太多的
信息就能把它搞清楚。所以,从这个角度,我
们可以认为,信息量的度量就等于不确定性的多少。对于任
意一个随
机变量 X,它的熵定义如下:
变
量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就
越大。有了“熵”这个概念,便能度量
信息。
语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,
那么当前文字的不
确定性就越小。信息熵正是对不确定性的衡量,因
此信息熵可以直接用于衡量统计语言模型的好坏。贾里
尼克从信息熵
出发,定义了一个称为语言模型复杂度的概念,直接衡量语言模型的
好坏。一个模
型的复杂度越小,模型越好。
三 布尔代数和搜索引擎的索引
建立一个搜索引擎大致需要做
这样几件事:自动下载尽可能多的
网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。
今天在网上所看到的每个引擎都宣称自己多么睿智、多么智能化,其
实从根本上都没有跳出布尔
代数的框框。
世界上不可能有比二进制更简单的计数方法了,也不可能有比布
尔运算更简单的
运算了。运算的元素只有两个1 (TRUE, 真) 和
0
(FALSE,假)。基本的运算只有“与”(AND)、“或” (OR)
和“非”
(NOT) 三种全部运算。
对于一个用户输入的关键词,搜索引擎要判断每篇文献
是否含有
这个关键词,如果一篇文献含有它,我们相应地给这篇文献一个逻辑
值 --
真(TRUE,或 1),否则,给一个逻辑值 -- 假(FALSE,
或0)。
一篇文献对于每一个条件,都有一个 True 或者 False
的答案,根
据真值表就能算出每篇文献是否是要找的。
对于互联网的搜索引擎来讲,每一个网
页就是一个文献。互联网
的网页数量是巨大的,网络中所用的词也非常非常多。因此这个
索引
是巨大的,在万亿字节这个量级。为了保证对任何搜索都能提供相关
的网页,所有的搜索引
擎都是对所有的词进行索引。为了网页排名方
便,索引中还需存有大量附加信息,诸如每个词出现的位置
、次数等
等。因此,整个索引就变得非常之大,以至于不可能用一台计算机存
下。大家普遍的做
法就是根据网页的序号将索引分成很多份,分别存
储在不同的服务器中。每当接受一个查询时,这个查询
就被分送到许
许多多服务器中,这些服务器同时并行处理用户请求,并把结果送到
主服务器进行
合并处理,最后将结果返回给用户。
四 图论和网络爬虫
互联网中自动下载互联网所有的网
页,需要用到图论中的遍历算
法。关于图的算法有很多,但最重要的是图的遍历算法,也就是如何
通过弧访问图的各个节点。图的遍历算法有两种,一是先要尽可能广
地访问每个节点所直接连接的其他
节点,这种图的遍历算法称为“广
度优先算法”。另外一种种方法叫“深度优先算法”(DFS),因为
它
是一条路走到黑。这两种方法都可以保证访问到全部的目的地。当然,
不论采用哪种方法,都
应该用一个小本本,记录已经访问过的地点,
以防同一个地点访问多次或者漏掉哪个地点。
互
联网其实就是一张大图,可以把每一个网页当作一个节点,运
用超链接,便可以任何一个网页出发,用图
的遍历算法,自动地访问
到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,
或
者在一些文献中称为“机器人”。世界上第一个网络爬虫是由麻省
理工学院的学生马休.
格雷在 1993 年写成的。他给他的程序起了个
名字叫“互联网漫游者”。以后的网络爬虫越写越复
杂,但原理是一
样的。
现在的互联网非常巨大,不可能通过一台或几台计算机服务器就
能完成下载任务因此,一个商业的网络爬虫需要有成千上万个服务
器,并且由快速网络连接起来。如何
建立这样复杂的网络系统,如何
协调这些服务器的任务,就是网络设计和程序设计的艺术了。
五 如何确定网页和查询的相关性
如果要查找关于“原子能的应用”的网页。第一步是在索引
中找
到包含这三个词的网页。现在任何一个搜索引擎都包含几十万甚至是
上百万个多少有点关系
的网页。那么哪个应该排在前面呢?显然应该
根据网页和查询“原子能的应用”的相关性对这些网页进行
排序。因
此,这里的关键问题是如何度量网页和查询的相关性。
短语“原子能的应用”可以分
成三个关键词:原子能、的、应用,包
含这三个词多的网页应该比包含它们少的网页相关。当然,这个办
法
有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页
总的来讲包含的关键词要
多些。因此我们需要根据网页的长度,对关
键词的次数进行归一化,也就是用关键词的次数除以网页的总
字数。
这个商被称为“关键词的频率”,或者“单文本词汇频率”
。比如,
在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出
现了 2
次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035
和 0.005。
我们将这三个数相加,其和 0.042 就是相应网页和查询
“原子能的应用”相关性
的一个简单的度量。概括地讲,如果一个查
询包含关键词 w1,w2,...,wN,
它们在一篇特定网页中的词频分别是:
TF1, TF2, ..., TFN。。
那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
但存在着一个漏洞,词“的”站了总词频的 80% 以上,而它对确定
网页的主题几乎没有用
,这种词被称为“应删除词”,也就是说在度
量相关性是不应考虑它们的频率。在汉语中,应删除词还有
“是”、
“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,
上述网页的相似
度就变成了0.007,其中“原子能”贡献了0.002,
“应用”贡献了 0.005。
但还是存在着问题,在汉语中,“应用”是个很通用的词,而“原子
能”是个很专业的词,后者在相关性
排名中比前者重要。因此我们需
要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件: 1. 一个词预测主题能力越强,权重就越大,反之,权重就
越小。在网页中看到“原子
能”这个词,或多或少地能了解网页的主
题。看到“应用”一次,对主题基本上还是一无所知。因此,“
原子
能“的权重就应该比应用大。2. 应删除词的权重应该是零。
如果一个关键词只在很少
的网页中出现,通过它就容易锁定搜索
目标,它的权重也就应该大。反之如果一个词在大量网页中出现,
我
们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假
定一个关键词 w 在
Dw 个网页中出现过,那么 Dw 越大,w
的
权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频
率指数”
缩写为IDF,它的公式为log(D/Dw)其中D是
全部网页数。利用
IDF,相关性计算个公式就由词频的简单求和变成
了加权求和,即 TF1*IDF1 +
TF2*IDF2 +... + TFN*IDFN。现在的
搜索引擎对 TFIDF
进行了不少细微的优化,使得相关性的度量更加
准确了。
六 余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们
确有紧密的联系。具体说,新闻的分类
很大程度上依靠余弦定理。
Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相<
br>似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这
就要求设计一个算法来算出任
意两篇新闻的相似性。为了做到这一点
需要想办法用一组数字来描述一篇新闻。
对于一篇新闻
中的所有实词,我们可以计算出它们的单文本词汇
频率逆文本频率值(TFIDF)。不难想象,和新闻
主题有关的那些实
词频率高,TFIDF 值很大。我们按照这些实词在词汇表的位置对它
们的
TFIDF
值排序。比如词汇表有六万四千个词。如果单词表中的
某个次在新闻中没有出现,对应的值为零,那么这
64,000 个数,组
成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成
为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内
容相似,它们应当归在一类,反之
亦然。
向量实际上是多维空间中有方向的线段。如果两个向量的方向一
致,即夹角接近零,那
么这两个向量就相近。而要确定两个向量方向
是否一致,这就要用到余弦定理计算向量的
夹角了。当两条新闻向量
夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重
复
的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归
成一类;夹角的余弦越小,两条新闻越
不相关。
七 总结
互联网能发展至今天,数学可谓是功不可没。对任何问题总是能
到找相应的准确的数学模型。数学把繁杂的问题简单化而
数学的美
妙之处了,它把一些复杂的问
题变得如此的简单。当然,归根结
底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人
服务的。
一个正确的数学模型应当在形式上是简单的。一个正确的模型在
它开始的时候可能
还不如一个精雕细琢过的错误的模型来的准确,但
是,如果认定大方向是对的,就应该坚持下去。