数学与互联网

余年寄山水
695次浏览
2020年12月12日 15:41
最佳经验
本文由作者推荐

英语音标快速记忆法-尚恩是谁的孩子

2020年12月12日发(作者:陶虹)


数学与互联网

XX学院 XXXX(专业)
XXX 123456789(学号)

互联网的发展与数学息息相关,计算机与各种算法的研究是分 不
开的,可以说没有数学互联网就没有今天的发展。根据Minniwatts
Market ing统计资料,到2007年3月,全球互联网用户总数已经超
过11亿。现在,互联网已成为人们个 人和工作生活的重要部分。互
联网技术的普遍应用,是进入信息社会的标志。
一 现代语言处理
数学是解决信息检索和自然语言处理的最好工具。它能非常清晰
地描述这些领域 的实际问题并且给出漂亮的解决办法。每当人们应用
数学工具解决一个语言问题时,总会感叹数学之美。
长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语
音、认识文字和进行海量文献的 自动检索,这就需要让机器理解语言。
但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决 这
个问题,人们容易想到的办法就是让机器模拟人类进行学习,学习人
类的语法、分析语句等等 。遗憾的是,几十年过去了,在计算机处理
语言领域,基于语法规则的方法几乎毫无突破。
首 先成功利用数学方法解决自然语言处理问题的是语音和语言
处理大师贾里尼克。当时贾里尼克在 IBM 公司做学术休假 ,领导了


一批杰出的科学家利用大型计算机来处理人类语言问题。统计 语言模
型就是在那个时候提出的。真正实现一个好的统计语言模型还有许多
细节问题需要解决。 贾里尼克和他的同事的贡献在于提出了统计语言
模型,而且很漂亮地解决了所有的细节问题
而 在语音识别问题上,贾里尼克以前,科学家们把这个问题当作
人工智能问题和模式匹配问题。而贾里尼克 把它当成通信问题,并用
两个隐含马尔可夫模型把语音识别概括得清清楚楚。这个框架结构对
至 今的语音和语言处理有着深远的影响,它从根本上使得语音识别有
实用的可能。贾里尼克本人后来也因此 当选美国工程院院士
二 信息和度量
信息是个很抽象的概念。我们常常说信息很多,或者信 息较少,
但却很难说清楚信息到底有多少。直到 1948 年,香农提出了“信息
熵”的概念,才解决了对信息的量化度量问题。
一条信息的信息量大小 和它的不确定性有直接的关系。比如说,
我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事 情,
就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了
解,我们不需要太多的 信息就能把它搞清楚。所以,从这个角度,我
们可以认为,信息量的度量就等于不确定性的多少。对于任 意一个随
机变量 X,它的熵定义如下:



变 量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就
越大。有了“熵”这个概念,便能度量 信息。
语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,
那么当前文字的不 确定性就越小。信息熵正是对不确定性的衡量,因
此信息熵可以直接用于衡量统计语言模型的好坏。贾里 尼克从信息熵
出发,定义了一个称为语言模型复杂度的概念,直接衡量语言模型的
好坏。一个模 型的复杂度越小,模型越好。
三 布尔代数和搜索引擎的索引
建立一个搜索引擎大致需要做 这样几件事:自动下载尽可能多的
网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。
今天在网上所看到的每个引擎都宣称自己多么睿智、多么智能化,其
实从根本上都没有跳出布尔 代数的框框。
世界上不可能有比二进制更简单的计数方法了,也不可能有比布
尔运算更简单的 运算了。运算的元素只有两个1 (TRUE, 真) 和 0
(FALSE,假)。基本的运算只有“与”(AND)、“或” (OR) 和“非”
(NOT) 三种全部运算。
对于一个用户输入的关键词,搜索引擎要判断每篇文献 是否含有
这个关键词,如果一篇文献含有它,我们相应地给这篇文献一个逻辑
值 -- 真(TRUE,或 1),否则,给一个逻辑值 -- 假(FALSE, 或0)。
一篇文献对于每一个条件,都有一个 True 或者 False 的答案,根
据真值表就能算出每篇文献是否是要找的。
对于互联网的搜索引擎来讲,每一个网 页就是一个文献。互联网


的网页数量是巨大的,网络中所用的词也非常非常多。因此这个 索引
是巨大的,在万亿字节这个量级。为了保证对任何搜索都能提供相关
的网页,所有的搜索引 擎都是对所有的词进行索引。为了网页排名方
便,索引中还需存有大量附加信息,诸如每个词出现的位置 、次数等
等。因此,整个索引就变得非常之大,以至于不可能用一台计算机存
下。大家普遍的做 法就是根据网页的序号将索引分成很多份,分别存
储在不同的服务器中。每当接受一个查询时,这个查询 就被分送到许
许多多服务器中,这些服务器同时并行处理用户请求,并把结果送到
主服务器进行 合并处理,最后将结果返回给用户。
四 图论和网络爬虫
互联网中自动下载互联网所有的网 页,需要用到图论中的遍历算
法。关于图的算法有很多,但最重要的是图的遍历算法,也就是如何
通过弧访问图的各个节点。图的遍历算法有两种,一是先要尽可能广
地访问每个节点所直接连接的其他 节点,这种图的遍历算法称为“广
度优先算法”。另外一种种方法叫“深度优先算法”(DFS),因为 它
是一条路走到黑。这两种方法都可以保证访问到全部的目的地。当然,
不论采用哪种方法,都 应该用一个小本本,记录已经访问过的地点,
以防同一个地点访问多次或者漏掉哪个地点。
互 联网其实就是一张大图,可以把每一个网页当作一个节点,运
用超链接,便可以任何一个网页出发,用图 的遍历算法,自动地访问
到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,
或 者在一些文献中称为“机器人”。世界上第一个网络爬虫是由麻省


理工学院的学生马休. 格雷在 1993 年写成的。他给他的程序起了个
名字叫“互联网漫游者”。以后的网络爬虫越写越复 杂,但原理是一
样的。
现在的互联网非常巨大,不可能通过一台或几台计算机服务器就
能完成下载任务因此,一个商业的网络爬虫需要有成千上万个服务
器,并且由快速网络连接起来。如何 建立这样复杂的网络系统,如何
协调这些服务器的任务,就是网络设计和程序设计的艺术了。
五 如何确定网页和查询的相关性
如果要查找关于“原子能的应用”的网页。第一步是在索引 中找
到包含这三个词的网页。现在任何一个搜索引擎都包含几十万甚至是
上百万个多少有点关系 的网页。那么哪个应该排在前面呢?显然应该
根据网页和查询“原子能的应用”的相关性对这些网页进行 排序。因
此,这里的关键问题是如何度量网页和查询的相关性。
短语“原子能的应用”可以分 成三个关键词:原子能、的、应用,包
含这三个词多的网页应该比包含它们少的网页相关。当然,这个办 法
有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页
总的来讲包含的关键词要 多些。因此我们需要根据网页的长度,对关
键词的次数进行归一化,也就是用关键词的次数除以网页的总 字数。
这个商被称为“关键词的频率”,或者“单文本词汇频率” 。比如,
在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出
现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035
和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询


“原子能的应用”相关性 的一个简单的度量。概括地讲,如果一个查
询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是:
TF1, TF2, ..., TFN。。 那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
但存在着一个漏洞,词“的”站了总词频的 80% 以上,而它对确定
网页的主题几乎没有用 ,这种词被称为“应删除词”,也就是说在度
量相关性是不应考虑它们的频率。在汉语中,应删除词还有 “是”、
“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,
上述网页的相似 度就变成了0.007,其中“原子能”贡献了0.002,
“应用”贡献了 0.005。
但还是存在着问题,在汉语中,“应用”是个很通用的词,而“原子
能”是个很专业的词,后者在相关性 排名中比前者重要。因此我们需
要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件: 1. 一个词预测主题能力越强,权重就越大,反之,权重就
越小。在网页中看到“原子 能”这个词,或多或少地能了解网页的主
题。看到“应用”一次,对主题基本上还是一无所知。因此,“ 原子
能“的权重就应该比应用大。2. 应删除词的权重应该是零。
如果一个关键词只在很少 的网页中出现,通过它就容易锁定搜索
目标,它的权重也就应该大。反之如果一个词在大量网页中出现, 我
们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假
定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的
权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频


率指数” 缩写为IDF,它的公式为log(D/Dw)其中D是
全部网页数。利用 IDF,相关性计算个公式就由词频的简单求和变成
了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。现在的
搜索引擎对 TFIDF 进行了不少细微的优化,使得相关性的度量更加
准确了。
六 余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们
确有紧密的联系。具体说,新闻的分类 很大程度上依靠余弦定理。
Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相< br>似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这
就要求设计一个算法来算出任 意两篇新闻的相似性。为了做到这一点
需要想办法用一组数字来描述一篇新闻。
对于一篇新闻 中的所有实词,我们可以计算出它们的单文本词汇
频率逆文本频率值(TFIDF)。不难想象,和新闻 主题有关的那些实
词频率高,TFIDF 值很大。我们按照这些实词在词汇表的位置对它
们的 TFIDF 值排序。比如词汇表有六万四千个词。如果单词表中的
某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组
成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成
为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内
容相似,它们应当归在一类,反之 亦然。
向量实际上是多维空间中有方向的线段。如果两个向量的方向一
致,即夹角接近零,那 么这两个向量就相近。而要确定两个向量方向


是否一致,这就要用到余弦定理计算向量的 夹角了。当两条新闻向量
夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重
复 的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归
成一类;夹角的余弦越小,两条新闻越 不相关。
七 总结
互联网能发展至今天,数学可谓是功不可没。对任何问题总是能
到找相应的准确的数学模型。数学把繁杂的问题简单化而
数学的美
妙之处了,它把一些复杂的问 题变得如此的简单。当然,归根结
底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人
服务的。
一个正确的数学模型应当在形式上是简单的。一个正确的模型在
它开始的时候可能 还不如一个精雕细琢过的错误的模型来的准确,但
是,如果认定大方向是对的,就应该坚持下去。

dnf炼金术士-levis牛仔裤


随心呼-最美女警花


致我们终将逝去的青春电影结局-昨天下了一夜雨


暴走大事件主题曲-工商银行的理财产品


调音师微电影-李克克


造成的近义词-火车票预订时间


水瓶座的爱情-氧化氢


早安少女组钱琳-华罗庚杯