[音乐] 嗨!欢迎回来。
现在呢我们来 介绍这个语言以及语言的研究方向。
那么提到语言呢,我们首先会想到,我们通常所日常所说的这些 自然语言。
那么什么是语言呢?我们给它一个定义
就是语言呢是以呼吸器官发声,那么呼吸器官呢就包括嘴啊、
喉咙啊,还有这个胸膛啊这些
发声器官作为基础来传递信息的一种符号系统。
那么语言呢是人类最重要的交际工具和存在的方式之一。
那么语言我们可以把它称之为
我们大脑思维的一种符号化,因为我们说这个人的思想啊
那你要去表达出来,那么总是 会使用语言来进行表达的。
那么所谓的自然语言呢,就是它自然地随着
我们人类的文化来演化的这种语言就称之为 自然语言。
那么像我们接触到的很多的自然语言, 比如说像汉语、 英语、 法语、 俄语这些都是自然语言。
那么据统计呢,全世界有5000多种这个自然语言。
而且呢使用者在5000万人以上的语言呢就有13种。
那么在人类的这个联合机构,叫做联合国。
它的官方的语言,工作语言呢就有5种,就是:汉语、 英语、 俄语、
法 语和西班牙语,它们呢都是使用最为广泛的 语言之一。
那么除了自然 语言之外,还有一些语言呢是为了特定的目的和用途
由人为来创造的语言,也就是说它不是因为这个自然演化
出来的,自然语言它并没有一个特别的一个发明人,但是人工语言呢 都是由人工,人为创造出来,发明出来的。
那么人工语言呢也分为两类,第一类呢是所谓的国际辅助语言。
这个呢是用来代替这个自然语言的千变万化 的多样性,有一些人呢试图说统一一下
我们的这个语言的使用,那么将来的翻译就不需要那么的困难。
比如说世界语,那么 世界语呢是一种以这个拉丁字母
为,作为这个基础的,人为发明 出来的这个人工语言,它可以用于日常交际
人的一些交际和对话,也可以用来书写一些文章,或者说书写文艺作品 小说这些。
那么另外一种这个人工 语言,一大类,就是属于这个数学语言或者说 计算机的语言。
那么这些语言呢就包括了像数学体系里边的数学符号啊,
还有用于这个数学的定理证明的这些逻辑的语言。
那么这些统统都是一些人工构建的这个符号体系,那么这些都是人工语言。
那么在计算机方面呢,也有这个程序设计语言。
那么程序设计语言呢就是用来应用到 人和机器之间进行交流,人如何给机器下命令,
那么机器呢就能够理解,能够实施人类的这个意图。
那么不管是说国际辅助语言也好,这个数学语言,计算机语言也好。
那么这些人工语言呢它作为传递信息的这个符号体系的本质它是没有改变的。
那么国际辅助语言它显然也还是人和人之间的这个信息的传递。
那么对于数学语言来说,大部分呢也还是起着人和人 之间的这个传递,只不过说它更加的严密,更加的精确。
而计算机语言就是属于人和机器之间进行信息交流、
信息传递的这些 符号体系,作为它的工具
那么对于语言的研究呢,主要体现在音、 形、 意、 用这四个方面。
那么我们下面就来看看这四个方面都是些什么? 首先呢就是对于语音的研究。
语音呢人们是,因为研究这个人的这个各种语言的发音的体系,
而人的语言的发音呢,它包括了像音素、 音节和语调。
比如说元音和辅音,一般都会分成元音和辅音,然后呢元音辅音呢构成了音节。
然后呢音节在发音的时候,有可能有一些语言呢还有语调,在发音的时候还有语调,
那么这是因为呢,发音是语言里头最基础的部分。
而且呢有一些自然语言,它甚至就没有文字符号。
没有进化充分或者说没有这个发展的很充分的这些语言呢。
甚至它只有语音,只有口口相传的部分,并没有书写下来的部分。
那么这是因为呢人类呢拥有共同的这个发音器官,所以呢他发出来的音应该都是
相似的,但是呢随着这个自然的演化,因为 地理的条件不同,人文的环境发展的文化发展的也不同。
那么不同的语言呢,它发音呢可能会表现出很不相同。
那么甚至呢同一种语言,比如说汉语,它在不同的地方它的
方言,它的发音呢也大不相同,虽然它可能这个文字和符号的部分都是
一样的,但是呢它发音却非常的不一样。
而我们说呢,对于这个语音的研究也,人们也建立了一整套的这个符号体系。
那这个符号体系呢就是我们在学习英语当中最经常学的那个国际音标。
国际音标是一套这个符号体系,可以用来记录和 传递这个语音在发音方面的这些规定。
第二个研究呢,就是对于语形的研究。
所谓的形呢就是说一个语言它的表现, 它的这个符号的表现,它看起来是什么样子的,
它包括了这个书写的格式和一些规范。
那么从语形上来说它也分为对于字的 构造,构字,对于词的组词,词法。
那么词呢在组成句子的句法,以及句子呢再组成文章 的文章的格式。
那么这些呢都是语形研究的内容。
那么对于这个 语形来说,
可以把这个自然语言呢分为两大类,一类呢就是 拼音文字,一类是象形文字。
那么所谓的拼音文字呢它是以 发音作为基础来进行构字的,所以呢我们说它是一个一
维的一个表示音节的这个表示发音的字符串。
比如说我们非常熟悉的英语就是拼音文字。
下面的这些单词,实际上我们不需要知道它的意思,我们都可以读出来。
比如说bake,cake,fake,lake和make。
它们读都没有什么障碍,一般的来说,大部分呢 没有特殊的这个发音的转变的话,那么读出来都是正确的。
那么第二种呢,象形文字,它是以一种图 形作为基础来构字的,而且这个图形呢是在二维的
方向,在平面的方向上进行扩展。
一些 笔画,然后笔画呢再构造成一些二维的图形 组成的这个文字。
比如说我们汉语,就是一个非常典型的象形文字。
像这些6个字,那么看形状呢,它们都可以表现出一些图形,甚至呢
会很像它在真实,现实世界当中它所代表的那个物体啊。
当然你要是要把它读出来那就不太容易了,你只能看它像。
比如这个木,林,森,火,炎,焱,那么
经过构字以后,那么字呢会组成一些词 那么这些词,哪些词是对的?哪些词不对?
那么这些词法呢就,它会通常会有一些词典来规定。
那么一般人认为呢,就是在正式的交际的场合里边,
你如果用了不在词典当中的这些词,那可能不能够得到充分的理解,那就是非法的。
那么比如说我们随便挑出两个汉字来,把它放在一起 一个森,一个炎,那它是构不成一个有意义的词
的,因为没有人知道,除非你用它来做人的姓名
啊只是一个代号而已,是吧?那么所以呢我们说,字通过字典来规定,词呢通过词典来规定。
那么它们所组成的这个符号体系,实际上它们无论在符号上或者意义上, 都是可以穷尽的,它都是有数的
那么再进一步,由词来构成句子呢 那么它就会有无穷多种。
那么涉及到语句的 符号和意义都是不可穷尽的,否则呢,古往今来就不会有那么多
这个脍炙人口的这个文作品,也不会说到了某一天
我们所有的文学作品都已经穷尽了,写完了,像编一本厚厚的词典一样。
以后再也不会新的小数出现,这是不可能的。
那么所以呢,因为它是无穷尽的,所以这些 关于语句的这些符号,只能够由一些规则来描述它的结构。
然后每个部分呢,说你词的 前面部分,中间部分,后面部分,它都由哪些词类来构成它。
那么我们很熟悉的像汉语语法里边,所谓的主、 谓、 宾、 定、 状、 补。
那么它在每一个比如说主语那里必须是名词或者说介词,或者
不对,名词或者说代词,是吧?
比如说这个句子小李正在树下读书,那它就是一个合乎
而句话或者叫合乎语法的这个句子,所以它是一个正确的句子。
但是呢并不是说所有这个符合语法的这个句子它都有意义。
我们也知道这个语法对于它这个语句的意义是无能为力的。
比如说我们看这个句子。
他说书一下午读了3本小李。
那么这个呢如果交给这个词法、 语法专家去 去分析。
它这个语法是不会错的,是吧?主、 谓、 宾、 定、 状、 补都有。
啊,它没有它不是一个错误的病句啊。
但是呢我们很容易看出来它并不代表有什么含义?
啊,甚至于有一些喜剧的色彩在这里头,比较有无厘头的这种嫌疑。
那么实际上呢人们在闲暇的时候,做游戏的时候,也会利用
这样的一些无意义的语句随意的这个搭配。
看起来是语法正确的句子,但是却有一些荒诞的笑话。
比如说有一些有趣的拼词游戏,拼句的游戏。
而我们会随机的写一些主语。
有一些名词,有一些 动词,好让有一些对象,要把他们放在这个
纸箱子里头随便抽出3个来,然后组成一个句子。
那么 对,会有一些荒诞、 而且欢乐的效果。
第三个研究是对于语义的研究。
这个语义就是说代表这个语句它的这个含义是什么。
那么所谓的含义呢,那就是说要从我们试图从这个 符号系统。
因为一旦人的思维变成语言了以后, 它有了发音,有了外形。
它的有了形状之后,它就变成了纯粹的符号。
那么语义呢,就是希望从符号当中再还原出思维来。
并且你要理解这句话它到底是什么意思,是吧?所以我们说
研究语义呢实际上我们是发现了这个语言的整个的传播的一个过程。
那么首先呢是你头脑里头有一个念头就是你的思维,
然后呢变成了语言的这个符号体系,通过语音、 通过文字、
通过词来把它表达出来了,从听觉上、 视觉上表达出来以后,
那么通过一些媒介,比如说说出来会通过空气,通过声波来传递。
那么语言呢写下来通过这个视觉, 写在纸上,那么你能够通过这个图形来传递。
传递了以后,对方接收方,那么他首先呢通过视觉、 通过听觉接收了这些符号之后。
还要把它还原成思维,那么这个还原就是对于语义的这个研究。
那么一直来讲共同的理解和保持语义是我们人类交流的最
根本的基础,否则的话这个传递作为传递信息的这个语言,
它就失去了它的功能的意义了,但是呢不幸的是这个 语言交流会存在很大的这个语言的这个损耗。
那么通常有一句话说叫做一图胜千言。
那么也就是说你说了一千句话,用语言来表述它,还不如
说用一张图来表示,大家一看这个图就明白是什么意思。
这个大概呢也是指说在语言交流方面,它会存在一些语义的损耗。
那么同时也对这个艺术作品的研究,
也是实际上也是试图还原作者当时希望告诉
读者什么样的一个思维,他什么的一个理念。
那么正如我们在一个俗话所说,是吧,
中国的俗话说一千个读者就会有一千个
林妹妹,那么是对于《红楼梦》的研究啊各不相同。
那么西方的人说呢有一千个读者就有一千个哈姆雷特。
那么这也是其实他们是表述的是一件一件事情。
也就是说这个对于语义的这个损耗,那是多么的 巨大,不同的人会有完全不同的理解,是吧?
那么所以呢人们在研究这个语义当中, 就是说如何去形式化的表达这个语义。
那么就是说试图呢让我们计算的机器或者说 和信息器处理的机器也能够理解和表达语义。
那么这个就是我们目前在自然语言研究里头一个非常热点的一个难题。
那么比如说在我们在计算机领域里面就有 很多像语义网的研究啊,还有专家系统啊,数据挖掘啊,
机器翻译啊,还有一些甚至到最后人工智能。
如何机器来理解和认识这些语义,对吧?
那么这个呢涉及到说如何用另外一套符号系统来描述这一套符号系统的问题。
可能大概呢还确实是相当的有难度的啊。
最后呢就是一个语用,因形意用,最后呢是用。
那么它涉及到这个语言的使用环境以及语言的功能的问题。
那么因为在不同的上下文环境当中,这个语句的应用。
对于语义的影响是,有时候是非常巨大的。
那么这个所谓的语境那么它对语句的理解影响也是非常之大,比如说我们举个例子。
我们说火,火!就看着这这个语句, 嗯我们就能够理解是一个惊叹,就表示呢 对象是一个火。
那但是呢如果离开了这个具体的使用的语境,那么我们就没法理解
他到底是说在秋游也, 郊游的时候啊花了好长的时间去生火,终于把火生起来的一种
惊喜的这个,惊喜若狂的心情,还是说 在厨房里头这个厨师炒菜,然后突然失火了,那种惊慌的心情。
它完全是不一样的。
啊那比如说第二个例子。
啊一段对话,A说哎昨天后来怎么样啊?B说 还好没耽误。
哎那这句对话呢我们实际上是非常经常的听到。
但是如果不理解,不了解这个A和B的对话的这个上下文以及它的语境
的话,那么我们也是没法知道他们到底是在谈论一件什么样的一个事情。
那么所以呢对于语用的研究也是这个自然语言处理的一个非常重要的内容之一。
那么所以在于对于语言的研究上,我们说因形意用。
这四个方面的研究呢,实际上最终呢也会归结到 对于这个不同的这个符号体系的研究之上,所以我们
这一节这一章讲这个形式语言与次动机就是希望呢
能够为这四个方面的研究带来一个形式化的工具,就是对于
形式就是语言的形式化,以及它的符号体系如何去构建,
如何去处理,做了一个研究的一个工具。