简介
语义学是语言学的一个分支,它研究语言、语言符号和符号顺序的含义亦即词汇、语句和文章的含义。换言之,它探讨的是语言表述形式的意义和内涵。
语言有三个要素:语音、语义、语法。三要素中,语义最为重要。作为历史、文化载体的语言,其要素语义对历史、文化必然或多或少、或隐或现、或直接或间接地会折射出、反映出历史、文化的某些信息。
通过语义,可以了解某些历史或文化的背景、层面;当然对有些语义的正确理解,也还是需要从历史或文化的观念的角度来加以分析、辨证的。
语言是随着社会的产生、发展而产生、发展的;社会有所发展、变化,语义也就随之而发展、变化。
:::: collapse-panel accordion
::: collapse-item 中文分词
词是最小的能够独立运用的语言单位。“词”这个概念,是从西方引入的,在1898年《马氏文通》出版之前,传统的语言学研究对象是“字”,而不是“词”。汉语和英语最直观、最明显的不同,就是英语的词是天然的,由空格分开,而汉语的字紧密排列,从形式上看,其实没有“词”这个单位。
现代汉语的典型特征之一是双音节词占优势。古汉语常常是一字即一词,而现代汉语都把它们双音节化了,比如“目–>眼睛”“悦–>高兴、喜欢”。如果单单把“睛”、“兴”等字拿出来,它们承载的意义与原词是有差异的。加之考虑到实际应用的需求,以词为索引可以减小搜索空间、加快搜索速度、提高准确率,所以做分词是有必要的。
由于汉语的特殊性,在分词任务中,会碰到两种歧义现象:
交叉歧义:abc三个成分,ab可以分成一个词,bc也可以分成一个词。
组合歧义:ab两个成分,组合在一起的时候是一个词,分开以后可以各自成词。
解决分词歧义的技术方法主要有三大类,分别是基于规则的方法,基于统计的方法,以及规则和统计结合。
在技术需求方面,有的需要细粒度的分词,有的需要粗粒度的,这都是实际应用会面对的矛盾。这也是由于汉语本身语素、词和短语的界限不明造成的。
词性标注
汉语词性的独特之处在于,汉语作为孤立语/分析语,没有明显的形态变化,与英语等屈折语不同。
在实际应用中,以“依句辨品,离句无品”的原则去做词性标注,关注词在句子里的位置和作用。
句法分析
目前在做的句法分析包括句法树和依存句法分析,谈到这两点不得不放出下面这两张图:
英语 |
汉语 |
 |
 |
汉语还有一些特殊句型,比如主谓谓语句、存现句、连谓句、兼语句等,在句法分析层面上都有自己独特的结构,也是需要特殊处理的。
其他方面
汉语还有一个特点是重意合而不重形式,句子结构比较松散,多分句;英语则多从句,多引导词,句子结构比较容易判断。如果要判断句子里的因果关系、让步关系、目的关系、假设关系等,目前来说还比较难。况且我们说话的时候,常常会省略“因为”“即使”“如果”等明显的关联词,这也样也就使得特征变得不明显。
在语义分析层面,如语义角色标注和语义依存分析,汉语这个特点着实加大了实现的难度。
:::
::: collapse-item 人机自然语言交互
人机自然语言交互涉及到语法、语义、语用三个层面,越往后越难。为了推动人机自然语言交互的发展,需要在NLP的基础上,引入NLU、认知语言学、心理语言学、社会语言学等学科的综合参与。甚至如竹间智能正在探索的,为了理解“寒暄”、“安抚”甚至是“讽刺”、“幽默”这样的言语修辞行为,需要在深度学习方法中结合对心理学的研究,在语义理解的基础上增加意图识别和情感判断,以弥补传统中文NLP在语言理解上的不足,让机器真正读懂人类语言的复杂语义,以及背后的意图和情感。在此基础上给予对话者拟人的反馈,从而达到更好的人机自然语言交互效果。
同样,人工智能也必将改变语言学研究的发展方向。传统的重理论分析而轻实例,坐着想句子的研究方法将逐渐退出舞台;真实语料、口语和书面语并重,侧重对语言形态进行统计分析的研究将大量涌现。另外,传统语言学将进一步向计算语言学靠拢,未来将会有新的、更容易被计算机接受的语法提出。
:::
::::
分析
在一个社会网络中常有节点之间的信息交流。可以对这种社会网络进行分析的一种强大的用来获得和理解文本信息的技术被称为语义网消息传输分析。作为一个在人工智能和计算语言学的方法,它为知识推理和语言提供了一个结构和过程。
语言腐败
所谓语言腐败,指一些拥有话语权的人为了相关利益和意识形态的目的,偷换语言的概念,将一些词汇的含义做一些完全相反的解释。
该词最初是在英国作家乔治·奥威尔于1946年的一篇文章中提出来的,现在已成为政治哲学理论中的经典术语。语言腐败的现象自古有之,但应该说,只是在20世纪之后,特别是希特勒和斯大林之后,才变成社会公害。奥维尔本人的作品《一九八四》提供了许多经典的例子:专门制造假新闻的部门被冠名为“真理部”;监督、逮捕和迫害异己人士的秘密警察被冠名为“友爱部”;发动战争的部门被冠名为“和平部”。
语义饱和
:::: tabs
::: tab-pane 简介
早在20世纪60年代,就有心理学家发现大脑在接受持续相同刺激后会产生神经疲倦。简单来说,就是大脑的同一个地方一直拼命地工作,高强度运转之后疲惫了,出现了短暂的“罢工”,即语义饱和,这属于正常的“神经心理学”现象。
看一个字久了会觉得不认识,这个现象其实很普遍。不仅是汉字,英语等其它语言的使用者也会出现“一个词看久了就认不出”的现象。甚至不仅在语言中,就连一幅熟人的照片、一个熟悉的地点,看久了之后都有可能会突然觉得陌生起来。
在此输入内容
:::
::: tab-pane 分析
语义饱和会不会只是发生在象形文字身上的一种现象。
因为文字识别的过程是:先是字形信号刺激神经元,产生神经电信号,通过视神经投射到后脑勺附近的大脑视觉中枢,包含图像信息的电信号通过与神经中枢中的文字记忆数据库比对,转化为语意,从而读懂这个字的含义。
对于笔画过多或者结构复杂的字形符号,更容易出现语义饱和,像那种单一的字符,进入需要更长的时间。
本质上应该是视觉刺激逐渐弱化,因为长时间盯着,导致原有刺激变小,对于大脑来说,因为刺激变小,就没有继续关注的必要了。
比如一个不停变换字号和颜色的字,会比较难进入到语义饱和的状态,就是因为此时的文字能给大脑不间断的新的强烈的刺激。
另外,语义饱和现象与视盲现象很相似。
:::
::::
污名化
污名化可以看做是语言腐败的对立面,语言腐败一般情况下是将信息美名化,而污名化刚好相反。
:::: tabs
::: tab-pane 心理安慰
奴才
待奉主子之奴仆,又称包衣。清时只有满臣面对皇帝会自称奴才表示亲近,汉族大臣仅称臣。
奴才一词, 亦叫做”奴财”、”驽才”,在中国北方各地,尤其是北方少数民族中,是一个十分常见的词汇。其实在北方民族中,臣与奴才意思是一样的,这点在《隋书·北狄》中有所记载。据《隋书·北狄》载:”沙钵略谓其属曰:’何名为臣?’报曰:’隋国称臣,犹此称奴耳’。”
如果满清的奴才代指亲近,汉族大臣只能称臣,有没有一种可能是,奴才对应的满文含义大概是:小老弟之类表示亲近的词。
或是汉族文人为了获得精神胜利,故意曲解其含义。九秋怀疑最初满汉翻译的时候,被曲解了,说不定汉文的奴才俩字对应的满文,本身不是贬义呢?
:::
::::
国名翻译变迁
大致来说,中国人对英、法、德、意、俄、美等西方列强的认识,经历了直观感受、情感贬斥和完全承认三个阶段。与此相应,对西方列强国名的汉译名称上,也经历了谐声描摹、贬词抵斥和褒词揄扬三个阶段。
:::: collapse-panel accordion
::: collapse-item 直观谐声阶段
明代中后期至清代前中期,中国人与西方列强相遇后,根据对方提供的国名发音,直观地用谐声词进行语音描摹,形成欧美强国汉译名演变第一阶段的基本特征。这一阶段以鸦片战争爆发为下限。但由于鸦片战争规模有限,《南京条约》签署后,除了道咸经世学派如林则徐、魏源等人外,朝廷和全社会未能对西方列强予以足够的警觉和敌视,因此,在称呼西方列强国名时,仍在沿用以前的谐声词。在直观谐声阶段,西方各国的汉译国名有两个来源。第一个来源是明代 中晚期欧洲传教士用汉语音译欧洲各国国名。最早对欧洲各国名称进行汉语音译的传教士为天主教耶稣会士意大利人利玛窦。第二个来源是明清时期中国沿海官民,对前来贸易和袭扰的欧洲各国,根据对方所提供的发音而用汉语特别是闽越音翻译其国名而成。这时的译字,常常在在左边带有“口”旁。在直观谐声阶段,西方列强汉译国名,无论是由传教士翻译,还是由中国沿海闽越官民称呼,均为不带褒贬色彩的音译。
:::
::: collapse-item 贬词抵斥阶段
或于西洋国名后加上“夷”、“逆”和“酋”字,或直接用贬义词翻译西洋国名。此前尽管也时常称西方各国为“夷”,但都属于天朝上国的通常眼光。而此时称西洋国家为“夷”,则显然有故意贬损的意味,包含了强烈的感情色彩。这一阶段基本上以鸦片战争为上限,以庚子事变为下限。由于语言及其词汇的使用具有惯性,转变则需有一个漫长的过程,因此这种分期的界限并非十分明确,常常出现前后交叉和彼此涵盖的状况。贬词抵斥特别受到中西冲突和战争因素的影响。每当中西冲突加剧时,国人总是用愤怒的语气和贬义的词汇,指西洋各国。
:::
::: collapse-item 褒词欣赏阶段
大致以洋务运动为上限,以清末民初为下限,从而与第二阶段形成交叉和涵盖。这一阶段,“英国”——“英吉利”、“法国”——“法兰西”、“意国”——“意大利 ”、“德国”——“德意志”、“俄国”——“俄罗斯”、“美国”——“美利坚”这些汉语词汇中最美好的字眼都奉送给了这些促使中国现代化的西方大国,并最终定型,作为其正式的汉译国名,一直延续至今。用美好的汉字字眼和词汇来称呼西方列强的国名全称或简称,似始于洋务派大臣及其幕僚。洋务运动的开创者曾国藩,使用了“美国”、“英国”等概念。洋务派对西洋各国国名的褒化用法,影响到此后的维新派等各个社会阶层的语言。还影响到晚晴从官方到民间的各种典籍。
:::
::::
工具
词云统计:语义分析工具。
简言
段子
小姐:从尊贵到低俗;美女:从惊艳到性别;老板:从稀有到遍地;鸡鸭:从禽类到人类;老虎:从猛兽到贪官;粉丝:从食物到人类;鲜肉:从食品到嫩男;同志:从亲切到敏感;表哥:从亲戚到贪官;干爹:从长辈到情人;奶粉:从食品到毒品;房事:从个人隐私到全民痛苦。
求知
参考资料
- 《语义的文化变迁》 · 武汉大学出版社 · 冯天瑜 · 2007年10月01日
碎碎念
语义分析是个大趋势,但是很多问题解决不了。
人类的情感是复杂多变的,诸如口是心非,还有同一句话在不同的语境下表达的意思不一样,如汉字的重音不同,也会使一句话产生很多不同的含义。
士不可以不弘毅,任重而道远。仁以为己任,不亦重乎?死而后已,不亦远乎?