• 自然语言处理导论

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 自然语言处理导论

    自然语言:主要指人类所使用的语言,包括汉语、英语等,它是人类沟通交流的主要工具。通俗地讲,自然语言就是我们平时与人交流时所用的语言。

    自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分 

    自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面  。

    • 自然语言第一节
    1. 体验自然语言处理技术

    从殷商甲骨文到简体白话文,汉字几经演变,但其承载的中华文化却绵延不绝。文字作为重要的信息载体,是语言的一种具体表现形式,也是人类区别于其他动物的本质特性。我们一般把人类使用的语言叫自然语言,如汉语、英语等,人类语言在结构、语义、知识、时空、应用等多个方面具有复杂性。如果计算机能理解人类的复杂性语言,就可以用自然语言与我们交流,也可以担任我们的翻译官,这样,我们与外国人交流就不需要精通外语了。那么,计算机是如何理解这些文字呢?它能够理解文字所表达的含义吗?我们先来体验一下机器在在语言理解上的本领吧。

      • 学习活动5.1 英汉互译

    请同学们利用百度翻译、google翻译、有道翻译等在线平台把下面的汉语翻译成英语,英语翻译成汉语。

    5.1利用翻译平台翻译语句

    语句

    翻译结果

    坚定文化自信,建设社会主义文化强国。


    祥子来自农村,是个破产的青年农民,勤劳、纯朴、善良,保留着农村哺育他、教养他的一切,却再也不愿意回农村去了。


    it is never too late to give up our prejudices.


    many of these disputes are attribute to the differences in the cultural background between the work force and management.


    • 分析思考

    对比不同平台的机器翻译结果,请同学看看结果有哪些异同?思考造成这种不同的原因。

    翻译平台能够像专业翻译一样,准确地把输入的汉语句子翻译成英语句子、英语句子翻译成汉语句子。翻译平台之所以能够翻译句子,是因为它采用了机器翻译技术。机器翻译技术是自然语言处理技术中的一种,它能让计算机把一种语言翻译成另外一种语言,如图5.1所示。


    5.1 机器翻译过程

    自然语言处理技术是指利用计算机分析和处理人类自然语言的技术。要用自然语言与计算机交流,计算机既要能理解自然语言的意义,也要能用自然语言来表达意图和思想。前者称为自然语言理解技术,后者称为自然语言生成技术。例如,在上面的机器翻译过程中,计算机首先需要理解输入句子的含义,然后根据含义进行翻译,并根据翻译结果生成另一种语言的句子。

    如果给翻译平台增加语音识别和语音合成功能,它就从能翻译句子的“笔译”变成了能翻译口语的“口译”。它首先利用语音识别技术把口语识别成句子,然后利用机器翻译技术把句子翻译成其他语言的句子,最后再利语音合成技术把翻译后的句子读出来,如图5.2


    5.2 口语翻译过程

    文字和语音是人类自然语言的两个最基本的属性。自然语言包括书面语(也就是文字语言)和口语(也就是语音语言)。口语的处理离不开书面语的处理技术的支持。我们已经学习了智能语音的处理技术,本章主要学习书面语的处理技术。

    需要让计算机处理人类自然语言的应用都离不开自然语言处理技术的支持。像机器翻译、输入法、拼写检查、信息检索、手写体识别、垃圾邮件过滤、计算机写作、人机对话等都需要利用自然语言处理技术来实现。智能音箱之所以能用口语与我们交流,除了需要具备语音识别和语音合成功能,也离不开自然语言处理技术的支持,如图5.3所示。


    5.3 人机口语对话过程

    语音识别技术和语音合成技术本身也离不开自然语言处理技术的支持。在语音识别中,需要利用语言模型将从语音中识别出来的发音符号组合成字、词、句子。语言模型就是采用自然语言处理技术从大量的语句中训练获得的,它能够反映词与词之间的关系。在语音合成中,需要利用文本分析程序把输入的语句变成发音符号。文本分析程序也是一个典型的自然语言处理应用,能把句子自动划分成短语、词、字,从而能够获得每个字的发音符号和上下文信息。


    5.4 语音识别和语音合成中的自然语言处理


    解释说明

    自然语言通常是指一种自然地随文化演化的语言。英语、汉语、日语为自然语言,而世界语则为人造语言,即是一种由人蓄意为某些特定目的而创造的语言。不过,有时所有人类使用的语言(包括上述自然地随文化演化的语言,以及人造语言)都会被视为“自然”语言,以相对于如编程语言等为计算机而设的“人造”语言。

    在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。



      • 学习活动5.2 查阅资料

    需要让计算机处理人类自然语言的地方就离不开自然语言处理技术。请同学们回顾前面的内容,并查阅资料,看哪些人工智能产品需要自然语言处理技术的支持?简单描述自然语言处理技术在该应用中所起的作用,填入表5.2中。

    5.2具备自然语言处理能力的人工智能产品

    产品名称

    自然语言处理功能

    智能音箱

    让智能音箱理解语音识别获得的语句,并产生需要合成的语句

    智能翻译机

    能把一种语言的句子翻译成其他语言的句子








    • 名词解析
    活动类型:
    作业提交
    活动名称:
    名词解析
    活动描述:
    根据自己的理解解释以下名词:自然语言;自然语言处理;文本分词
    • 机器翻译过程
    • 口语翻译过程
    • 555文本段落
    选择省 北京 上海 天津 重庆 河北 山西 河南 辽宁 吉林 黑龙江 内蒙古 江苏 山东 安徽 浙江 福建 湖北 湖南 广东 广西 江西 四川 海南 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 钓鱼岛 选择市 选择区
    • 666图片段落
    • 666图片段落
    • NLP文本段落
    • NLP文本段落
    • 标签:
    • 语言语言学
    • 语言学计算机
    • 语言技术
    • 自然语言处理
    • 语言计算机
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部