Natural Language Processing I


0. 课程信息


课程信息

计算机科学专业选修课
人工智能专业核心课
课程名称 自然语言处理
授课时间 2023年春
考试形式 考试/考查
学分 2.5
讲者 吴晓堃
总计时长 40学时(10周)

课程简介

自然语言处理是计算机科学与语言学的交叉学科,也是人工智能的重要组成部分。

  • 主要研究对象是对人之间的交流进行建模。
  • 主要研究方法是统计学和机器学习。

课程内容

本课程涉及到的一些问题与概念:

  • 什么是自然语言处理?哪些技术可以被认为是应用了NLP技术?
  • 句子是怎样构成的?
  • 为什么分词对中文非常重要?如何对中文分词?
  • 如何用传统统计学对语言建模?
  • 如何将词表示为便于计算的数据格式?
  • 为什么对NLP任务采用深度学习方法?
  • 如何使用深度学习方法解决NLP问题?

建议先修课程

必修

  • 线性代数(向量,矩阵计算,仿射变换)
  • 微分学(Jacobian, Hessian,链式法则)
  • 概率与统计(常见分布,大数定律,条件概率,贝叶斯定理)
  • Python 编程.

 

选修

  • 数值优化(极小值,梯度下降)
  • 机器学习、深度学习

教学方法

以解决实际问题为导向,教学与实践并重。

 

选用教材:《自然语言处理入门》

课程计划:基础

  1. Introduction 导言, Basic Text Processing 文本处理基础
  2. Syntactic Structure 句法结构
  3. N-gram Language Models N元语法模型
  4. Naive Bayes 朴素贝叶斯, Logistic Regression 逻辑回归
  5. Vector Semantics 向量语义, Word Embeddings 词嵌入
  6. Sequence Labeling 序列标注, Parts of Speech 词类, Named Entities 命名实体

课程计划:专题

  1. Lexicon Parsing 词典分词, Chinese Word Segmentation 中文分词
  2. Constituency Parsing 构成解析, Dependency Parsing 依存解析
  3. Recurrent Neural Networks 循环神经网络, Modern RNNs 现代循环神经网络
  4. Attention 注意力机制, Transformer, Pretrained models 预训练模型
  5. Encoder-Decoder 编码器-解码器, seq2seq 序列到序列学习

课程计划:应用

  1. Text Synthesis 文本合成
  2. Text Classification 文本分类, Sentiment Analysis 情感分析
  3. Machine Translation 机器翻译
  4. Question Answering 机器问答, Information Retrieval 信息检索
  5. Chatbots & Dialogue Systems 聊天机器人
  6. Speech Recognition 语音识别, Text-to-Speech 机器朗读

考核标准

  • 听讲与参与:20%
  • 课程理解:30%
  • 最终考试/考查:50%
    • 荣誉(加分):10%
      • 解决实际问题并通过答辩
      • 竞赛取得名次并分享思路

资源

  • 课程网页1
  • HanLP2
  • Speech and Language Processing (3rd ed. draft)3
  • CS224n: Natural Language Processing with Deep Learning4

  1. https://xkunwu.github.io/teach/SpeechLanguage2022F/2023F.html↩︎

  2. https://hanlp.hankcs.com/↩︎

  3. https://web.stanford.edu/~jurafsky/slp3/↩︎

  4. https://web.stanford.edu/class/archive/cs/cs224n↩︎