README.md 2.0 KB

Deep Context Language Model for Chinese Spelling Correction

Features

  • 基于上下文预测该未知词,类似CBOW的处理方式
  • 多层级的双向lstm模型,文本语义表征能力更强
  • 简单MLP预测未知词,基于mask token predict做token级别纠错

framework

Usage

快速加载

pycorrector快速预测

example: examples/deepcontext/demo.py

from pycorrector import DeepContextCorrector
m = DeepContextCorrector()
print(m.correct_batch(['今天新情很好', '你找到你最喜欢的工作,我也很高心。']))

output:

[{'source': '今天新情很好', 'target': '今天心情很好', 'errors': [('新', '心', 2)]},
{'source': '你找到你最喜欢的工作,我也很高心。', 'target': '你找到你最喜欢的工作,我也很高兴。', 'errors': [('心', '兴', 15)]}]

Dataset

toy train data

中文维基百科200条数据,见 examples/data/wiki_zh_200.txt

big train data

中文维基百科文本均可,本质上是训练一个文本语言模型。

Predict model

python predict.py

output:

input  : 老是较书。
predict: 老师教书。 [('是', '师', 1, 2), ('较', '教', 2, 3)]

Reference