shibing624 da78d04651 update lm max length. 11 月之前
..
README.md 1ebc3e60f0 update mkdir for deep context lm. 11 月之前
demo.py 8c345e9661 update model predict demo. 11 月之前
predict.py da78d04651 update lm max length. 11 月之前
train.py 66c66e9ec0 update t5 batch predict. 11 月之前

README.md

Deep Context Language Model for Chinese Spelling Correction

Features

  • 基于上下文预测该未知词,类似CBOW的处理方式
  • 多层级的双向lstm模型,文本语义表征能力更强
  • 简单MLP预测未知词,基于mask token predict做token级别纠错

framework

Usage

快速加载

pycorrector快速预测

example: examples/deepcontext/demo.py

from pycorrector import DeepContextCorrector
m = DeepContextCorrector()
print(m.correct_batch(['今天新情很好', '你找到你最喜欢的工作,我也很高心。']))

output:

[{'source': '今天新情很好', 'target': '今天心情很好', 'errors': [('新', '心', 2)]},
{'source': '你找到你最喜欢的工作,我也很高心。', 'target': '你找到你最喜欢的工作,我也很高兴。', 'errors': [('心', '兴', 15)]}]

Dataset

toy train data

中文维基百科200条数据,见 examples/data/wiki_zh_200.txt

big train data

中文维基百科文本均可,本质上是训练一个文本语言模型。

Predict model

python predict.py

output:

input  : 老是较书。
predict: 老师教书。 [('是', '师', 1, 2), ('较', '教', 2, 3)]

Reference