shibing624 da78d04651 update lm max length. | 11 月之前 | |
---|---|---|
.. | ||
README.md | 11 月之前 | |
demo.py | 11 月之前 | |
predict.py | 11 月之前 | |
train.py | 11 月之前 |
mask token predict
做token级别纠错example: examples/deepcontext/demo.py
from pycorrector import DeepContextCorrector
m = DeepContextCorrector()
print(m.correct_batch(['今天新情很好', '你找到你最喜欢的工作,我也很高心。']))
output:
[{'source': '今天新情很好', 'target': '今天心情很好', 'errors': [('新', '心', 2)]},
{'source': '你找到你最喜欢的工作,我也很高心。', 'target': '你找到你最喜欢的工作,我也很高兴。', 'errors': [('心', '兴', 15)]}]
中文维基百科200条数据,见 examples/data/wiki_zh_200.txt
中文维基百科文本均可,本质上是训练一个文本语言模型。
人民日报2014版熟语料,网盘链接:https://pan.baidu.com/s/1971a5XLQsIpL0zL0zxuK2A 密码:uc11
python train.py --do_train --do_predict
python predict.py
output:
input : 老是较书。
predict: 老师教书。 [('是', '师', 1, 2), ('较', '教', 2, 3)]