⼈民⽇报1998年中⽂标注语料库及读取代码
代码作者:肖波
语料库:北京⼤学计算语⾔学研究所和富⼠通研究开发中⼼有限公司
PFR⼈民⽇报标注语料库(版本1.0,下⾯简称PFR语料库)是在得到⼈民⽇报社新闻信息中⼼许可的条件下,以1998年⼈民⽇报语料为对象,由北京⼤学计算语⾔学研究所和富⼠通研究开发中⼼有限公司共同制作的标注语料库。该语料库对600多万字节的中⽂⽂章进⾏了分词及词性标注,其被作为原始数据应⽤于⼤量的研究和论⽂中。
由于该语料库是以⽂本形式提供的,本⽂给出了读取该语料库的C#代码,供⽹友参考,代码中⽤到了⼀些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另⼀篇⽂章《》中下载。
using System;
using System.Collections;
using System.Collections.Generic;
using System.Text;
using KTDictSeg;
using General;
namespace MachineLeaning
{
class T_Word
{
public String Word; //单词
public int POS; //词性
public long Freq; //词频
};
///<summary>
/// 1998年⼈民⽇报标注预料库的提取
发布软件
/
//</summary>
class People1998
{
Private Members
gff全贴合技术>直流
系统绝缘监测装置
Public Members}
果蔬包装机}
调⽤⽰例
if (openFileDialogDict.ShowDialog() == DialogResult.OK)
{
try
{
柴火无烟灶People1998.Load(openFileDialogDict.FileName);
}
catch(Exception e1)
面瘫的中药{
CMsgBox.ShowErrorMessageBox(e1.Message);
}
}
语料库下载地址
由于较⼤,分成5包下载