人民日报1998年中文标注语料库及读取代码

⼈民⽇报1998年中⽂标注语料库读取代码
⼈民⽇报1998年中⽂标注语料库及读取代码
代码作者:肖波
语料库:北京⼤学计算语⾔学研究所和富⼠通研究开发中⼼有限公司
PFR⼈民⽇报标注语料库(版本1.0,下⾯简称PFR语料库)是在得到⼈民⽇报社新闻信息中⼼许可的条件下,以1998年⼈民⽇报语料为对象,由北京⼤学计算语⾔学研究所和富⼠通研究开发中⼼有限公司共同制作的标注语料库。该语料库对600多万字节的中⽂⽂章进⾏了分词及词性标注,其被作为原始数据应⽤于⼤量的研究和论⽂中。
由于该语料库是以⽂本形式提供的,本⽂给出了读取该语料库的C#代码,供⽹友参考,代码中⽤到了⼀些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另⼀篇⽂章《》中下载。
using System;
using System.Collections;
using System.Collections.Generic;
using System.Text;
using KTDictSeg;
using General;
namespace MachineLeaning
{
class T_Word
{
public String Word; //单词
public int POS;  //词性
public long Freq;  //词频
};
///<summary>
/// 1998年⼈民⽇报标注预料库的提取
发布软件
/
//</summary>
class People1998
{
Private Members
gff全贴合技术>直流系统绝缘监测装置Public Members
}
果蔬包装机}
调⽤⽰例
if (openFileDialogDict.ShowDialog() == DialogResult.OK)
{
try
{
柴火无烟灶People1998.Load(openFileDialogDict.FileName);
}
catch(Exception e1)
面瘫的中药{
CMsgBox.ShowErrorMessageBox(e1.Message);
}
}
语料库下载地址
由于较⼤,分成5包下载

本文发布于:2024-09-24 05:28:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/126273.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语料库   标注   代码   读取   系统   直流
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议