[毕业实习报告65108]

[毕业实习报告65108]
阳极钢爪
实习报告
关于在安徽科大讯飞科技信息科技股份有限公司单位从事语音资源整理数据标注的实习报告
实习单位: 安徽科大讯飞信息科技股份有限公司
实习时间:
实习岗位: 语音资源整理数据标注
学生姓名:苏晓文
学号:1 0 4 2 1 5 2 1 3 1
院系:信息工程学院
专业:信息管理与信息系统
年月日
温热理疗床
关于在安徽科大讯飞科技信息科技股份有限公司单位从事语音资源整理数据标注的实习报告
一、实习单位及岗位简介
(一)实习单位的简介
太阳能热水袋cn-m安徽科大讯飞信息科技股份有限公司是一家专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企业。公司智能语音核心技术代表了世界的最高水平。20XX年,科大讯飞在深圳证券交易所挂牌上市,股票代码:002230。
科大讯飞成立于1999年,是我国产业化实体中,在语音技术领域中基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多及市场占有率最高的公司。
语音技术实现了人机语音交互,使人与机器之间沟通变得像人与人沟通一样简单。语音技术主要包括语音合成和语音识别两项关键技术。让机器说话,用的是语音合成技术;让机器听懂人说话,用的是
语音识别技术。此外,语音技术还包括口语评测、语音编码、音转换、语音消噪和增强等技术,有着广阔应用空间。
科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在语音
合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”,并被原信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。
20XX年、20XX年,科大讯飞两次荣获“国家科技进步奖”;20XX 年、20XX年两次获得中国信息产业自主创新最高荣誉“信息产业重大技术发明奖”。20XX年至20XX年,已连续七届英文语音合成国际大赛(Blizzard Challenge)荣获第一名。20XX年至20XX年,连续四年在国际说话人、语种识别评测大赛中名列前茅。20XX年,“国家智能语音高新技术产业化基地”、“语音及语言信息处理国家工程实验室”相继落户合肥,有利于进一步汇聚产业资源,提升科大讯飞产业龙头地位。
基于拥有自主知识产权的世界领先智能语音技术,科大讯飞已推出从大型电信级应用到小型嵌入式应用,从电信、金融等行业到企业和消费者用户,从手机到车载,从家电到玩具,能够满足不同应用环境的多种产品。科大讯飞已占有中文语音技术市场70%以上市场份额,开发伙伴超过8000家,以讯飞为核心的中文语音产业链已初具规模。
随着移动互联网“语时代”的到来,科大讯飞率先发布了全球首个提供移动互联网智能语音交互能力的“讯飞语音云”平台,并持续升级优化。基于该平台,科大讯飞相继推出了“讯飞语音输入法”、“讯飞
语点”等示范性应用,并与广大合作伙伴携手推动各类语音应用深入到手机、汽车、家电、玩具等各个领域,引领和推动着移动互联网时代大潮下输入和交互模式的变革。
(二)实习岗位的简介
我所从事的是数据标注,这是一份看似简单却充满技术性的工作,该工作主要针对公司的产品需求,按照资源的整理格式,通过网络及相关渠道进行大量的文本资源的收集、分类和整理。整理的主要内容是对资源名称进行别称简称及是否歧义的整理。根据规范对文本信息资源进行标注,内容资源数据的后期制作及数据标注工作。
公司实行每周五天,每天八小时工作制。首先是三天的试用期,主要是适应工作环境,了解工作内容,学习工作方法,熟悉公司的各个部门。三天后办理入职手续领取工作证,签劳动合同。
在主管的安排下我被分到了语音资源部数据标注组,我拥有自己的格子间和办公电脑,我们所做的工作都是为了讯飞语点服务的。首先我们的组长向我介绍了我们的组员以及它们各自所分配的任务,并且告诉我工作期间的交流都是通过飞信进行的,还有上班下班的时间,吃饭时间及打卡的时间,上下班的班车路线等。然后他向我介绍了工作的内容,如何登陆讯飞内部网络,如何进入标注平台。接着他让我先学习标注规范和平台的使用说明了解我们的工作。每天早上要签到,下班前要及时撰写工作日报。最后他向我强调了公司的规章制度以及我入职之后所要从事的工作,包括线网内的数据抓取和
修改,测试集的修改与汇总,数据的标注,语音的测试,语音识别,资源整理等。同时,在空余时间要协助其他组完成相应的任务,相互合作共同进步,定期和本组同事相互交流相互按时撰写日报和工作心得。
二、实习内容及过程
1、标注
标注规范包括手机语点标注规范,车载标注规范,商旅标注规范,电视标注规范等。
在做一项任务之前都要了解他的规范,标注规范是进行语点标注的准则,标注规范由协议框架协议组成,语义框架包括四部分内容:focus, action, object, content。我们判断一句话的内容出他的兴趣点也就是所表达的意思来选择相关的协议,再看看根据兴趣点所发出的动作和对象来辨别是否符合标注规范的要求。过一段时间我们会
根据实际的需求对标注规范进行,以适应当前的实际需求,在修改的过程中有些业务需要扩充,有些业务需要转移,甚至有时会增加一些新的兴趣点等等。
此规范主要是针对生活中的一些相似或者相同场景进行细化从而避免由于引擎跑错地方而导致语点不能更好地服务于用户,再者一些语句对于业务来说是错误的或者是一些闲聊的话语使得引擎无法识别
从而不能满足用户的需求。
由于时代在发展,科技在进步我们的标注规范也在不断的更新,我们会每隔一段时间更新一次标注规范,是为了更好地服务于相关工作的进行。在对数据进行标注之前,掌握标注细则是非常重要的,它关系到我们后期标注工作的正确性和可靠性,每天的工作中我都会先熟悉标注细则然后再进行标注,我们标注数据的准确性可能会对上面技术部门的工作造成一定的影响。
2、语音合成技术
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。我们会每天接听大量的语音信息,把语音信息中不清楚的信息保留下来进行分析与修正。
3、语音识别技术
风湿油
自动语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最
自然、最便捷的手段进行人机通信和交互。我们与机器对话让机器辨别我们所要求的内容并进行相应的操作。
4、语音评测技术
语音评测技术,又称计算机辅助语言学习(Computer Assisted Language Learning)技术,是一种通过机器自动对发音进行评分、检错并给出矫正指导的技术。语音评测技术是智能语音处理领域的一项研究前沿,同时又因为能显著提高受众对语言(口语)学习的兴趣、效率和效果而有着广阔的应用前景。
5、自然语言
自然语言是几千年来人们生活、工作、学习中必不可少的元素,而计算机是20世纪最伟大的发明之一,如何利用计算机对人类掌握的自然语言进行处理、甚至理解,使计算机具备人类的听说读写能力,一直是国内外研究机构非常关注和积极开展的研究工作。把听到的语音信息转化成文本信息,制作、优化、整理文本资源。
6、线网数据的抓取和修改
一个好的产品需要不断的升级和优化,我的任务就是每天从全国各地的数据中随机抓取一些对那些引
擎跑错或者不符合相应要求的典型句式标注出来,交给技术人员进行优化,并且帮助技术人员减轻数据量,使他们处理一些有价值的数据。我每天要处理至少6000条数据但是不符合条件的只有几百条,这要求我有足够的细心和整理分析数据的能力,对于不符合条件的数据我要用不同的颜标注出来,遇到难以判断的问题必须出规范进行核对或者和其他同事进行交流,每一份数据整理好之后要撰写错误问题反馈表,出其中具有代表性的问题提交给技术部门使他们可以更好地对数据进行完善,有些时候技术部门觉得提交的数据没有意义,从而必须得重新抓取数据重新判断。
铁水预处理几个星期下来,我学到了很多测试相关的专业知识和方法。之后的实习期间,我又接触到电视语点,车载语点,包括在线语音翻译服务,SMS点播及时翻译服务,手机客户端软件的测试等。虽然测试的流程还是一样的,但是项目不同,就需要我们扩充不同的知识,这也是测试标注工作中的一大乐趣所在。
三、实习收获与体会

本文发布于:2024-09-25 12:21:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/201637.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   标注   技术   进行   数据   工作   规范   资源
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议