数据标注方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910702824.6
(22)申请日 2019.07.31
(71)申请人 四川长虹电器股份有限公司
地址 621000 四川省绵阳市高新区绵兴东
路35号
(72)发明人 梁欢 
(74)专利代理机构 成都虹桥专利事务所(普通
合伙) 51124
代理人 李凌峰
(51)Int.Cl.
G06F  16/58(2019.01)
G06F  16/538(2019.01)
G06F  16/51(2019.01)
(54)发明名称
(57)摘要
本发明涉及机器学习技术,解决了现有数据
标注方法的标注结果精度较低的问题。技术方案
概括为:数据标注方法,包括在预设评价维度下
将所有待标注数据进行有序的排列得到一个有
序数据队列,然后根据预设的所有待标注数据中
需要进行标注的各个分值以及每个分值所对应
的待标注数据的数量占所有待标注数据的数量
的比例,从该有序数据队列的队首到队尾按照分
值由低到高或由高到低确定每个待标注数据的
分值,或从该有序数据队列的队尾到队首按照分
值由低到高或由高到低确定每个待标注数据的
分值。有益效果是:通过本发明的方法标注人员
可以根据实际需要调整标注的精度,最高的标注
精度能够确保每个数据对应唯一的分值。本发明
特别适用于图片标注。权利要求书2页  说明书5页CN 110413821 A 2019.11.05
C N  110413821
A
1.数据标注方法,其特征在于,包括:在预设评价维度下将所有待标注数据进行有序的排列得到一个有序数据队列,然后根据预设的所有待标注数据中需要进行标注的各个分值以及每个分值所对应的待标注数据的数量占所有待标注数据的数量的比例,从该有序数据队列的队首到队尾按照分值由低到高或由高到低确定每个待标注数据的分值,或从该有序数据队列的队尾到队首按照分值由低到高或由高到低确定每个待标注数据的分值。
2.如权利要求1所述的数据标注方法,其特征在于,所述在预设评价维度下将所有待标注数据进行有序的排列得到一个有序数据队列的方法包括以下步骤:
设:每个待标注数据各自为一个数据队列中的唯一数据;
步骤S1、将所有数据队列作为基础排序数据;
步骤S2、对基础排序数据进行一轮排序,排序方法采用:将基础排序数据中的各个数据队列随机进行两两分组,并在预设评价维度下,针对任一分组,将该分组中的两个数据队列中的所有数据进行有序的排列得到一个新数据队列,其中,若对基础排序数据中的各个数据队列随机进行两两分组后剩余一个数据队列,则将该剩余的数据队列作为一个新数据队列;
步骤S3、判断最新一轮排序所得到的新数据队列的数量是否为1,若为1则结束排序,并将该最新一轮排序所得到的唯一的新数据队列作为有序数据队列,否则将该最新一轮排序所得到的所有新数据队列作为基础排序数据,然后执行步骤S2。
3.如权利要求2所述的数据标注方法,其特征在于,所述步骤S2中在预设评价维度下,将任一分组中的两个数据队列中的所有数据进行有序的排列得到一个新数据队列的方法采用方法一或方法二:
设:数据队列A和数据队列B为任一分组中的两个数据队列,数据队列C为将数据队列A 和数据队列B中
的所有数据进行有序的排列得到的新数据队列,数据队列A中有n个数据,Ai 为数据队列A中的第i个数据;数据队列B中有m个数据,Bj为数据队列B中的第j个数据,数据队列C中有H个数据,Ck为数据队列C中的第k个数据,其中,H=n+m,i、j、k、n、m和H都是大于或等于1的整数;
所述方法一包括:
步骤P1、初始化i的值为1、j的值为1和k的值为1;
步骤P2、将Ai和Bj推送到终端设备进行展示,并接收Ai与Bj在预设评价维度下进行对比得到的优劣结果,若Ai优于Bj,则将Bj作为Ck,并且j的值加1,k的值加1,若Bj优于Ai,则将Ai作为Ck,并且i的值加1,k的值加1;
步骤P3、判断i与n之间的大小以及j与m之间的大小;若i>n且j≤m,则执行步骤P4,若i ≤n且j>m,则执行步骤P6,若i>n且j>m,则执行步骤P8,若i≤n且j≤m,则执行步骤P2;
步骤P4、将Bj作为Ck,并且j的值加1,k的值加1,然后执行步骤P5;
步骤P5、判断j与m之间的大小,若j>m,则执行步骤P8,否则执行步骤P4;
步骤P6、将Ai作为Ck,并且i的值加1,k的值加1,然后执行步骤P7;
步骤P7、判断i与n之间的大小,若i>n,则执行步骤P8,否则执行步骤P6;
步骤P8、结束对数据队列A和数据队列B中所有数据的排序,得到数据队列C;
所述方法二包括:
步骤Q1、初始化i的值为1、j的值为1和k的值为1;
步骤Q2、将Ai和Bj推送到终端设备进行展示,并接收Ai与Bj在预设评价维度下进行对比得到的优劣结果,若Ai优于Bj,则将Ai作为Ck,并且i的值加1,k的值加1,若Bj优于Ai,则将Bj作为Ck,并且j的值加1,k的值加1;
步骤Q3、判断i与n之间的大小以及j与m之间的大小;若i>n且j≤m,则执行步骤Q4,若i ≤n且j>m,则执行步骤Q6,若i>n且j>m,则执行步骤Q8,若i≤n且j≤m,则执行步骤Q2;
步骤Q4、将Bj作为Ck,并且j的值加1,k的值加1,然后执行步骤Q5;
步骤Q5、判断j与m之间的大小,若j>m,则执行步骤Q8,否则执行步骤Q4;
步骤Q6、将Ai作为Ck,并且i的值加1,k的值加1,然后执行步骤Q7;
步骤Q7、判断i与n之间的大小,若i>n,则执行步骤Q8,否则执行步骤Q6;
步骤Q8、结束对数据队列A和数据队列B中所有数据的排序,得到数据队列C。
4.如权利要求3所述的数据标注方法,其特征在于,所述步骤P2和/或步骤Q2中将Ai和Bj推送到终端设备进行展示,并监测是否通过终端设备点选Ai或点选Bj,若点选Ai,则判定Ai优于Bj,若点选Bj,则判定Bj优于Ai。
5.如权利要求3所述的数据标注方法,其特征在于,所述步骤P2和/或步骤Q2中接收奇数个Ai与Bj在预设评价维度下进行对比得到的优劣结果,统计每种优劣结果的数量,以数量最多的一种优劣结果作为最终的优劣结果。
数据标注方法
技术领域
[0001]本发明涉及机器学习技术,特别涉及机器学习中的数据标注技术。
背景技术
[0002]在机器学习中,需要用到经过标注的基准数据集,而现有对基准数据集进行标注的方法,例如,TID2013是一个广泛使用的,在图像保真度评估实验研究中常使用的可以被查到的数据集,其标注方法是:将每一张图片与图片集内部其他图片随机进行9次比对,每次对比中通过人工选择出保真度高的图片,数据集中所有的图片都会被比较9次,然后统计每张图片被选的次数,被选几次记几分,如被选9次则此图片得分为9,没有被选则得分为0,这样就完成了对每张图片的标注。上述方法中,当图片数量一定时,每张图片的对比次数越多,则最终各个图片的得分精度可能越高,由于存在多张图片得分相同的情况,即使让每张图片的对比次数达到最大,即让每张图片都分别与其他所有的图片进行对比,也有可能出现多张图片得分相同的情况,因此现有数据标注方法的标注结果精度较低。
发明内容
[0003]本发明为解决现有数据标注方法的标注结果精度较低的问题,提供一种数据标注方法。
[0004]为解决上述问题,本发明采用的技术方案是:
[0005]数据标注方法,包括:在预设评价维度下将所有待标注数据进行有序的排列得到一个有序数据队列,然后根据预设的所有待标注数据中需要进行标注的各个分值以及每个分值所对应的待标注数据的数量占所有待标注数据的数量的比例,从该有序数据队列的队首到队尾按照分值由低到高或由高到低确定每个待标注数据的分值,或从该有序数据队列的队尾到队首按照分值由低到高或由高到低确定
每个待标注数据的分值。
[0006]作为进一步优化,所述在预设评价维度下将所有待标注数据进行有序的排列得到一个有序数据队列的方法包括以下步骤:
[0007]设:每个待标注数据各自为一个数据队列中的唯一数据;
[0008]步骤S1、将所有数据队列作为基础排序数据;
[0009]步骤S2、对基础排序数据进行一轮排序,排序方法采用:将基础排序数据中的各个数据队列随机进行两两分组,并在预设评价维度下,针对任一分组,将该分组中的两个数据队列中的所有数据进行有序的排列得到一个新数据队列,其中,若对基础排序数据中的各个数据队列随机进行两两分组后剩余一个数据队列,则将该剩余的数据队列作为一个新数据队列;
[0010]步骤S3、判断最新一轮排序所得到的新数据队列的数量是否为1,若为1则结束排序,并将该最新一轮排序所得到的唯一的新数据队列作为有序数据队列,否则将该最新一轮排序所得到的所有新数据队列作为基础排序数据,然后执行步骤S2。
[0011]作为进一步优化,所述步骤S2中在预设评价维度下,将任一分组中的两个数据队
列中的所有数据进行有序的排列得到一个新数据队列的方法采用方法一或方法二:[0012]设:数据队列A和数据队列B为任一分组中的两个数据队列,数据队列C为将数据队列A和数据队列B中的所有数据进行有序的排列得到的新数据队列,数据队列A中有n个数据,Ai为数据队列A中的第i个数据;数据队列B中有m个数据,Bj为数据队列B中的第j个数据,数据队列C中有H个数据,Ck为数据队列C中的第k个数据,其中,H=n+m,i、j、k、n、m和H都是大于或等于1的整数;
[0013]所述方法一包括:
[0014]步骤P1、初始化i的值为1、j的值为1和k的值为1;
[0015]步骤P2、将Ai和Bj推送到终端设备进行展示,并接收Ai与Bj在预设评价维度下进行对比得到的优劣结果,若Ai优于Bj,则将Bj作为Ck,并且j的值加1,k的值加1,若Bj优于Ai,则将Ai作为Ck,并且i的值加1,k的值加1;
[0016]步骤P3、判断i与n之间的大小以及j与m之间的大小;若i>n且j≤m,则执行步骤P4,若i≤n且j>m,则执行步骤P6,若i>n且j>m,则执行步骤P8,若i≤n且j≤m,则执行步骤P2;
[0017]步骤P4、将Bj作为Ck,并且j的值加1,k的值加1,然后执行步骤P5;
[0018]步骤P5、判断j与m之间的大小,若j>m,则执行步骤P8,否则执行步骤P4;[0019]步骤P6、将
Ai作为Ck,并且i的值加1,k的值加1,然后执行步骤P7;
[0020]步骤P7、判断i与n之间的大小,若i>n,则执行步骤P8,否则执行步骤P6;[0021]步骤P8、结束对数据队列A和数据队列B中所有数据的排序,得到数据队列C;[0022]所述方法二包括:
[0023]步骤Q1、初始化i的值为1、j的值为1和k的值为1;
[0024]步骤Q2、将Ai和Bj推送到终端设备进行展示,并接收Ai与Bj在预设评价维度下进行对比得到的优劣结果,若Ai优于Bj,则将Ai作为Ck,并且i的值加1,k的值加1,若Bj优于Ai,则将Bj作为Ck,并且j的值加1,k的值加1;
[0025]步骤Q3、判断i与n之间的大小以及j与m之间的大小;若i>n且j≤m,则执行步骤Q4,若i≤n且j>m,则执行步骤Q6,若i>n且j>m,则执行步骤Q8,若i≤n且j≤m,则执行步骤Q2;
[0026]步骤Q4、将Bj作为Ck,并且j的值加1,k的值加1,然后执行步骤Q5;
[0027]步骤Q5、判断j与m之间的大小,若j>m,则执行步骤Q8,否则执行步骤Q4;[0028]步骤Q6、将Ai作为Ck,并且i的值加1,k的值加1,然后执行步骤Q7;
[0029]步骤Q7、判断i与n之间的大小,若i>n,则执行步骤Q8,否则执行步骤Q6;[0030]步骤Q8、结
束对数据队列A和数据队列B中所有数据的排序,得到数据队列C。[0031]作为进一步优化,所述步骤P2和/或步骤Q2中将Ai和Bj推送到终端设备进行展示,并监测是否通过终端设备点选Ai或点选Bj,若点选Ai,则判定Ai优于Bj,若点选Bj,则判定Bj优于Ai。
[0032]作为进一步优化,所述步骤P2和/或步骤Q2中接收奇数个Ai与Bj在预设评价维度下进行对比得到的优劣结果,统计每种优劣结果的数量,以数量最多的一种优劣结果作为最终的优劣结果。
[0033]有益效果是:本发明通过对所有待标注数据先按照预设评价维度进行排序,再根

本文发布于:2024-09-22 01:08:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/401557.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   队列   标注   进行   图片   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议