行为动作识别方法、行为动作识别装置以及行为动作识别程序与流程

1.本发明涉及用于识别用户的行为动作的行为动作识别方法、行为动作识别装置以及行为动作识别程序。

背景技术：

2.近年来，研究基于居住空间的人的行为动作的照看服务、家电设备的控制服务以及信息提示服务。此时，从保护隐私的观点出发，开发了不是根据拍摄人的图像而是根据通过人进行动作而发出的行为动作音推测人的行为动作的技术。
3.为了根据人发出的行为动作音推测人的行为动作，需要识别人发出的行为动作音。但是，在居住空间，除了行为动作音以外，还发生各种噪音。如果噪音混入到行为动作音中，sn比降低，行为动作识别准确度有可能降低。
4.对此，例如，专利文献1公开了一种降低噪音的技术。专利文献1的降噪装置针对声音噪音混合信号计算多个特征量，并使用多个特征量以及被输入的声音噪音混合信号分析与声音以及噪音有关的信息，并使用分析出的信息以及被输入的声音噪音混合信号计算与多个降噪处理相对应的降低变量，使用计算出的降低变量对输入的声音噪音混合信号进行多个降噪处理，由此降低噪音。
5.但是，在所述以往技术中，识别对象的行为动作音也有可能被降低，因此，难以准确地识别行为动作，需要进一步改善。
6.现有技术文献
7.专利文献
8.专利文献1：日本专利公报第4456504号

技术实现要素：

9.本发明为了解决上述问题而做出，其目的在于提供能够以更高的准确度识别用户的行为动作的技术。
10.本发明一个方面涉及的行为动作识别方法用于识别用户的行为动作，其让计算机执行以下步骤：从麦克风获取声音数据；计算所述声音数据的特征量；判断所述用户是否存在于设有所述麦克风的空间内；在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，利用所述行为动作音特征量识别所述用户的行为动作。
11.根据本发明，能够以更高的准确度识别用户的行为动作。
附图说明
12.图1是表示本发明的实施方式的行为动作识别系统的结构的一例的图。
13.图2是用于说明本发明的实施方式的行为动作识别装置、麦克风以及人体传感器的配置的图。
14.图3是表示图1所示的噪音特性计算部的结构的图。
15.图4是用于说明本实施方式的噪音抑制方法的图。
16.图5是用于说明本实施方式的行为动作识别处理的第1流程图。
17.图6是用于说明本实施方式的行为动作识别处理的第2流程图。
具体实施方式
18.(本发明的基础知识)
19.在所述以往技术中，从人发出的声音和噪音混合在一起的声音噪音混合信号中降低噪音。但是，在所述以往技术中，在从非声音的行为动作音和噪音混合在一起的信号中降低噪音的情况下，识别对象的行为动作音也有可能被降低，因此，难以准确地识别行为动作。
20.为了解决以上的问题，本发明一个方面涉及的行为动作识别方法用于识别用户的行为动作，其让计算机执行以下步骤：从麦克风获取声音数据；计算所述声音数据的特征量；判断所述用户是否存在于设有所述麦克风的空间内；在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，利用所述行为动作音特征量识别所述用户的行为动作。
21.在用户不存在的空间内，仅检测到用户进行动作而发出的行为动作音以外的噪音。在此，在空间内不存在用户的情况下，基于从配置在该空间内的麦克风获取到的声音数据的特征量，计算表示噪音的特征量的噪音特征量，计算出的噪音特征量被存储到存储部。然后，在空间内存在用户的情况下，从配置在该空间内的麦克风获取的声音数据的特征量减去被存储在存储部的噪音特征量。据此，能够仅提取表示在空间内抑制了噪音的行为动作音的特征量的行为动作音特征量。然后，利用噪音被抑制的行为动作音的特征量来识别用户的行为动作，因此，即使在行为动作音和噪音混合在一起的空间内，也能够以更高的准确度识别用户的行为动作。
22.此外，在空间内不存在用户的情况下，表示噪音的特征量的噪音特征量被存储到存储部，因此，在空间内存在用户的情况下，利用被存储在存储部中的噪音特征量实时地获取用户的行为动作音。其结果，能够实时地识别用户的行为动作。
23.此外，在所述的行为动作识别方法中，也可以还获取用于识别所述麦克风的识别信息；在计算所述特征量时，将所述声音数据分割为针对每个固定区间的帧，针对每个所述帧计算所述特征量；在存储所述噪音特征量时，基于所述识别信息决定所述帧的数量，并计算所决定的数量的多个帧各自的特征量的平均作为所述噪音特征量。
24.可以说，行为动作音和噪音取决于设置麦克风的空间。因此，通过基于用于识别麦
克风的识别信息决定帧数，可以根据与在设置麦克风的空间内发生的噪音的类型相对应的最佳长度的噪音计算噪音特征量。
25.此外，在所述的行为动作识别方法中，也可以基于被设置在时间变动少的固定噪音作为所述噪音而存在的空间的所述麦克风的所述识别信息而决定的所述帧的数量多于基于被设置在时间变动多的非固定噪音作为所述噪音而存在的空间的所述麦克风的所述识别信息而决定的所述帧的数量。
26.根据该构成，在时间变动少的固定噪音作为所述噪音而存在的情况下，通过利用较长时间的噪音，能够以更高的准确度计算噪音特征量。此外，在时间变动多的非固定噪音作为所述噪音而存在的情况下，不需要长时间的噪音，通过利用较短时间的噪音，能够以更高的准确度计算噪音特征量。
27.此外，在所述的行为动作识别方法中，也可以还获取用于识别所述麦克风的识别信息；在计算所述特征量时，将所述声音数据分割为针对每个固定区间的帧，针对每个所述帧计算所述特征量；进一步在所述识别信息是规定的识别信息的情况下，计算当前的帧之前的多个帧各自的特征量的平均作为所述噪音特征量；进一步从计算出的当前的所述帧的所述特征量减去计算出的所述噪音特征量，从而提取所述行为动作音特征量。
28.例如，通过利用最近的帧的声音数据，能够实时地抑制人的行走声音在周围墙壁折射而产生的回声。因此，在获取到的识别信息是设置在发生回声的空间内的麦克风的识别信息的情况下，从当前帧的特征量减去早于当前帧的多个帧各自的特征量的平均，从而能够实时地抑制噪音。
29.此外，在所述的行为动作识别方法中，所述规定的识别信息也可以是被设置在回声作为所述噪音而存在的空间的所述麦克风的所述识别信息。根据该构成，能够实时地抑制回声。
30.此外，在所述的行为动作识别方法中，所述特征量也可以是倒谱。根据该构成，能够利用噪音被抑制的行为动作音的倒谱来识别用户的行为动作。
31.本发明另一个方面涉及的行为动作识别装置用于识别用户的行为动作，其包括：声音数据获取部，用于从麦克风获取声音数据；特征量计算部，计算所述声音数据的特征量；判断部，判断所述用户是否存在于设有所述麦克风的空间内；噪音计算部，在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；行为动作音提取部，在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，行为动作识别部，利用所述行为动作音特征量识别所述用户的行为动作。
32.在用户不存在的空间内，仅检测到用户进行动作而发出的行为动作音以外的噪音。在此，在空间内不存在用户的情况下，基于从配置在该空间内的麦克风获取到的声音数据的特征量，计算表示噪音的特征量的噪音特征量，计算出的噪音特征量被存储在存储部。然后，在空间内存在用户的情况下，从配置在该空间内的麦克风获取的声音数据的特征量减去被存储在存储部的噪音特征量。据此，能够仅提取表示在空间内抑制了噪音的行为动作音的特征量的行为动作音特征量。然后，利用噪音被抑制的行为动作音的特征量来识别用户的行为动作，因此，即使在行为动作音和噪音混合在一起的空间内，也能够以更高的准
确度识别用户的行为动作。
33.此外，在空间内不存在用户的情况下，表示噪音的特征量的噪音特征量被存储到存储部，因此，在空间内存在用户的情况下，利用被存储在存储部的噪音特征量实时地获取用户的行为动作音。其结果，能够实时地识别用户的行为动作。
34.本发明又一个方面涉及的行为动作识别程序用于识别用户的行为动作，其让计算机执行以下功能：从麦克风获取声音数据；计算所述声音数据的特征量；判断所述用户是否存在于设有所述麦克风的空间内；在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，利用所述行为动作音特征量识别所述用户的行为动作。
35.在用户不存在的空间内，仅检测到用户进行动作而发出的行为动作音以外的噪音。在此，在空间内不存在用户的情况下，基于从配置在该空间内的麦克风获取到的声音数据的特征量，计算表示噪音的特征量的噪音特征量，计算出的噪音特征量被存储到存储部。然后，在空间内存在用户的情况下，从配置在该空间内的麦克风获取的声音数据的特征量减去被存储在存储部的噪音特征量。据此，能够仅提取表示在空间内抑制了噪音的行为动作音的特征量的行为动作音特征量。然后，利用噪音被抑制的行为动作音的特征量来识别用户的行为动作，因此，即使在行为动作音和噪音混合在一起的空间内，也能够以更高的准确度识别用户的行为动作。
36.此外，在空间内不存在用户的情况下，表示噪音的特征量的噪音特征量被存储到存储部，因此，在空间内存在用户的情况下，利用被存储在存储部的噪音特征量实时地获取用户的行为动作音。其结果，能够实时地识别用户的行为动作。
37.以下，参照附图说明本发明的实施方式。另外，以下的实施方式是将本发明具体化的一例，并不限定本发明的技术范围。
38.(实施方式)
39.图1是表示本发明的实施方式的行为动作识别系统的结构的一例的图。图1所示的行为动作识别系统包括行为动作识别装置1、麦克风2和人体传感器3。
40.麦克风2收集周围的声音。麦克风2向行为动作识别装置1输出收集的声音数据和用于识别麦克风2的麦克风id。
41.人体传感器3检测周围存在的用户。人体传感器3向行为动作识别装置1输出表示是否检测到用户的在室内信息和用于识别人体传感器3的传感器id。
42.行为动作识别系统被设置在用户居住的住宅内。麦克风2以及人体传感器3被配置在住宅内的各个房间。
43.图2是用于说明本发明的实施方式的行为动作识别装置、麦克风以及人体传感器的配置的图。
44.麦克风2以及人体传感器3例如分别被配置在客厅301、厨房302、卧室303、浴室304以及走廊305。麦克风2以及人体传感器3可以设置在1个壳体内，也可以设置在互不相同的壳体内。此外，如智能扬声器那样，有内置了麦克风的家电设备。此外，如空调设备那样，有
内置了人体传感器的家电设备。因此，麦克风2以及人体传感器3也可以内置在家电设备中。
45.行为动作识别装置1识别用户的行为动作。行为动作识别装置1被设置在用户居住的住宅内。行为动作识别装置1被配置在住宅内的规定房间。行为动作识别装置1例如被配置在客厅301。另外，配置行为动作识别装置1的房间没有特别限定。行为动作识别装置1例如通过无线lan(local area network)分别与麦克风2以及人体传感器3连接。
46.行为动作识别装置1包括声音数据获取部101、特征量计算部102、麦克风id获取部103、麦克风id判断部104、在室内信息获取部105、在室内判断部106、噪音特性计算部107、噪音特征量存储部108、噪音抑制部109、行为动作识别部110以及行为动作标签输出部111。
47.声音数据获取部101、特征量计算部102、麦克风id获取部103、麦克风id判断部104、在室内信息获取部105、在室内判断部106、噪音特性计算部107、噪音抑制部109、行为动作识别部110以及行为动作标签输出部111通过处理器而实现。处理器例如由cpu(中央运算处理装置)等而形成。
48.噪音特征量存储部108通过存储器而实现。存储器由例如rom(read only memory，只读存储器)或eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)等而形成。
49.声音数据获取部101从麦克风2获取声音数据。声音数据获取部101接收由麦克风2发送的声音数据。
50.特征量计算部102计算声音数据的特征量。特征量计算部102将声音数据分割为针对每个固定区间的帧，针对每个帧计算特征量。本实施方式的特征量是倒谱(cepstrum)。倒谱通过以对数表现将声音数据进行傅里叶变换而得到的谱信息，将以对数表现的信息再进行傅里叶变换而得到。特征量计算部102向噪音特性计算部107以及噪音抑制部109输出计算出的特征量。
51.麦克风id获取部103获取用于识别麦克风2的麦克风id(识别信息)。麦克风id获取部103接收由麦克风2发送的麦克风id。麦克风id与声音数据一起被发送。可以根据麦克风id确定声音数据是在哪个房间被收集的。麦克风id获取部103向麦克风id判断部104以及噪音特性计算部107输出获取到的麦克风id。
52.麦克风id判断部104判断与由麦克风id获取部103获取到的麦克风id相对应的麦克风2配置在通过第1噪音抑制方法抑制噪音的第1房间和通过不同于第1噪音抑制方法的第2噪音抑制方法抑制噪音的第2房间的哪个房间。未图示的存储器预先存储将麦克风id和配置有与麦克风id相对应的麦克风2的房间相关联的表。
53.在第1噪音抑制方法中，当用户不在时，计算规定帧数的特征量的平均，计算出的平均特征量作为噪音特征量被存储到噪音特征量存储部108，并且，当用户在室内时，从当前帧的特征量减去被存储在噪音特征量存储部108的噪音特征量。在第2噪音抑制方法中，计算当前帧之前的多个帧各自的特征量的平均作为噪音特征量，并从计算出的当前帧的特征量减去计算出的噪音特征量。
54.第2房间是回声作为噪音而存在的房间(空间)，例如是走廊。第1房间是回声以外的噪音存在的房间(空间)，例如是浴室、洗漱间、厕所、厨房、卧室以及客厅。
55.麦克风id判断部104向噪音特性计算部107以及噪音抑制部109输出与由麦克风id获取部103获取到的麦克风id相对应的麦克风2被配置在第1房间和第2房间的哪个房间的
判断结果。
56.在室内信息获取部105从人体传感器3获取表示用户是否存在于设有麦克风2的房间(空间)内的在室内信息。在室内信息获取部105接收由人体传感器3发送的在室内信息。
57.另外，在室内信息获取部105从人体传感器3与在室内信息一起获取用于识别人体传感器3的传感器id。未图示的存储器预先存储将传感器id和配置有与传感器id相对应的人体传感器3的房间相关联的表。在室内信息获取部105通过参照该表，能够确定获取到的在室内信息是哪个房间的在室内信息。
58.在室内判断部106判断用户是否存在于设置了麦克风2的房间(空间)内。在室内判断部106基于由在室内信息获取部105获取到的在室内信息，判断用户是否存在于设有收集声音数据的麦克风2的房间内。在室内判断部106向噪音特性计算部107以及噪音抑制部109输出用户是否存在于设有麦克风2的房间内的判断结果。
59.噪音特性计算部107在用户不存在于空间内的情况下，基于计算出的特征量计算表示噪音的特征量的噪音特征量，并且将计算出的噪音特征量存储到噪音特征量存储部108中。噪音特性计算部107在在室内判断部106判断为用户不存在于房间内的情况下，基于计算出的特征量计算噪音特征量。
60.噪音特征量存储部108存储噪音特性计算部107计算出的噪音特征量。另外，噪音特征量存储部108将噪音特征量与麦克风id相对应地进行存储。
61.图3是表示图1所示的噪音特性计算部的结构的图。
62.噪音特性计算部107包括过去帧特征量存储部201、连续帧数决定部202以及噪音特征量计算部203。
63.过去帧特征量存储部201存储特征量计算部102计算出的过去的每个帧的特征量。特征量计算部102将计算出的每个帧的特征量存储到过去帧特征量存储部201。
64.连续帧数决定部202基于麦克风id(识别信息)决定帧数。在计算噪音特征量时，利用连续的多个帧的特征量。连续的帧数根据噪音的类型而不同。基于被设置在时间变动少的固定噪音作为噪音而存在的空间的麦克风2的麦克风id(识别信息)而决定的帧数多于基于被设置在时间变动多的非固定噪音作为噪音而存在的空间的麦克风2的麦克风id(识别信息)而决定的帧数。
65.作为固定噪音的噪音，可列举例如换气扇的声音。换气扇的声音主要是厨房、浴室、洗漱间以及厕所的噪音。此外，作为非固定噪音的噪音，可列举例如屋外噪音、电视机的声音以及回声。屋外噪音以及电视机的声音主要是客厅以及卧室的噪音。此外，回声主要是走廊的噪音。
66.因此，在获取到设置在厨房、浴室、洗漱间或厕所中的麦克风2的麦克风id的情况下，连续帧数决定部202决定为第1连续帧数。第1连续帧数例如为100。由于1帧的长度例如是20msec，因此，第1连续帧数的长度成为2.0sec。此外，在获取到设置在卧室或走廊的麦克风2的麦克风id的情况下，连续帧数决定部202决定为比第1连续帧数少的第2连续帧数。第2连续帧数例如为10。由于1帧的长度例如是20msec，因此，第2连续帧数的长度成为200msec。另外，1帧的长度、第1连续帧数的长度以及第2连续帧数的长度并不限定于上述的长度。
67.此外，在本实施方式中，针对麦克风id或房间预先决定帧数，但是，也可以根据噪音的类型而变更帧数。
68.噪音特征量计算部203在用户不存在于设有麦克风2的房间(空间)内的情况下，计算由连续帧数决定部202决定的数量的多个帧各自的特征量的平均作为噪音特征量。
69.在此，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第1房间、且在室内判断部106判断为用户不存在于设有收集声音数据的麦克风2的房间内、并且连续帧数决定部202决定为第1连续帧数的情况下，噪音特征量计算部203计算第1连续帧数的各帧的特征量的平均作为噪音特征量。此时，噪音特征量计算部203从过去帧特征量存储部201读出第1连续帧数的各帧的特征量，计算第1连续帧数的各帧的特征量的平均作为噪音特征量。
70.此外，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第1房间、且在室内判断部106判断为用户不存在于设有收集声音数据的麦克风2的房间内、并且连续帧数决定部202决定为第2连续帧数的情况下，噪音特征量计算部203计算第2连续帧数的各帧的特征量的平均作为噪音特征量。此时，噪音特征量计算部203从过去帧特征量存储部201读出第2连续帧数的各帧的特征量，计算第2连续帧数的各帧的特征量的平均作为噪音特征量。
71.此外，噪音特征量计算部203在麦克风id(识别信息)是规定的麦克风id(识别信息)的情况下，计算当前帧之前的多个帧各自的特征量的平均作为噪音特征量。规定的麦克风id(识别信息)是设置在回声作为噪音而存在的房间(空间)内的麦克风2的麦克风id(识别信息)。即，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第2房间、且连续帧数决定部202决定为第2连续帧数的情况下，噪音特征量计算部203计算当前帧之前的第2连续帧数的各帧的特征量的平均作为噪音特征量。此时，噪音特征量计算部203从过去帧特征量存储部201读出从当前帧的前1个帧起第2连续帧数的各帧的特征量，计算第2连续帧数的各帧的特征量的平均作为噪音特征量。
72.另外，用户的行走声音的回声在用户存在于房间内的情况下发生。需要从获取到的声音数据实时地抑制该回声。因此，在设有收集声音数据的麦克风2的房间是第2房间的情况下，噪音特征量计算部203不管用户是否存在于第2房间内，计算当前帧之前的多个帧各自的特征量的平均作为噪音特征量。
73.另外，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第2房间、且在室内判断部106判断为用户存在于设有收集声音数据的麦克风2的房间内的情况下，噪音特征量计算部203计算当前帧之前的多个帧各自的特征量的平均作为噪音特征量。
74.在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第1房间、且在室内判断部106判断为用户不存在于设有收集声音数据的麦克风2的房间内的情况下，噪音特征量计算部203将计算出的噪音特征量存储到噪音特征量存储部108中。另一方面，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第2房间的情况下，噪音特征量计算部203向噪音抑制部109输出计算出的噪音特征量。
75.噪音抑制部109在用户存在于设有麦克风2的房间(空间)内的情况下，通过从特征量计算部102计算出的特征量减去被存储在噪音特征量存储部108的噪音特征量，从而提取表示因用户进行动作而发出的行为动作音的特征量的行为动作音特征量。
76.在此，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第1房间、且在室内判断部106判断为用户存在于设有收集声音数据的麦克风2的房间内的情况
下，噪音抑制部109从特征量计算部102计算出的当前帧的特征量减去被存储在噪音特征量存储部108的噪音特征量。
77.此外，在麦克风id判断部104判断为设有收集声音数据的麦克风2的房间是第2房间的情况下，噪音抑制部109通过从特征量计算部102计算出的当前帧的特征量减去噪音特性计算部107计算出的噪音特征量，从而提取行为动作音特征量。
78.在此，说明行为动作音。行为动作音是用户自主性地进行动作而发生的声音。行为动作音不包含用户的说话声音。浴室以及洗漱间的行为动作音例如是淋浴的声音、刷牙的声音、洗手的声音以及吹风机的声音等。此外，厨房的行为动作音例如是洗手的声音等。此外，卧室的行为动作音例如是门的开闭声音等。此外，走廊的行为动作音例如是行走声音以及门的开闭声音等。
79.行为动作识别部110利用由噪音抑制部109提取的行为动作音特征量识别用户的行为动作。行为动作识别部110将行为动作音特征量输入到识别模型，获取从识别模型输出的行为动作标签。识别模型预先被存储在未图示的存储器。例如，如果表示淋浴的声音的行为动作音特征量被输入到识别模型，则从识别模型输出用户正在淋浴的行为动作标签。
80.另外，识别模型也可以通过机器学习而生成。作为机器学习，可列举例如：利用对输入信息赋予标签(输出信息)的训练数据来学习输入与输出之间的关系的监督学习；仅根据无标签的输入构建数据结构的无监督学习；处理有标签和无标签双方的半监督学习；以及通过反复试验来学习将奖励最大化的行为动作的强化学习等。此外，机器学习的具体方法有神经网络(包括利用多层神经网络的深度学习)、遗传编程、决策树、贝叶斯网络或支持向量机(svm)等。在本发明的机器学习中，利用以上列举的具体例的任意一个即可。
81.识别模型可以仅利用不包含噪音的行为动作音的特征量而学习，也可以利用添加了噪音的行为动作音的特征量而学习。
82.行为动作标签输出部111输出行为动作识别部110的用户行为动作识别结果。此时，行为动作标签输出部111输出表示识别出的用户的行为动作的行为动作标签。
83.图4是用于说明本实施方式的噪音抑制方法的图。
84.图4所示的表表示麦克风2的设置地点、在设置地点发生的行为动作音、在设置地点发生的噪音、与设置地点相对应的连续帧数、噪音抑制方法之间的关系。
85.在浴室或洗漱间，行为动作音例如是淋浴的声音、刷牙的声音、洗手的声音以及吹风机的声音等，噪音是换气扇的声音等。在获取到设置在浴室或洗漱间的麦克风2的麦克风id的情况下，通过第1噪音抑制方法抑制噪音。在第1噪音抑制方法中，在在室内判断部106判断为用户不在浴室或洗漱间的情况下，噪音特征量计算部203计算第1连续帧数的各帧的特征量的平均，并将计算出的平均特征量作为噪音特征量存储到噪音特征量存储部108。此外，在第1噪音抑制方法中，在在室内判断部106判断为用户在浴室或洗漱间的情况下，噪音抑制部109从当前帧的特征量减去被存储在噪音特征量存储部108的噪音特征量。据此，只提取行为动作音。
86.此外，在厨房，行为动作音例如是洗手的声音等，噪音是换气扇的声音等。在获取到设置在厨房的麦克风2的麦克风id的情况下，通过第1噪音抑制方法抑制噪音。
87.此外，在卧室，行为动作音例如是门的开闭声音等，噪音是屋外噪音或电视机的声音等。在获取到设置在卧室的麦克风2的麦克风id的情况下，通过第1噪音抑制方法抑制噪
音。在第1噪音抑制方法巾，在在室内判断部106判断为用户不在卧室的情况下，噪音特征量计算部203计算比第1连续帧数少的第2连续帧数的各帧的特征量的平均，并将计算出的平均特征量作为噪音特征量存储到噪音特征量存储部108。
88.另外，电视机的声音是用户接通电视机的电源而发生的声音。因此，电视机的声音不是噪音，也可以分类于行为动作音。
89.此外，在走廊，行为动作音例如是行走声音或门的开闭声音等，噪音是回声等。在获取到设置在走廊的麦克风2的麦克风id的情况下，通过第2噪音抑制方法抑制噪音。在第2噪音抑制方法中，噪音特征量计算部203计算当前帧之前的第2连续帧数的各帧的特征量的平均，并将计算出的平均特征量作为噪音特征量输出到噪音抑制部109。噪音抑制部109从当前帧的特征量减去噪音特征量计算部203计算出的噪音特征量。据此，只提取行为动作音。
90.接着，使用图5及图6说明本实施方式的行为动作识别处理。
91.图5是用于说明本实施方式的行为动作识别处理的第1流程图，图6是用于说明本实施方式的行为动作识别处理的第2流程图。另外，在以下的流程图的说明中，倒谱作为特征量而被利用。
92.首先，在步骤s1，声音数据获取部101从麦克风2获取声音数据。
93.接着，在步骤s2，特征量计算部102将声音数据分割为针对每个固定区间的帧，针对每个帧计算倒谱。
94.接着，在步骤s3，特征量计算部102将计算出的每个帧的倒谱存储到过去帧特征量存储部201。
95.接着，在步骤s4，麦克风id获取部103从麦克风2获取麦克风id。
96.接着，在步骤s5，麦克风id判断部104基于获取到的麦克风id，判断麦克风2是否设置在第1房间。第1房间是回声以外的噪音存在的房间，例如是浴室、洗漱间、厕所、厨房、卧室以及客厅。
97.在此，在判断为麦克风2被设置在第1房间的情况下(在步骤s5为是)，在步骤s6，在室内信息获取部105从人体传感器3获取表示用户是否存在于设有麦克风2的第1房间内的在室内信息。另外，在室内信息获取部105可以从人体传感器3获取与声音数据相同的时机发送来的在室内信息，也可以将请求在室内信息的请求信号发送到人体传感器3，来获取响应清求信号而发送来的在室内信息。
98.接着，在步骤s7，在室内判断部106判断用户是否不在第1房间。
99.在此，在判断为用户不在第1房间的情况下(在步骤s7为是)，在步骤s8，在室内判断部106判断当前时刻是否是规定的时机。规定的时机例如是从上次将噪音倒谱存储到噪音特征量存储部108的时刻起经过了规定时间的时刻。规定时间例如是1小时。
100.在此，在判断为当前时刻不是规定的时机的情况下(在步骤s8为否)，处理返回到步骤s1。
101.另一方面，在判断为当前时刻是规定的时机的情况下(在步骤s8为是)，在步骤s9，连续帧数决定部202基于麦克风id决定帧数。此时，连续帧数决定部202在麦克风id是固定噪音作为噪音而存在的房间内设置的麦克风2的麦克风id的情况下，连续帧数决定部202将帧数决定为第1连续帧数。另一方面，在麦克风id是非固定噪音作为噪音而存在的房间内设
置的麦克风2的麦克风id的情况下，连续帧数决定部202将帧数决定为比第1连续帧数少的第2连续帧数。
102.接着，在步骤s10，噪音特征量计算部203从过去帧特征量存储部201读出连续帧数决定部202决定的数量的多个连续的帧各自的倒谱。
103.接着，在步骤s11，噪音特征量计算部203计算从过去帧特征量存储部201读出的多个连续的帧各自的倒谱的平均作为噪音倒谱。
104.接着，在步骤s12，噪音特征量计算部203将计算出的噪音倒谱存储到噪音特征量存储部108。并且，在进行步骤s12的处理后，处理返回到步骤s1。
105.另一方面，在判断为用户在第1房间内的情况下(在步骤s7为否)，在步骤s13，噪音抑制部109读出被存储在噪音特征量存储部108的噪音倒谱。
106.接着，在步骤s14，噪音抑制部109从特征量计算部102计算出的当前帧的倒谱减去从噪音特征量存储部108读出的噪音倒谱。据此，噪音抑制部109提取表示行为动作音的倒谱的行为动作音倒谱。
107.接着，在步骤s15，行为动作识别部110利用由噪音抑制部109提取到的行为动作音倒谱识别用户的行为动作。
108.接着，在步骤s16，行为动作识别部110输出作为识别结果的表示用户的动为的行为动作标签。并且，在进行步骤s15(应为s16)的处理后，处理返回到步骤s1。另外，行为动作标签优选与麦克风id或表示根据麦克风id确定的房间的信息一起被输出。据此，能够确定用户进行的动作和用户进行动作的房间。
109.另一方面，在判断为麦克风2没有设置在第1房间的情况下，即麦克风2被设置在第2房间的情况下(在步骤s5为否)，在步骤s17，连续帧数决定部202基于麦克风id决定帧数。此时，连续帧数决定部202在麦克风id是固定噪音作为噪音而存在的房间内设置的麦克风2的麦克风id的情况下，连续帧数决定部202将帧数决定为第1连续帧数。另一方面，在麦克风id是非固定噪音作为噪音而存在的房间内设置的麦克风2的麦克风id的情况下，连续帧数决定部202将帧数决定为比第1连续帧数少的第2连续帧数。
110.接着，在步骤s18，噪音特征量计算部203从过去帧特征量存储部201读出当前帧之前的由连续帧数决定部202决定的数量的多个连续的帧各自的倒谱。
111.接着，在步骤s19，噪音特征量计算部203计算从过去帧特征量存储部201读出的多个连续的帧各自的倒谱的平均作为噪音倒谱。噪音特征量计算部203向噪音抑制部109输出计算出的噪音倒谱。
112.接着，在步骤s20，噪音抑制部109从特征量计算部102计算出的当前帧的倒谱减去噪音特征量计算部203计算出的噪音倒谱。据此，噪音抑制部109提取表示行为动作音的倒谱的行为动作音倒谱。
113.另外，步骤s21以及步骤s22的处理与步骤s15以及步骤s16的处理相同，因此省略说明。
114.在用户不存在的空间内，仅检测到用户进行动作而发出的行为动作音以外的噪音。对此，在空间内不存在用户的情况下，基于从配置在该空间内的麦克风2获取到的声音数据的特征量计算表示噪音的特征量的噪音特征量，并且计算出的噪音特征量被存储在存储部。然后，在空间内存在用户的情况下，从配置在该空间内的麦克风2获取到的声音数据
的特征量减去被存储在噪音特征量存储部108的噪音特征量。据此，能够仅提取表示在空间内抑制了噪音的行为动作音的特征量的行为动作音特征量。然后，利用噪音被抑制的行为动作音的特征量来识别用户的行为动作，因此，即使在行为动作音和噪音混合在一起的空间内，也能够以更高的准确度识别用户的行为动作。
115.此外，在空间内不存在用户的情况下，表示噪音的特征量的噪音特征量被存储在噪音特征量存储部108，因此，在空间内存在用户的情况下，利用存储在噪音特征量存储部108的噪音特征量实时地获取用户的行为动作音。其结果，能够实时地识别用户的行为动作。
116.另外，在本实施方式中，利用倒谱作为特征量，但本发明并不特别限定于此。特征量也可以是每个频带的对数能量(mel-filterbank log energy)或梅尔频率倒谱系数(mfcc)。即使特征量是每个频带的对数能量或梅尔频率倒谱系数，与本实施方式同样，能够抑制噪音并以高准确度识别行为动作。
117.此外，在本实施方式中，行为动作识别系统具备1个行为动作识别装置1，1个行为动作识别装置1被配置在住宅内的规定房间，但本发明并不特别限定于此。行为动作识别系统也可以包括多个行为动作识别装置1。多个行为动作识别装置1可以与麦克风2以及人体传感器3一起被配置在住宅内的各房间内。多个行为动作识别装置1也可以分别识别各房间的用户的行为动作。此外，1个行为动作识别装置1也可以是被配置在住宅外的服务器。在该情况下，行为动作识别装置1例如通过互联网等网络可通信地与麦克风2以及人体传感器3连接。
118.另外，在上述各实施方式中，各构成要素可由专用的硬件构成，或者通过执行适于各构成要素的软件程序而实现。各构成要素可以通过由cpu或处理器等的程序执行部读取被存储在硬盘或半导体存储器等存储介质的软件程序并执行而实现。
119.本发明的实施方式所涉及的装置的功能的一部分或全部典型地作为集成电路即lsi(large scale integration)而实现。这些功能可以单独地集成到1个芯片中，也可以以包含一部分或全部功能的方式集成到1个芯片中。此外，集成电路化并不限定于lsi，也可以通过专用电路或通用处理器实现。也可以利用制造lsi后可编程的fpga(field programmable gate array)或可重新构筑lsi内部的电路元件的连接或设定的可重构处理器。
120.此外，可将本发明的实施方式所涉及的装置的功能的一部分或全部通过由cpu等处理器执行程序而实现。
121.此外，上文中使用的数字全部是为了具体说明本发明而例示的数字，本发明并不限定于例示的数字。
122.此外，上述流程图所示的各步骤被执行的顺序是为了具体说明本发明而例示的顺序，可在获得同样的效果的范围采用上述以外的顺序。此外，上述步骤的一部分也可以与其他步骤同时(并列)执行。
123.产业上的可利用性
124.本发明涉及的技术能够以更高的准确度识别用户的行为动作，因此在识别用户的行为动作的技术方面有使用价值。

技术特征：

1.一种行为动作识别方法，用于识别用户的行为动作，其特征在于，让计算机执行以下步骤：从麦克风获取声音数据；计算所述声音数据的特征量；判断所述用户是否存在于设有所述麦克风的空间内；在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，利用所述行为动作音特征量识别所述用户的行为动作。2.根据权利要求1所述的行为动作识别方法，其特征在于，还获取用于识别所述麦克风的识别信息；在计算所述特征量时，将所述声音数据分割为针对每个固定区间的帧，针对每个所述帧计算所述特征量；在存储所述噪音特征量时，基于所述识别信息决定所述帧的数量，并计算所决定的数量的多个帧各自的特征量的平均作为所述噪音特征量。3.根据权利要求2所述的行为动作识别方法，其特征在于，基于被设置在时间变动少的固定噪音作为所述噪音而存在的空间的所述麦克风的所述识别信息而决定的所述帧的数量多于基于被设置在时间变动多的非固定噪音作为所述噪音而存在的空间的所述麦克风的所述识别信息而决定的所述帧的数量。4.根据权利要求1所述的行为动作识别方法，其特征在于，还获取用于识别所述麦克风的识别信息；在计算所述特征量时，将所述声音数据分割为针对每个固定区间的帧，针对每个所述帧计算所述特征量；进一步在所述识别信息是规定的识别信息的情况下，计算当前的帧之前的多个帧各自的特征量的平均作为所述噪音特征量；进一步从计算出的当前的所述帧的所述特征量减去计算出的所述噪音特征量，从而提取所述行为动作音特征量。5.根据权利要求4所述的行为动作识别方法，其特征在于，所述规定的识别信息是被设置在回声作为所述噪音而存在的空间的所述麦克风的所述识别信息。6.根据权利要求1至5中任一项所述的行为动作识别方法，其特征在于，所述特征量是倒谱。7.一种行为动作识别装置，用于识别用户的行为动作，其特征在于包括：声音数据获取部，用于从麦克风获取声音数据；特征量计算部，计算所述声音数据的特征量；判断部，判断所述用户是否存在于设有所述麦克风的空间内；噪音计算部，在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计
算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；行为动作音提取部，在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，行为动作识别部，利用所述行为动作音特征量识别所述用户的行为动作。8.一种行为动作识别程序，用于识别用户的行为动作，其特征在于，让计算机执行以下功能：从麦克风获取声音数据；计算所述声音数据的特征量；判断所述用户是否存在于设有所述麦克风的空间内；在所述用户不存在于所述空间内的情况下，基于计算出的所述特征量计算表示噪音的特征量的噪音特征量，并且将计算出的所述噪音特征量存储到存储部；在所述用户存在于所述空间内的情况下，通过从计算出的所述特征量减去被存储在所述存储部的所述噪音特征量，从而提取表示因所述用户进行动作而发出的行为动作音的特征量的行为动作音特征量；以及，利用所述行为动作音特征量识别所述用户的行为动作。

技术总结

行为动作识别装置(1)从麦克风(2)获取声音数据，计算声音数据的特征量，判断用户是否存在于设有麦克风(2)的空间内，在用户不存在于空间内的情况下，基于计算出的特征量计算表示噪音的特征量的噪音特征量，并将计算出的噪音特征量存储到噪音特征量存储部(108)，在用户存在于空间内的情况下，从计算出的特征量减去被存储在噪音特征量存储部(108)的噪音特征量，从而提取表示因用户进行动作而发出的行为动作音的特征量的行为动作音特征量，利用行为动作音特征量识别用户的行为动作。动作音特征量识别用户的行为动作。动作音特征量识别用户的行为动作。