留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于残差卷积神经网络模型的勺嘴鹬动作识别

杨雪珂 蒙金超 冯悦恒 林婷婷 王兆君 刘辉

杨雪珂,蒙金超,冯悦恒,等. 基于残差卷积神经网络模型的勺嘴鹬动作识别[J]. 热带生物学报,2023, 14(5):481−489. doi:10.15886/j.cnki.rdswxb.20220088 doi:  10.15886/j.cnki.rdswxb.20220088
引用本文: 杨雪珂,蒙金超,冯悦恒,等. 基于残差卷积神经网络模型的勺嘴鹬动作识别[J]. 热带生物学报,2023, 14(5):481−489. doi:10.15886/j.cnki.rdswxb.20220088 doi:  10.15886/j.cnki.rdswxb.20220088
YANG Xueke, MENG Jinchao, FENG Yueheng, LIN Tingting, WANG Zhaojun, LIU Hui. Action recognition of spoon-billed sandpipers (Eurynorhynchus pygmeus) based on residual convolutional neural network model[J]. Journal of Tropical Biology, 2023, 14(5): 481-489. doi: 10.15886/j.cnki.rdswxb.20220088
Citation: YANG Xueke, MENG Jinchao, FENG Yueheng, LIN Tingting, WANG Zhaojun, LIU Hui. Action recognition of spoon-billed sandpipers (Eurynorhynchus pygmeus) based on residual convolutional neural network model[J]. Journal of Tropical Biology, 2023, 14(5): 481-489. doi: 10.15886/j.cnki.rdswxb.20220088

基于残差卷积神经网络模型的勺嘴鹬动作识别

doi: 10.15886/j.cnki.rdswxb.20220088
详细信息
    第一作者:

    杨雪珂(1997−),女,海南大学林学院2020级硕士研究生. E-mail:15136910537@163.com

    通信作者:

    刘辉(1988−),男,博士. 讲师. 研究方向:热带野生动物保护. E-mail:liuhui_leen@163.com

  • 中图分类号: Q 958

Action recognition of spoon-billed sandpipers (Eurynorhynchus pygmeus) based on residual convolutional neural network model

  • 摘要: 为开启海南热带地区鸻鹬类涉禽的动作识别以及其他野生鸟类行为学自动识别的研究,建立了基于野外采集影像的勺嘴鹬(Eurynorhynchus pygmeus)动作图像数据集。该数据集由表达勺嘴鹬主要行为模式的9种动作标签组成;同时利用ResNet50、ResNet101和ResNet152共3种残差卷积神经网络模型尝试对勺嘴鹬的动作进行自动识别。结果表明,ResNet50、ResNet101、ResNet152测试集准确率分别为96.90%、 96.94%和96.90%,说明3种模型都能对勺嘴鹬图像进行快速准确的动作识别。
  • 图  2  残差网络数据分析流程图

    图  3  3种模型的损失和准确率

    图  4  3种模型的精度、召回率及F1-score

    图  5  测试集勺嘴鹬图像识别后统计的混淆矩阵

    注:0~8分别表示抖羽、踱步、进食、猎食、理羽、觅食、休憩、洗浴和振翅9种动作标签。

    表  1  勺嘴鹬的动作分类及定义

    动作标签描 述图 像
    理羽 用喙部梳理、修饰身体不同部位羽毛的过程
    猎食 狩猎食物的一种警戒状态,一般表现为不停转圈、直立伸长脖颈等观察食物位置的一系列动作
    抖羽 使羽毛微微鼓起或竖起,抖动羽毛的过程
    进食 吞咽食物的一系列动作
    觅食 将喙部贴在水面或深入水下寻觅食物的过程
    踱步 脖子或身子略向前倾,脚抬起往前的过程
    休憩 头颈后转、喙前端埋于翅下或头颈略为回缩、闭眼静止不动的行为
    洗浴 将身体浸入水中或在水体表面,通过颈部伸缩、翅膀的快速抖动及身体摆动等动作将水遍布身体,清洗身体的过程
    振翅 大幅度拍打翅膀或翅膀完全张开的过程
    下载: 导出CSV

    表  2  动作标签数据集

    动作标签数量/张训练集/张验证集/张测试集/张
    理羽4632709090
    猎食229893030
    抖羽126742525
    进食69321111
    觅食4071966666
    踱步191933132
    休憩1711003434
    洗浴4012408081
    振翅90521718
    总数21741146384387
    下载: 导出CSV

    表  3  ResNet50、ResNet101和ResNet152模型的准确率和训练时长

    模型训练集
    准确率/%
    验证集
    准确率/%
    测试集
    准确率/%
    训练时
    长/( s·轮)
    ResNet5092.4196.6196.9089.78
    ResNet15290.4995.3196.90101.87
    ResNet10187.8797.4096.6495.53
    下载: 导出CSV
  • [1] 王丞, 冉伟, 杨朝辉, 等. 梵净山保护区主要雉类的繁殖期栖息地选择与空间分布[J]. 林业科学, 2020, 56(11): 134 − 142. doi:  10.11707/j.1001-7488.20201114
    [2] SULLIVAN B L, WOOD C L, ILIFF M J, et al. eBird: A citizen-based bird observation network in the biological sciences [J]. Biological Conservation, 2009, 142(10): 2282 − 2292. doi:  10.1016/j.biocon.2009.05.006
    [3] 肖治术, 王学志, 黄小群. 青城山森林公园兽类和鸟类资源初步调查: 基于红外相机数据[J]. 生物多样性, 2014, 22(6): 788 − 793.
    [4] WELINDER P, BRANSON S, MITA T, et al. Caltech-UCSD Birds 200[J]. California Institute of Technology. 2010:CNS-TR-2010-001. .
    [5] BERG T. BELHUMEUR P N. Poof: Part-based one-vs. -one features for fine-grained categorization, face verification, and attribute estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013: 955-962.
    [6] YAO B, BRADSKI G, Fei-Fei L. A codebook-free and annotation-free approach for fine-grained image categorization[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2012:3466-3473.
    [7] YANG S, BO L, WANG J, et al. Unsupervised template learning for fine-grained object recognition [J]. Advances in neural information processing systems, 2012,: 3122-3130.
    [8] 周智恒, 牛畅, 尚俊媛, 等. 一种基于结构保持零样本学习的鸟类濒危物种识别方法: CN110717512A[P]. 2023-04-07.
    [9] 李鹏博, 王向文. 基于深度特征融合生成的密集人群计数网络[J]. 计算机应用与软件, 2021, 38(3): 153 − 158. doi:  10.3969/j.issn.1000-386x.2021.03.023
    [10] 李婧, 吴俊峰, 于红. 一种基于冗余裁剪的鱼群密度估计算法[J]. 计算机与数字工程, 2020, 48(12): 2864 − 2868. doi:  10.3969/j.issn.1672-9722.2020.12.012
    [11] WANG Z, WANG J, LIN C, et al. Identifying habitat elements from bird images using deep convolutional neural networks [J]. Animals, 2021, 11(5): 1263. doi:  10.3390/ani11051263
    [12] 王鹏, 唐尚波, 陆舟, 等. 广西山心沙岛的春季水鸟群落[J]. 野生动物学报, 2019, 40(4): 957 − 963. doi:  10.3969/j.issn.1000-0127.2019.04.019
    [13] 李亚召, 云利军, 叶志霞, 等. 基于卷积神经网络的霉变烟叶图像识别方法研究[J]. 计算机工程与科学, 2021, 43(3): 473 − 479. doi:  10.3969/j.issn.1007-130X.2021.03.012
    [14] 刘仲博. 基于卷积神经网络的电选粉煤灰颗粒图像识别与烧失量预测模型[J]. 中国矿业, 2021, 30(5): 125 − 129. doi:  10.12075/j.issn.1004-4051.2021.05.030
    [15] 陈恒晟, 王军, 毛毅, 等. 基于协同特征的显著性目标检测算法[J]. 通信技术, 2021, 54(8): 1883 − 1890. doi:  10.3969/j.issn.1002-0802.2021.08.012
    [16] 郑秋梅, 谭丹, 王风华. 基于改进ResNet网络的交通标志识别研究[J]. 计算机与数字工程, 2021, 49(5): 947 − 951. doi:  10.3969/j.issn.1672-9722.2021.05.016
    [17] JANGRA M, DHULL S K , SINGH K K, et al. ECG arrhythmia classification using modified visual geometry group network (mVGGNet)[J]. Journal of Intelligent & Fuzzy Systems. 2020,38(3) : 3151–3165.
    [18] WAGLE S A, HARIKRISHNAN R. Comparison of Plant Leaf Classification Using Modified AlexNet and Support Vector Machine [J]. Traitement du Signal, 2021, 38(1): 79 − 87. doi:  10.18280/ts.380108
    [19] BOBKOWSKA K, BODUS-OLKOWSKA I. Potential and Use of the Googlenet Ann for the Purposes of Inland Water Ships Classification [J]. Polish Maritime Research, 2020, 27(4): 170 − 178. doi:  10.2478/pomr-2020-0077
    [20] 柳天滋, 陈昕, 李想, 等. 基于深度残差神经网络迁移学习的牙形刺图像识别[J]. 古生物学报, 2020, 59(4): 512 − 523. doi:  10.19800/j.cnki.aps.2020.042
    [21] 史春妹, 谢佳君, 顾佳音, 等. 基于目标检测的东北虎个体自动识别[J/OL]. 生态学报, 2021(12): 1-9.
    [22] 石鑫鑫, 鱼昕, 刘铭. FCNN深度学习模型及其在动物语音识别中的应用[J]. 吉林大学学报(信息科学版), 2021, 39(1): 60 − 65. doi:  10.19292/j.cnki.jdxxp.2021.01.009
    [23] 刘文定, 李安琪, 张军国, 等. 基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别[J]. 北京林业大学学报, 2018, 40(8): 123 − 131. doi:  10.13332/j.1000-1522.20180141
    [24] 陈斌, 朱晋宁, 东一舟. 基于残差整流增强卷积神经网络的表情识别[J]. 液晶与显示, 2020, 35(12): 1299 − 1308. doi:  10.37188/YJYXS20203512.1299
    [25] 曲方圆, 李淑芸, 赵林林, 等. 黄海生态区保护空缺分析[J]. 生物多样性, 2021, 29(3): 385 − 393. doi:  10.17520/biods.2020443
    [26] 彭鹤博, 蔡志扬, 章麟, 等. 勺嘴鹬在中国的分布状况和面临的主要威胁[J]. 动物学杂志, 2017, 52(1): 158 − 166. doi:  10.13859/j.cjz.201701021
    [27] 马天, 张国钢, Syroechkovski E E, 等. 俄罗斯远东地区勺嘴鹬繁殖地夏季水鸟调查[J]. 动物学杂志, 2018, 53(4): 507 − 518.
    [28] AUNG P P, MOSES S, CLARK N A, et al. Recent changes in the number of spoon-billed sandpipers Calidris pygmaea wintering on the Upper Gulf of Mottama in Myanmar [J]. Oryx, 2018, 54(1): 23 − 7.
    [29] CLARK N A. , ANDERSON G Q A, LI J, et al. First formal estimate of the world population of the Critically Endangered spoon-billed sandpiper Calidris pygmaea [J]. Oryx, 2018, 52(1): 137 − 146.
    [30] 冯尔辉, 陈伟, 廖宝文, 等. 海南东寨港红树林湿地鸟类监测与研究[J]. 热带生物学报, 2012, 3(1): 73 − 77. doi:  10.15886/j.cnki.rdswxb.2012.01.003
    [31] 褚梦凡, 肖晓彤, 丁杨, 等. 海南儋州湾红树林区沉积有机质来源及碳储量[J]. 海洋科学, 2021, 45(2): 22 − 31.
    [32] 马维, 王瑁, 王文卿, 等. 海南岛西海岸红树林软体动物多样性[J]. 生物多样性, 2018, 26(7): 707 − 716.
    [33] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]//2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017, Venice, Italy. 2017: 618-626.
    [34] 龚安, 姚鑫杰, 杜波, 等. 基于集成学习与生成对抗网络的皮肤镜图像分类方法[J]. 科学技术与工程, 2021, 21(3): 1071 − 1076.
    [35] 王国伟, 刘嘉欣. 基于卷积神经网络的玉米病害识别方法研究[J]. 中国农机化学报, 2021, 42(2): 139 − 145. doi:  10.13733/j.jcam.issn.2095-5553.2021.02.021
    [36] 孙海蓉, 潘子杰, 晏勇. 基于深度卷积自编码网络的小样本光伏热斑识别与定位[J]. 华北电力大学学报(自然科学版), 2021, 48(4): 91 − 98.
    [37] 何海明, 齐冬莲, 张国月, 等. 快速高效去除图像椒盐噪声的均值滤波算法[J]. 激光与红外, 2014, 44(4): 469 − 472. doi:  10.3969/j.issn.1001-5078.2014.04.25
    [38] 魏书伟, 曾上游, 周悦, 等. 基于并行残差卷积神经网络的多种树叶分类[J]. 现代电子技术, 2020, 43(9): 96 − 100. doi:  10.16652/j.issn.1004-373x.2020.09.023
    [39] 潘兵, 曾上游, 杨远飞, 等. 基于双网络级联卷积神经网络的设计[J]. 电光与控制, 2019, 26(2): 57 − 61. doi:  10.3969/j.issn.1671-637X.2019.02.012
    [40] 张怡, 赵珠蒙, 王校常, 等. 基于ResNet卷积神经网络的绿茶种类识别模型构建[J]. 茶叶科学, 2021, 41(2): 261 − 271. doi:  10.3969/j.issn.1000-369X.2021.02.011
    [41] 陆雅诺, 陈炳才. 基于注意力机制的小样本啤酒花病虫害识别[J]. 中国农机化学报, 2021, 42(3): 189 − 196.
    [42] NASIRAHMADI A, STURM B, EEWARDS S, et al. Deep learning and machine vision approaches for posture detection of individual pigs [J]. Sensors, 2019, 19(17): 3738. doi:  10.3390/s19173738
    [43] ELPELTAGY M, SALLAM H. Automatic prediction of COVID− 19 from chest images using modified ResNet50 [J]. Multimedia tools and applications, 2021, 80(17): 26451 − 26463. doi:  10.1007/s11042-021-10783-6
    [44] 李恒, 张黎明, 蒋美容, 等. 一种基于ResNet152的红外与可见光图像融合算法[J]. 激光与光电子学进展, 2020, 57(8): 128 − 134.
    [45] RAUBER J, ZIMMERMANN R, BETHGE M, et al. Foolbox native: Fast adversarial attacks to benchmark the robustness of machine learning models in pytorch, tensorflow, and jax [J]. Journal of Open Source Software, 2020, 5(53): 2607. doi:  10.21105/joss.02607
    [46] KOIRO E, GIMPLE G, LAMMICH S, et al. Low cholesterol stimulates the nonamyloidogenic pathway by its effect on the α-secretase ADAM 10 [J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(10): 5815 − 5820. doi:  10.1073/pnas.081612998
    [47] HUANG H, XU H, WANG X, et al. Maximum F1-score discriminative training criterion for automatic mispronunciation detection [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(4): 787 − 797. doi:  10.1109/TASLP.2015.2409733
    [48] 劳凤丹, 滕光辉, 李军, 等. 机器视觉识别单只蛋鸡行为的方法[J]. 农业工程学报, 2012, 28(24): 157 − 163.
    [49] 李文博. 基于深度神经网络算法的眼底图像语义分割研究[D]. 上海:上海应用技术大学, 2021. DOI: 10.27801/d.cnki.gshyy.2021.000212.
    [50] WILLIAMS H J, HOLTON M D, SHEPARD E L C, et al. Identification of animal movement patterns using tri-axial magnetometry [J]. Movement ecology, 2017, 5(1): 1 − 14. doi:  10.1186/s40462-016-0093-6
  • [1] 张小海, 罗理想, 陈泽恒, 卢刚, 黄福林, 黎方毅, 翟瑞浩.  海南新盈红树林国家湿地公园鸟类多样性研究 . 热带生物学报, 2023, 14(2): 189-195. doi: 10.15886/j.cnki.rdswxb.2023.02.008
    [2] 邓渊, 赖军, 毛梦迪, 张越冉, 李淳, 杨君, 王守创, 罗杰.  通过整合转录组与代谢组解析不同类型椰子的脂肪酸调控网络 . 热带生物学报, 2022, 13(5): 478-487. doi: 10.15886/j.cnki.rdswxb.2022.05.008
    [3] 孙亮, 柯宇航, 刘辉, 胡义钰, 冯成天, 刘文波, 王真辉, 张宇, 郑服从.  计算机视觉技术在植物病害识别上的研究进展 . 热带生物学报, 2022, 13(6): 651-658. doi: 10.15886/j.cnki.rdswxb.2022.06.016
    [4] 符钉辉, 丁伟品, 龙军桥, 黄赞慧, 张小海, 陈泽恒.  海南岛湿地鸟类的资源调查及多样性研究 . 热带生物学报, 2022, 13(2): 120-126. doi: 10.15886/j.cnki.rdswxb.2022.02.003
    [5] 周诗正, 陈琳, 颜洪, 傅鹏程.  基于深度神经网络的芯片上活体虫黄藻检测 . 热带生物学报, 2022, 13(5): 451-456. doi: 10.15886/j.cnki.rdswxb.2022.05.004
    [6] 张转丹, 肖正泮, 武新丽, 孙艳, 罗应, 吴昊, 韦双双, 裴业春, 王大勇.  鱼类神经坏死病毒衣壳蛋白MCP和鮰爱德华氏菌外膜蛋白ompN1融合基因的原核表达 . 热带生物学报, 2020, 11(2): 145-155. doi: 10.15886/j.cnki.rdswxb.2020.02.004
  • 加载中
图(5) / 表 (3)
计量
  • 文章访问数:  555
  • HTML全文浏览量:  279
  • PDF下载量:  23
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-10-22
  • 录用日期:  2023-02-24
  • 修回日期:  2023-01-24
  • 网络出版日期:  2023-04-27
  • 刊出日期:  2023-09-25

基于残差卷积神经网络模型的勺嘴鹬动作识别

doi: 10.15886/j.cnki.rdswxb.20220088
    作者简介:

    杨雪珂(1997−),女,海南大学林学院2020级硕士研究生. E-mail:15136910537@163.com

    通讯作者: 刘辉(1988−),男,博士. 讲师. 研究方向:热带野生动物保护. E-mail:liuhui_leen@163.com
  • 中图分类号: Q 958

摘要: 为开启海南热带地区鸻鹬类涉禽的动作识别以及其他野生鸟类行为学自动识别的研究,建立了基于野外采集影像的勺嘴鹬(Eurynorhynchus pygmeus)动作图像数据集。该数据集由表达勺嘴鹬主要行为模式的9种动作标签组成;同时利用ResNet50、ResNet101和ResNet152共3种残差卷积神经网络模型尝试对勺嘴鹬的动作进行自动识别。结果表明,ResNet50、ResNet101、ResNet152测试集准确率分别为96.90%、 96.94%和96.90%,说明3种模型都能对勺嘴鹬图像进行快速准确的动作识别。

English Abstract

杨雪珂,蒙金超,冯悦恒,等. 基于残差卷积神经网络模型的勺嘴鹬动作识别[J]. 热带生物学报,2023, 14(5):481−489. doi:10.15886/j.cnki.rdswxb.20220088 doi:  10.15886/j.cnki.rdswxb.20220088
引用本文: 杨雪珂,蒙金超,冯悦恒,等. 基于残差卷积神经网络模型的勺嘴鹬动作识别[J]. 热带生物学报,2023, 14(5):481−489. doi:10.15886/j.cnki.rdswxb.20220088 doi:  10.15886/j.cnki.rdswxb.20220088
YANG Xueke, MENG Jinchao, FENG Yueheng, LIN Tingting, WANG Zhaojun, LIU Hui. Action recognition of spoon-billed sandpipers (Eurynorhynchus pygmeus) based on residual convolutional neural network model[J]. Journal of Tropical Biology, 2023, 14(5): 481-489. doi: 10.15886/j.cnki.rdswxb.20220088
Citation: YANG Xueke, MENG Jinchao, FENG Yueheng, LIN Tingting, WANG Zhaojun, LIU Hui. Action recognition of spoon-billed sandpipers (Eurynorhynchus pygmeus) based on residual convolutional neural network model[J]. Journal of Tropical Biology, 2023, 14(5): 481-489. doi: 10.15886/j.cnki.rdswxb.20220088
  • 随着科技的发展,鸟类图像的大量采集变得更加便捷,可利用图像采集设备(如红外相机[1]、普通相机)采集,也可利用智能手机采集。随着鸟类数据共享平台(eBird[2]、中国爱鸟网等)的建立,来自世界各地的大量鸟类图像数据被上传至网络数据库。仅以eBird为例,已有超过2 000万张鸟类图像被上传至该平台,并且图像数量依旧在迅速增长。鸟类图像记录了鸟类形态学特征、生境信息[3]及行为学特征,对鸟类学研究有着重要的价值,但面对如此大量的鸟类图像数据,仅凭人工处理是无法满足需求的。为了能快速自动化处理大量的鸟类图像数据,深度学习(Deep Learning)领域的研究人员已经开展了相关研究。图像识别技术应用于鸟类物种识别已有一些成功案例,在标准鸟类图像数据库CUB200-2011[4]的技术报告中,Welinder等[4]就使用局部区域和基于传统特征的词包模型实现分类,Berg等[5]提出POOF特征,Yao[6]和Yang[7] 等均尝试使用模板匹配的方法替换定位算法中的滑动窗口,以降低算法复杂度。基于图像识别技术的珍稀濒危鸟类的行为识别具有重大应用价值[8],但整体看来,目前的研究主要涉及计数[9]、密度估计[10]、生境因素识别[11]等。虽然目前自动监测获得的影像数据量极大,其中很大一部分行为表达数据对于无人为干扰下鸟类行为的研究很有价值,但是目前使用这种方式对野生鸟类行为学进行的研究少之又少。动物通常以身体运动和身体姿势来表达行为,动物的行为是其对环境和生理状况的一种反应,为研究动物健康水平提供了重要的线索[12],所以进行动物行为识别或动作识别是十分必要的。

    卷积神经网络(Convolutional Neural Networks, CNN)为深度学习的代表算法之一,其在图像识别领域展现了非常大的潜力和极佳的性能[13-15]。经典的神经网络模型包括ResNet[16]、VGG Net[17]、ALexNet[18]、GoogLeNet[19]等,其中,残差网络(Residual Network, ResNet)良好地解决了网络加深带来的学习退化问题,该模型目前在各领域取得了广泛应用[20]。目前利用卷积神经网络来实现野生动物自动识别的研究较多。史春妹等[21]运用单次多盒目标检测方法来进行东北虎的个体识别,达到97.4%的准确率。石鑫鑫等[22]提出了一种全连接算法与稀疏连接算法相结合的全卷积神经网络解决了蛙声识别问题,准确率达到99.67%。还有使用基于感兴趣区域与卷积神经网络的野生动物物种自动识别方法实现了基于野生动物监测图像的物种识别研究,平均识别率均可达到90%左右[23]。残差网络模型的应用研究成果对于鸟类图像大数据的有效利用有着重要的辅助作用,但仍不能满足实际需要,仍缺乏应用卷积神经网络进行野生鸟类的动作自动化识别研究[24]

    勺嘴鹬隶属鹬科(Scolopacidae)滨鹬属(Calidris), 是一种仅分布于东亚–澳大利西亚候鸟迁徙路线上的涉禽[25],被世界自然保护联盟(IUCN)红色名录列为极度濒危(CR)物种。其在我国的江苏、浙江、福建、广东、海南等省份均有被记录到,其中,海南儋州湾是海南岛目前已知的为数不多的勺嘴鹬的为数不多的越冬地。繁殖期以外的时期,勺嘴鹬只在滨海滩涂湿地有分布,觅食地主要为潮间带的滩涂[26]。目前,国内外主要利用环志等回收数据,开展勺嘴鹬的栖息地保护[27]、种群数量[28]和分布区系[29]等的研究,未涉及其行为动作的识别。因此,笔者尝试使用卷积神经网络模型(ResNet50、ResNet101和ResNet152)进行勺嘴鹬动作的自动识别研究,以期开启海南热带地区鸻鹬类[30]涉禽的动作识别以及其他野生鸟类行为学自动识别的研究。

    • 儋州湾(109°02′~109°36′E,19°33′~20°01′N)位于海南省儋州市中北部,由北部湾伸入洋浦半岛进而形成的半封闭内湾, 面积约为 50 km2。该区域属于季风性气候,冬季干燥、夏季湿润,年平均降雨量约1 426 mm,年均气温23.1 ℃[31]。儋州湾于1986年被设立为市级自然保护区,红树林面积约133 hm2,是黑脸琵鹭(Platalea minor)、小青脚鹬(Tringa guttifer)、勺嘴鹬等珍稀濒危迁徙涉禽的重要越冬地和停歇地[32]

    • 数据采集于2020-11-21—2021-03-20,采集时间段主要集中在9:00-17:30,共获得42份用相机拍摄的勺嘴鹬视频(佳能SX60HS长焦数码相机、尼康D500单反相机和尼康Z6微单相机,视频尺寸为1920×1080 30p)。将采集的数据进行预处理:1)通过查找相关文献、咨询专家和快速浏览现有视频资料确定可以用于识别勺嘴鹬动作的标签(表1);2)将42份视频数据解帧(每5秒解帧,有重复的图片只保留1张,再进行人工修正),共获得66 875张勺嘴鹬图像;3)删除勺嘴鹬与其他鸟类同框的图像和因拍摄抖动或对焦失败形成的模糊图像,手动筛选相应标签的图像(每1张图像包含1种标签),并在筛选结束后创建以标签命名的文件夹,最后共获得9个标签文件夹;4)使用Grad-Cam[33]对3种模型的预测结果进行可视化处理(图1)。图1中橙色部分表示模型是基于这些区域判断出图像中的动作类别。

      表 1  勺嘴鹬的动作分类及定义

      动作标签描 述图 像
      理羽 用喙部梳理、修饰身体不同部位羽毛的过程
      猎食 狩猎食物的一种警戒状态,一般表现为不停转圈、直立伸长脖颈等观察食物位置的一系列动作
      抖羽 使羽毛微微鼓起或竖起,抖动羽毛的过程
      进食 吞咽食物的一系列动作
      觅食 将喙部贴在水面或深入水下寻觅食物的过程
      踱步 脖子或身子略向前倾,脚抬起往前的过程
      休憩 头颈后转、喙前端埋于翅下或头颈略为回缩、闭眼静止不动的行为
      洗浴 将身体浸入水中或在水体表面,通过颈部伸缩、翅膀的快速抖动及身体摆动等动作将水遍布身体,清洗身体的过程
      振翅 大幅度拍打翅膀或翅膀完全张开的过程

      图  1  Grad-CAM热力图

    • 由于目前没有用于识别勺嘴鹬动作的公共数据集,因此,笔者建立了1个由猎食、觅食、休憩、理羽、洗浴、抖羽、振翅和踱步9种动作标签构成的共2 174张图片的数据集(表2),该数据集按照 3∶ 1∶ 1的比例随机划为训练集、验证集和测试集[34]

      表 2  动作标签数据集

      动作标签数量/张训练集/张验证集/张测试集/张
      理羽4632709090
      猎食229893030
      抖羽126742525
      进食69321111
      觅食4071966666
      踱步191933132
      休憩1711003434
      洗浴4012408081
      振翅90521718
      总数21741146384387
    • 卷积神经网络包含多个卷积层、池化层和全连接层[35]。卷积层和池化层是提炼图像特征关键部分的模型,全连接层能够在高层次特征域内把图像分类作为主要实现的图像映射[36-38]。卷积神经网络也可以被认为是由特征提取器和分类器2个部分组成,具有端到端特征提取和分类的特性。在卷积神经网络的结构中,卷积的层次更深,网络学习的能力也就更强,那么特征图能得到的信息也会更全。然而,随着网络层次和结构逐渐加深,网络内的计算量也将随之增多,进而导致网络也变得更为复杂,同时可能会导致梯度消失和网络退化等问题[39],从而导致识别效果和稳定性都不理想。

      残差网络(ResNet)是最近十多年以来相关领域研究人员提出的最新关于执行计算机领域视觉任务的一种典型的卷积神经网络,因其加入了残差模块从而减少了随网络深度的增加而引起的梯度消失的问题[40],一方面减少了参数数量,另一方面在网络中增加了直连通道,增加了卷积神经网络对特征的学习能力[41]。鉴于此背景,笔者使用ResNet101[42]、ResNet50[43]和ResNet152[44]3种不同层数的残差卷积网络模型作为本研究的基本网络。

      因本研究数据集的图像相对较少,所以采用残差网络迁移学习[20]的方法, 将前人训练 ImageNet 图像数据集得到的不同深度残差网络模型的模型参数当作勺嘴鹬图像训练3种网络模型的初始化值, 然后把预训练网络内的最后一层的全连接层输出替换为本研究的勺嘴鹬图像数据集的类别数9,以此为基础,再将勺嘴鹬图像识别模型进行下一步训练(图2)。

      图  2  残差网络数据分析流程图

    • 实验中所有代码均是在 PyTorch[45]神经网络框架下完成的。本研究选用的是PyTorch1.3.1,框架环境为GPU: Tesla V100Mem: 32 GB,操作系统是Linux Cento OS 7.2服务器。

    • 本研究所用模型是以经典的ResNet50、ResNet101和ResNet152模型为基础进行新的改善,网络结构超参数具体设置分别为损失函数设置为交叉熵函数;优化器设置为自适应矩估算法;学习率设置为0.0001;训练轮数为100;批量为64。

    • 本研究采用自适应矩估计(Adam)方法[46]进行模型的优化。图像分类评估中常用的评价指标有准确率(精度)、精确率、召回率和F1-score[47],在此基础上本研究添加模型训练时长作为模型的评价指标。根据真实标签和预测结果,将所有测试图像分为4类。总共有4个基本数:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。正确预测的测试图像的数量由TPTN表示,错误预测的图像的数量由FNFP表示。准确率就是正确分类样本所占总样本的比率,能够衡量分类器对于总样本的判断能力[33]。精确率又称查准率,值越高说明正确分类率越高。召回率又称查全率,值越高说明识别得越全面。F1-score表示的是算法的综合性能,可以平衡召回率和准确率的影响,其取值范围为0~1,值越大表示算法性能越好。以上评价标准形式化定义如下:

      $$ \mathrm{准}\mathrm{确}\mathrm{率}=\frac{TP+TN}{TP+TN+FP+FN} \;, $$
      $$ \mathrm{精}\mathrm{确}\mathrm{率}=\frac{TP}{TP+FP}\;, $$
      $$ \mathrm{召}\mathrm{回}\mathrm{率}=\frac{TP}{TP+FN}\;, $$
      $$ F1-score=2\times \frac{Recall\times Precision}{Recall+Precision} \;,$$

      式中:阳性与阴性是相对的,若阳性代表觅食,阴性代表踱步;TP为真阳性(true positive)图像数目,真阳性则证明这个图像在整个预测分类的结果和标记标签中属于觅食;FP为假阳性(false positive)图像数目,假阳性证明此图像标记标签是觅食,但是在预测分类结果中为踱步;TN为真阴性(true negative)图像数目,真阴性证明该图像标记标签为踱步,并且对其预测的结果也属于踱步;FN(false negative)是假阴性图像数目,假阴性是图像标记标签踱步,但在预测的分类结果里是觅食[26]

    • 随着训练轮数的增加,每个模型的预测值与真实值之间的损失都呈下降趋势,验证集中的准确性都呈上升趋势(图3)。最后,随着训练轮数增多,每个模型的验证准确率都趋于稳定,仅存在小幅波动,这表明网络得到了充分的训练。

      图  3  3种模型的损失和准确率

    • 从准确率来说,3种网络模型准确率之间的差别较小,不同模型的验证集准确率和测试集准确率都在95%以上,说明模型的泛化能力良好(表3)。模型在每轮训练时长上都有较快的速度,时长由短到长依次为ResNet50、ResNet101和ResNet152,其中,ResNet50和ResNet152测试集准确率都是96.90%,ResNet101测试集准确率为96.64%,低于其他2个模型。ResNet50训练时长是89.78 s·轮,ResNet152训练时长是101.87 s·轮,在同样准确率的情况下,ResNet50训练时长低于ResNet152。

      表 3  ResNet50、ResNet101和ResNet152模型的准确率和训练时长

      模型训练集
      准确率/%
      验证集
      准确率/%
      测试集
      准确率/%
      训练时
      长/( s·轮)
      ResNet5092.4196.6196.9089.78
      ResNet15290.4995.3196.90101.87
      ResNet10187.8797.4096.6495.53
    • 图4展示了不同模型在数据集上的评价指标结果。进食动作标签在ResNet101和ResNet152模型的F1-score值偏低于0.90,除此之外的其他动作标签在不同的模型的F1-score值都高于0.90,表明本研究算法的综合性能较好。在模型精度方面,除踱步和进食2种动作标签的精度在ResNet50和ResNet101上低于0.90,其余标签的精度都不低于0.90,说明3种模型在识别动作标签时都有较强的识别能力。在召回率方面,进食标签在ResNet152上的召回率在0.80以下,其余标签在不同的模型上召回率都在0.80以上,且大部分高于0.90,说明进食动作识别得不够全面。

      图  4  3种模型的精度、召回率及F1-score

    • 图5对角线上表示在测试集中预测正确的图像数量,其余为预测错误的数量。模型对一些动作的识别容易存在误判现象,如ResNet50模型在识别猎食和踱步时错判最多,有4张猎食被错判成踱步;ResNet101模型有2张抖羽被错判成理羽;ResNet152模型有3张进食被错判成觅食。ResNet50、ResNet101和ResNet152模型识别错误的图像总数分别是12、13、20张。

      图  5  测试集勺嘴鹬图像识别后统计的混淆矩阵

    • 目前在家禽的动作和行为识别方面已经有了初步研究。劳凤丹等[48]基于人工设计的10种特征利用贝叶斯分类法对单只蛋鸡的行为进行了识别,取得了不错的结果。但文献[48]中蛋鸡的行为识别是在人工设计的特征(如蛋鸡图像的质心点坐标、轮廓面积、移动距离等)的基础上进行的,人工设计的特征往往对领域知识依赖度高,还需要大量的实验测试,可能只在特定的任务上才能获得不错的效果[49]。相比而言,本研究利用卷积神经网络实现“端到端”的方式进行勺嘴鹬动作识别,特征提取和分类过程均由模型自动完成,使用这种方法的门槛被大大降低。Wang等[11]验证了利用深度卷积神经网络从鸟类图像中识别栖息环境元素的可行性,最大识别率达到95.52%,所以笔者期望未来可以进行勺嘴鹬等稀濒危涉禽栖息地的因素识别,进一步推进栖息地选择的研究。本研究的数据集样本相对较少,只实现了9种动作识别,未实现勺嘴鹬所有可能动作的识别,期望未来可以通过补充勺嘴鹬不同动作类别的图像进一步完善勺嘴鹬的其他动作的识别研究。因鸻鹬类涉禽可能存在外观、体型或行为相似的情况(勺嘴鹬与红颈滨鹬),所以模型未来可以推广到鸻鹬类涉禽的动作识别,进一步推动有关濒危珍稀涉禽的保护研究。

      本研究的不足主要有两个。第一,只进行勺嘴鹬的动作研究,所以模型在识别与勺嘴鹬体型、行为等方面差异较大的鸟类时,识别效果可能不大理想。此外,因一些不可避免的环境因素和人为因素,采集的视频数据主要集中在光线较好的9:00-17:30,所以模型可能更适用于在光线良好时间段拍摄图像的识别。本研究中踱步和进食的识别精度低于其他动作的主要原因是数据量不够充足,导致识别某几个标签的时候容易混淆,而且因为静态图像识别动作的缺陷,导致踱步和进食的识别较差,笔者会在后续工作中进行数据补充。第二,使用的是单标签方法来标记勺嘴鹬的动作,而在实际应用时可能会出现1张图像有多标签、部分分类照片较少的情况,迁徙候鸟具有显著的集群行为[50],此类研究往往需要识别1张图像中不同鸟种的不同动作。如果未来通过结合目标检测、图像分割和物种识别等技术,把一群鸟转换成单只鸟进行识别,实现从多种鸟同框的图片中识别出多个不同的动作并用一个框将每个动作分割出来,进一步再通过采集更多的图像数据进行训练,可以使训练模型在实际应用时具有更强的适应性。

      致谢:新英湾红树林保护区陈正平同志和中国热带农业科学院橡胶研究所杨川助理研究员对本研究的野外工作提供了大力的支持,在此深表感谢!

参考文献 (50)

目录

    /

    返回文章
    返回