近紅外高光譜成像和機器學習的番茄幼苗葉片光合色素預測研究
番茄是一種受歡迎且營養豐富的水果,在全球市場上占據了重要地位。近幾十年來,大量的研究致力于培育出品質更高、抗逆性更強的番茄品種。
果實的品質與幼苗的生長密切相關,因此,有效監控幼苗的生長對于培育優質番茄至關重要。傳統的化學方法在監測植物中大量色素的濃度方面可能會受到限制。
為了克服這些限制,研究人員經常求助于非侵入性、高通量和實時監測技術,例如光譜學和高光譜成像,
這些技術可以在不需要破壞性采樣的情況下評估植物中的色素濃度,并提供有效監測大量植物的能力。
兩種類型的番茄幼苗:未改變的野生型和長下胚軸缺失(HY5)突變體。野生型花青素含量較高,HY5突變體的花青素含量較低。
花青素在植物光合作用中起重要作用,并影響其他色素的積累。兩種苗種在相同的環境條件下培養。
如圖1(a)所示,將幼苗置于頂部和底部有開口的海綿方塊上,使其葉子向上,根向下,將幼苗種植在72孔泡沫板上。
泡沫板被放置在植物工廠的水培架子上,使番茄幼苗的根部能夠接觸到營養液。番茄幼苗以單孔空間分開種植,以減少植物葉片在生長過程中的相互遮蔭,
以確保植物獲得足夠的光線。本研究記錄了番茄幼苗在播種后17、20和23天的光譜數據和色素濃度數據。
從4塊泡沫板中選取144個樣本,每塊泡沫板中包含36棵幼苗。一半的樣本是野生型,另一半是HY5型。
實驗中番茄幼苗的選擇標準是葉片表面平整,以便于光譜圖像的獲取。
共采集了432株幼苗,其中一半為野生型,一半為HY5型。幼苗葉片中色素濃度隨時間的平均值和分布如圖2所示。
這些折現說明了每種光合色素的平均濃度總體上呈上升趨勢。葉綠素濃度在第20天顯著高于第17天,第23天變化不大。
這可能有兩個潛在原因:隨著植物的生長,它可能耗盡了土壤中可用的營養物質。光合色素,如葉綠素,需要氮、鎂等關鍵營養物;植物可能將資源轉向開花、
結果或其他繁殖過程。小提琴圖展示了不同時間間隔中色素濃度的分布,小提琴圖中較寬的部分表明該范圍內樣本數量較多。
每個時間點分組的上部小提琴圖顯示了野生型的分布,而下部小提琴圖代表HY5突變型。HY5是植物生長發育過程中促進光形態發生,
刺激葉綠素和類胡蘿卜素合成的關鍵調控因子。HY5缺失導致下胚軸變長,光形態發生受損導致色素沉著減少。
在主成分分析法中,載荷圖通常用來檢驗特征與主成分之間的關系,每個主成分中原始變量的權重有助于進一步理解所選波長的重要性。
如圖4(a)所示,在21個選定的主成分中,有5個主成分占總載荷的90%以上。曲線的峰谷分別出現在910 nm、950 nm、1130 nm、1400 nm和1450 nm附近,
與番茄幼苗色素的相關性PC4在910 nm左右上升,PC5在1130 nm左右下降,
可能是由于C-H鍵的拉伸和彎曲振動引起的。950 nm和1130 nm附近發生的特征是由于對稱和不對稱振動和旋轉方式對H2O分子的吸收。
1450 nm左右的顯著下降與水的O-H拉伸第一泛音和碳水化合物的存在有關。
如圖4(b)所示,以葉綠素-a的結果為例,CARS經過21次蒙特卡羅采樣迭代后,所選擇的特征總計為37。
所選特征主要集中在950~1150 nm和1400~1480 nm之間。在960 nm處觀察到的吸收峰主要來自于水分子內羥基(OH)的二階頻率加倍,
而在1200 nm附近的衰減被認為是有機物內CH基團的二階振動吸收的結果。另一方面,葉綠素-b和類胡蘿卜素所選擇的波長不同。
然而,它們都緊密地聚集在兩個特定的光譜范圍內:930-1210 nm之間和1350-1550 nm之間的峰谷。
930-1210 nm之間的特征與植物中O-H和C-H鍵的振動有關。綜上所述,這些一致的結果符合光譜學的既定原理,支持了特征提取的驗證。
(a)基于PCA方法的波長權重;(b)CARS法提取葉綠素-a的敏感波長
為了證明特征提取有助于預測性能的提升,進行了全波段對比實驗。表1顯示了不同特征提取方法與PLSR結合時的性能,
其中Np代表預測中使用的特征數量,R2c、R2v和RMSEc、RMSEv分別代表校準集和驗證集上的R2和RMSE值。
如表1所示,通過整合三種特征提取方法,PLSR模型的性能較使用全波段特征有所提升。
以葉綠素-a為例,與全波段相比,PCA、ICA和CARS組合的R2分別提高了0.027、0.030和0.082。
此外,其他三種色素的預測中也發現了相同的改善。因此,這些特征提取方法能有效地移除反射光譜中的無關信息。
此外,在表1中,CARS顯示出更高的R2和更小的RMSE,證明了其相較于其他兩種策略。
雖然PCA和ICA方法傾向于使用較少的特征進行預測,但它們可能無法保留重要的波長。另一方面,CARS展示了更高的準確性和魯棒性。
因此,在接下來的建模討論中采用了CARS來選擇敏感波長。
在特征提取后,對PLSR和ELM進行測試和比較,以確定預測番茄幼苗中色素濃度的最佳模型。采用網格搜索技術確定模型的參數。
當隱藏層節點數設置為30時,ELM達到,預測結果如圖5(a)所示。總體而言,ELM比PLSR具有更高的R2和更低的RMSE,
即ELM在檢測任務中表現出更高的準確性和魯棒性,可能的關鍵因素是數據中非線性關系的存在。
在3種色素中,ELM模型在葉綠素-a的預測精度最高,在測試集上的R2為0.86,在葉綠素-b和類胡蘿卜素數據中表現出幾乎一致的預測性能。
所提出的方法隨后被用于檢測活體番茄幼苗葉片中的色素濃度。該過程包括將原始高光譜圖像作為輸入輸入到預訓練系統,系統隨即生成色素濃度的預測。
如圖5(b)所示,熱圖中的顏色編碼(藍色代表低濃度,紅色代表高濃度)提供了對這些色素分布的直觀理解,結果也確實合理。如預期,葉片中的色素濃度高于莖部。
這與植物生理學的理解一致,葉子是光合作用的主要場所,這些色素在其中發揮關鍵作用。
利用預測的葉綠素和類胡蘿卜素濃度對野生型和HY5型番茄幼苗進行分類。為此訓練了基于邏輯回歸、支持向量機(SVC)和K最近鄰(KNN)的分類模型,
將番茄幼苗的輸入樣本分為野生型和HY5型。模型訓練是在包含三種色素濃度和相應基因型標簽的真實化學數據集上進行的。
然后,使用訓練好的分類器和ELM預測的色素濃度作為測試輸入,來確定番茄幼苗的基因型。分類器的主要結果在表2中進行了總結。
從表中可以觀察到,邏輯回歸和SVC在測試集上達到了最高的準確度得分,約為0.85。
此外,這兩個模型的F1分數和AUC也達到了相對較高的值,分別為0.86和0.85,表明這些模型在處理野生型和HY5型的二分類問題上具有高水平的表現。
葉綠素和類胡蘿卜素的實際濃度是通過化學方法確定的,這些數據作為建模的真實基準。進行了使用不同特征提取算法的實驗,
以驗證提取過程的有效性并通過結果比較識別最佳算法。結果顯示,CARS方法勝過其他方法,成為特征選擇方法。
每種色素的敏感波長都被記錄下來,以備將來應用。基于PLSR和ELM構建的回歸模型進一步用于預測葉綠素a、葉綠素b和類胡蘿卜素的濃度,
結果顯示ELM模型表現更佳,這三種色素的R2分別達到了0.86、0.83和0.83。使用ELM預測的色素濃度作為輸入,
基于邏輯回歸和SVC構建的分類模型用于分類番茄幼苗的基因型,在測試集上達到了0.85的準確度。所提出的方法可以整合到運行在微型計算機上的軟件中,
使用近紅外高光譜相機實時估算色素濃度和基因型。這一概念可能會啟發監測設備的開發,旨在提高植物工廠的效率和生產力。
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。