中文引用格式: 于惠鈞,鄒志豪,康帥. 基于SAM和pix2pix的商品數(shù)據(jù)集生成網(wǎng)絡(luò)[J]. 電子技術(shù)應(yīng)用,2025,51(4):23-28.
英文引用格式: Yu Huijun,Zou Zhihao,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,2025,51(4):23-28.
引言
在現(xiàn)代零售和無人結(jié)算系統(tǒng)中[1],商品識別技術(shù)[2]的準確性和效率對于提升用戶體驗和優(yōu)化商業(yè)運營至關(guān)重要。然而,隨著商品包裝的快速變化,數(shù)據(jù)集的采集和標注工作變得愈發(fā)復(fù)雜和耗時,數(shù)據(jù)集的缺少[3]成為制約商品識別模型性能和應(yīng)用的主要瓶頸。傳統(tǒng)的數(shù)據(jù)集生成方法依賴大量人工標注,不僅耗費大量人力和時間,而且數(shù)據(jù)集更新不及時,無法適應(yīng)市場中商品包裝的頻繁變化,導(dǎo)致模型的泛化能力不足,識別精度下降。
目前,盡管一些數(shù)據(jù)集增強方法已經(jīng)在圖像識別領(lǐng)域取得了進展,但它們在應(yīng)對商品包裝快速變化方面仍然面臨諸多挑戰(zhàn)。首先,現(xiàn)有的商品識別模型大多依賴于靜態(tài)數(shù)據(jù)集,這些數(shù)據(jù)集無法涵蓋所有可能的商品包裝變化。其次,數(shù)據(jù)集的多樣性和豐富性對模型的訓(xùn)練效果至關(guān)重要,但現(xiàn)有方法在生成具有高度真實感的多樣化數(shù)據(jù)集時表現(xiàn)有限。此外,隨著商品種類的增加和市場變化的加速,傳統(tǒng)數(shù)據(jù)集生成方式顯得尤為笨重,難以滿足實際應(yīng)用的需求。因此,如何有效生成與實際結(jié)算場景相似的數(shù)據(jù)集,以提高商品識別模型的魯棒性和識別精度,成為當(dāng)前亟需解決的問題。
為了解決商品數(shù)據(jù)集采集和標注工作的繁瑣問題,本文提出了一種基于分割一切模型(Segment Anything Model,SAM)[4]和圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)(Pixel to Pixel,pix2pix)[5]的商品數(shù)據(jù)集生成網(wǎng)絡(luò),旨在突破傳統(tǒng)數(shù)據(jù)集生成中的瓶頸。該網(wǎng)絡(luò)以單個商品的多角度圖像作為輸入,首先利用基于SAM改進的圖像分割網(wǎng)絡(luò),從單個商品多角度圖像中精準提取出包含目標商品的部分。提取后的商品目標圖像經(jīng)過姿態(tài)擬合后,隨機擺列組合形成商品拼接圖像。最后,這些拼接圖像通過基于pix2pix的圖像生成網(wǎng)絡(luò)轉(zhuǎn)換為接近實際結(jié)算場景的商品結(jié)算圖像。
由于單個商品的多角度圖像易于獲得,并且同一角度的商品只需標注一次,這種方法能夠生成多種拼接圖像,擴展商品擺放的多樣性,以應(yīng)對實際結(jié)算中不同商品擺放的情況。此外,基于pix2pix的圖像生成網(wǎng)絡(luò)可以針對各種實際結(jié)算場景進行訓(xùn)練,從而有效降低環(huán)境因素對商品識別準確率的影響。這一系列優(yōu)化措施使得商品識別系統(tǒng)在快速變化的商業(yè)環(huán)境中更加靈活和準確
本文詳細內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006389
作者信息:
于惠鈞1,2,鄒志豪1,康帥1
(1.湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412007;
2.湖南工業(yè)大學(xué) 電氣與信息工程學(xué)院,湖南 株洲 412007)