《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 设计应用 > 基于SAM和pix2pix的商品数据集生成网络
基于SAM和pix2pix的商品数据集生成网络
电子技术应用
于惠钧1,2,邹志豪1,康帅1
1.湖南工业大学 轨道交通学院; 2.湖南工业大学 电气与信息工程学院
摘要: 针对商品包装快速变换带来的商品数据集采集和标注过程繁琐的问题,设计了一种基于SAM和pix2pix的商品数据集生成网络。该网络以单个商品多角度图像作为输入,生成与实际结算场景相近似的数据集。在RPC大型商品数据集上进行数据集生成,在YOLOv7、Fast R-CNN、AlexNet三种目标检测网络上验证生成数据集对目标检测效果的提升。实验结果表明,生成数据集融合到原数据集后用于训练模型能够有效提升商品识别准确率,并且与真实数据集相比具有较好的替代性。相较于原数据集,融合生成数据集三个网络上识别精度分别提升7.3%、4.9%、7.8%。通过该方法,显著提高了模型训练的效率与实用性,减轻传统商品数据集采集与标注所需的人力物力投入。
關(guān)鍵詞: 商品识别 SAM pix2pix 数据集生成
中圖分類號(hào):TP181;TP391.4 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.245759
中文引用格式: 于惠鈞,鄒志豪,康帥. 基于SAM和pix2pix的商品數(shù)據(jù)集生成網(wǎng)絡(luò)[J]. 電子技術(shù)應(yīng)用,2025,51(4):23-28.
英文引用格式: Yu Huijun,Zou Zhihao,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,2025,51(4):23-28.
Product data set generation network based on SAM and pix2pix
Yu Huijun1,2,Zou Zhihao1,Kang Shuai1
1.College of Railway Transportation, Hunan University of Technology; 2.College of Electrical and Information Engineering
Abstract: Aiming at the cumbersome process of collection and labeling of commodity data set caused by rapid change of commodity packaging, this paper designs a commodity data set generation network based on Segment Anything Model (SAM) and Pixel to Pixel (pix2pix). The network uses multi-angle images of a single commodity as input to generate a data set similar to the actual settlement scene. The data set generation test was carried out on Retail Product Checkout Dataset(RPC) set, and the improvement of the generated data set on target detection effect was further verified on YOLOv7, Fast R-CNN and AlexNet target detection networks. The experimental results show that the generated data set can effectively improve the accuracy of commodity recognition, and has better substitution compared with the actual data set. Compared with the original data set, the recognition accuracy of the three networks generated by fusion data set is improved by 7.3%, 4.9% and 7.8%, respectively. Through this method, the efficiency and practicability of model training are significantly improved, and the manpower and material input required for traditional commodity data collection and labeling is reduced.
Key words : commodity identification;SAM;pix2pix;data set generation

引言

在現(xiàn)代零售和無人結(jié)算系統(tǒng)中[1],商品識(shí)別技術(shù)[2]的準(zhǔn)確性和效率對(duì)于提升用戶體驗(yàn)和優(yōu)化商業(yè)運(yùn)營至關(guān)重要。然而,隨著商品包裝的快速變化,數(shù)據(jù)集的采集和標(biāo)注工作變得愈發(fā)復(fù)雜和耗時(shí),數(shù)據(jù)集的缺少[3]成為制約商品識(shí)別模型性能和應(yīng)用的主要瓶頸。傳統(tǒng)的數(shù)據(jù)集生成方法依賴大量人工標(biāo)注,不僅耗費(fèi)大量人力和時(shí)間,而且數(shù)據(jù)集更新不及時(shí),無法適應(yīng)市場中商品包裝的頻繁變化,導(dǎo)致模型的泛化能力不足,識(shí)別精度下降。

目前,盡管一些數(shù)據(jù)集增強(qiáng)方法已經(jīng)在圖像識(shí)別領(lǐng)域取得了進(jìn)展,但它們?cè)趹?yīng)對(duì)商品包裝快速變化方面仍然面臨諸多挑戰(zhàn)。首先,現(xiàn)有的商品識(shí)別模型大多依賴于靜態(tài)數(shù)據(jù)集,這些數(shù)據(jù)集無法涵蓋所有可能的商品包裝變化。其次,數(shù)據(jù)集的多樣性和豐富性對(duì)模型的訓(xùn)練效果至關(guān)重要,但現(xiàn)有方法在生成具有高度真實(shí)感的多樣化數(shù)據(jù)集時(shí)表現(xiàn)有限。此外,隨著商品種類的增加和市場變化的加速,傳統(tǒng)數(shù)據(jù)集生成方式顯得尤為笨重,難以滿足實(shí)際應(yīng)用的需求。因此,如何有效生成與實(shí)際結(jié)算場景相似的數(shù)據(jù)集,以提高商品識(shí)別模型的魯棒性和識(shí)別精度,成為當(dāng)前亟需解決的問題。

為了解決商品數(shù)據(jù)集采集和標(biāo)注工作的繁瑣問題,本文提出了一種基于分割一切模型(Segment Anything Model,SAM)[4]和圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)(Pixel to Pixel,pix2pix)[5]的商品數(shù)據(jù)集生成網(wǎng)絡(luò),旨在突破傳統(tǒng)數(shù)據(jù)集生成中的瓶頸。該網(wǎng)絡(luò)以單個(gè)商品的多角度圖像作為輸入,首先利用基于SAM改進(jìn)的圖像分割網(wǎng)絡(luò),從單個(gè)商品多角度圖像中精準(zhǔn)提取出包含目標(biāo)商品的部分。提取后的商品目標(biāo)圖像經(jīng)過姿態(tài)擬合后,隨機(jī)擺列組合形成商品拼接圖像。最后,這些拼接圖像通過基于pix2pix的圖像生成網(wǎng)絡(luò)轉(zhuǎn)換為接近實(shí)際結(jié)算場景的商品結(jié)算圖像。

由于單個(gè)商品的多角度圖像易于獲得,并且同一角度的商品只需標(biāo)注一次,這種方法能夠生成多種拼接圖像,擴(kuò)展商品擺放的多樣性,以應(yīng)對(duì)實(shí)際結(jié)算中不同商品擺放的情況。此外,基于pix2pix的圖像生成網(wǎng)絡(luò)可以針對(duì)各種實(shí)際結(jié)算場景進(jìn)行訓(xùn)練,從而有效降低環(huán)境因素對(duì)商品識(shí)別準(zhǔn)確率的影響。這一系列優(yōu)化措施使得商品識(shí)別系統(tǒng)在快速變化的商業(yè)環(huán)境中更加靈活和準(zhǔn)確


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006389


作者信息:

于惠鈞1,2,鄒志豪1,康帥1

(1.湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412007;

2.湖南工業(yè)大學(xué) 電氣與信息工程學(xué)院,湖南 株洲 412007)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。