數(shù)據(jù)中心最新文章

基于預(yù)訓(xùn)練模型的基層治理敏感實(shí)體識(shí)別方法

基層治理產(chǎn)生的大量敏感數(shù)據(jù)可通過(guò)數(shù)據(jù)脫敏去除隱私內(nèi)容,但這些數(shù)據(jù)包含較多非結(jié)構(gòu)化文本數(shù)據(jù),難以直接進(jìn)行數(shù)據(jù)脫敏。因此,需要對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別以提取敏感數(shù)據(jù)。首先把敏感實(shí)體分為16類并對(duì)信訪文本進(jìn)行標(biāo)注,輸入層表示采用預(yù)訓(xùn)練模型BERT,編碼層利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)汲取上下文信息,解碼層通過(guò)條件隨機(jī)場(chǎng)模型優(yōu)化序列,構(gòu)建了較高精度的基層治理敏感實(shí)體識(shí)別模型。針對(duì)脫敏工作需要,改變假陰性和假陽(yáng)性的loss權(quán)重,并采用敏感實(shí)體框選率輔助評(píng)價(jià)模型性能。在基層治理信訪數(shù)據(jù)集和公共數(shù)據(jù)集MSRA上進(jìn)行實(shí)驗(yàn),F(xiàn)1值分別為88.38%和90.11%,相較于基準(zhǔn)模型提升了4.64%和3.78%。該模型可應(yīng)用于非結(jié)構(gòu)化文本的敏感實(shí)體識(shí)別,識(shí)別成功率高。現(xiàn)有評(píng)價(jià)指標(biāo)未能較好地反映敏感實(shí)體的間接推理關(guān)系,應(yīng)當(dāng)探索更完善的敏感實(shí)體評(píng)價(jià)體系。

發(fā)表于:2023/9/25

法律經(jīng)濟(jì)學(xué)視閾下“大數(shù)據(jù)殺熟”的監(jiān)管困境及紓解

“大數(shù)據(jù)殺熟”作為數(shù)字經(jīng)濟(jì)與人工智能算法發(fā)展的負(fù)外部性產(chǎn)物,一直存在理論與實(shí)踐上的爭(zhēng)議。在理論層面,學(xué)界對(duì)“大數(shù)據(jù)殺熟”的認(rèn)知與定性觀點(diǎn)不一,存在差別定價(jià)、價(jià)格欺詐、價(jià)格歧視多種討論。在實(shí)踐層面,“大數(shù)據(jù)殺熟”是一個(gè)綜合性問(wèn)題,在侵犯消費(fèi)者權(quán)益的同時(shí)還涉及反壟斷、信息安全等多個(gè)維度,現(xiàn)行法律規(guī)范與監(jiān)管模式對(duì)該行為的回應(yīng)尚有不足。本文通過(guò)法律經(jīng)濟(jì)學(xué)的分析方法,對(duì)“大數(shù)據(jù)殺熟”進(jìn)行法理基礎(chǔ)的解構(gòu),明確“大數(shù)據(jù)殺熟”的價(jià)格歧視本質(zhì),著重分析消費(fèi)者權(quán)益減損、市場(chǎng)失靈等法律監(jiān)管困境,在此基礎(chǔ)上得出逆向選擇進(jìn)行反歧視、制度創(chuàng)新完善監(jiān)管體系,正本清源強(qiáng)化算法權(quán)力治理等紓解建議,以期實(shí)現(xiàn)提高經(jīng)濟(jì)效率與維護(hù)消費(fèi)者權(quán)益兩大目標(biāo)的衡平。

發(fā)表于:2023/7/24