123,123,123

估算美国人口结

日期： 2017-03-01

關(guān)鍵詞： 机器学习算法估算李飞飞

最近，一篇名為《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的論文發(fā)布到了arxiv.org上，作為這篇論文的聯(lián)合作者之一，李飛飛在她的推特上向公眾推薦了這篇論文。這篇論文主要論述了如何將谷歌街景車搜集來(lái)的機(jī)動(dòng)車輛數(shù)據(jù)，結(jié)合機(jī)器學(xué)習(xí)算法，從而估算出本地區(qū)人口的特征和組成，甚至這一地區(qū)居民的政治傾向。

下面是這篇論文的一些節(jié)選內(nèi)容。

幾千年來(lái)，統(tǒng)治者和政策制定者進(jìn)行全國(guó)人口調(diào)查，用來(lái)搜集人口數(shù)據(jù)。在美國(guó)，最細(xì)致的人口調(diào)查工作就是“美國(guó)社區(qū)調(diào)差”(ACS)，由美國(guó)普查局執(zhí)行，每年花費(fèi)10億美元和6500人以上的人力。這是一個(gè)勞動(dòng)密集型數(shù)據(jù)搜集過(guò)程。

最近幾年，計(jì)算方法崛起成為解決社會(huì)科學(xué)領(lǐng)域問(wèn)題的有效方法。比如用Twitter上的數(shù)據(jù)預(yù)測(cè)失業(yè)率、使用書里的大量文本分析文化等等。這些例子表明，計(jì)算方法可以促進(jìn)社會(huì)經(jīng)濟(jì)領(lǐng)域的研究發(fā)展，最終可以詳細(xì)、實(shí)時(shí)地分析人口趨勢(shì)，并且成本很便宜。

我們的研究表明，結(jié)合公共數(shù)據(jù)和機(jī)器學(xué)習(xí)方法，可以得到社會(huì)經(jīng)濟(jì)數(shù)據(jù)和美國(guó)人的政治傾向。我們的流程里，針對(duì)幾個(gè)城市耗費(fèi)少量人力來(lái)搜集數(shù)據(jù)，然后用來(lái)預(yù)測(cè)全美的狀況。

具體而言，我們分析了由谷歌街景汽車在200個(gè)城市里搜集來(lái)的5000萬(wàn)張圖片。我們的數(shù)據(jù)主要是關(guān)于機(jī)動(dòng)車輛，因?yàn)?0%的美國(guó)家庭都擁有至少一輛汽車，而且人們對(duì)汽車的選擇受到多種人口因素的影響，包括家庭需求、個(gè)人偏好和資金等。

基于深度學(xué)習(xí)的CNN計(jì)算機(jī)視覺(jué)框架，不僅能夠在復(fù)雜的街景下識(shí)別出汽車，還能鑒定出一系列汽車特征，包括材料、型號(hào)和年份。對(duì)于一個(gè)未經(jīng)訓(xùn)練的人來(lái)說(shuō)，汽車之間的不同是難以發(fā)覺(jué)的。比如，同一型號(hào)的汽車，不同年份的在尾燈有微小變化(比如2007產(chǎn)的Honda Accord和2008年產(chǎn)Honda Accord)。然而，我們的系統(tǒng)就能夠?qū)⑵嚪殖?657類，每張圖片的分析時(shí)間只需0.2秒。該系統(tǒng)可以在2周時(shí)間里對(duì)5000萬(wàn)張圖片分類，而一個(gè)專業(yè)的人類分類員，假設(shè)他每張需要10秒時(shí)間，將會(huì)花費(fèi)15年的時(shí)間完成這個(gè)任務(wù)。

利用谷歌街景汽車搜集來(lái)5000萬(wàn)張圖片，我們使用圖像識(shí)別算法(Deformable Part Model)來(lái)學(xué)習(xí)自動(dòng)搜集汽車圖片。搜集每一輛汽車圖片后，我們部署CNN模型，用來(lái)進(jìn)行物體分類，來(lái)判定每一輛車的材料、型號(hào)、車型和年份。然后，我們根據(jù)城鎮(zhèn)名字分類數(shù)據(jù)庫(kù)，劃分到兩個(gè)數(shù)據(jù)庫(kù)里。第一個(gè)是"訓(xùn)練庫(kù)"，包含了所有名字以A、B、 C開(kāi)頭的地區(qū)，這個(gè)數(shù)據(jù)庫(kù)包括了35個(gè)城市，訓(xùn)練產(chǎn)生模型;第二個(gè)是“測(cè)試庫(kù)”，包括所有名字以D、Z為開(kāi)頭的地區(qū)，這個(gè)數(shù)據(jù)庫(kù)用來(lái)提升模型。

我們總共搜集了2200萬(wàn)輛(占全美汽車總數(shù)8%)汽車的數(shù)據(jù)，用來(lái)準(zhǔn)確估算這個(gè)地區(qū)的收入、種族、教育和投票程式(voting pattern)。結(jié)果顯示出的關(guān)系出人意料的簡(jiǎn)單和有力。比如，如果在一個(gè)城市里15分鐘的車程中，遇到的轎車數(shù)量高于卡車數(shù)量，那么這個(gè)城市傾向于在下屆大選中投票給民主黨(88%幾率);反之則傾向于投票給共和黨(82%)。我們的結(jié)果表明，自動(dòng)系統(tǒng)監(jiān)測(cè)使用良好的空間分辨率，能夠接近實(shí)時(shí)地監(jiān)測(cè)人口趨勢(shì)，可以有效地輔助勞動(dòng)密集型的調(diào)查方法。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

估算美国人口结

日期： 2017-03-01

相關(guān)內(nèi)容