原標題:
大家好,我叫茅明睿,是一名來自北京市城市規劃設計研究院的規劃師,今天給大家帶來的演講題目是《數據感知城市脈搏》。
脈搏就是人的動脈的搏動,它的振幅和頻率來代表我們人體的生命體徵,所以脈搏的振幅和頻率這兩個數據指標,可以反映一個生命體的健康程度。那麼,城市作為一個複雜的巨系統,同時也是一個生命體,我們要如何去感知城市的脈搏,如何去監測城市的體徵呢?最早將數據、城市和脈搏這些詞結合在一起的案例來自於美國,是一個叫做國家的脈搏的應用,通過一段視頻來感受下美國的國家脈搏。
如果將視頻中按時間將圖片提取出來,能看到一個個形變了的美國地圖,美國的各個州的大小在隨著時間在發生變化,而每一個州的顏色也隨著時間在發生變化,它意味著什麼呢?
這個應用叫做國家的脈搏,它以推特的數據為基礎,通過提取、處理和分析來感知美國國民的情緒,推特是美國的一個社交媒體應用,大體可以理解為微博。美國的學者通過將推特上的這些文字抓取下來,對它進行自然語言處理,提取並分析每一條語句當中的情感,這樣就能知道隨著時間的變化,美國的各個州有多少人在發推特,他們發推特的內容情緒是積極的還是消極的,所以就形成了大小不停變化的、以及顏色從紅色到綠色不停變化的動態地圖。
因此,使用社交媒體的數據可以感知到國民的情緒,這就是用數據監測城市或者國家某類體徵的一個辦法。
當然,數據不止有社交媒體的數據,它只是若干種數據當中的一種,實際上每個人每天在生活中都在産生各種數據,比如説剛才提到的社交媒體數據,還有每天乘坐公交車和地鐵刷卡的記錄,每天用手機打電話、使用APP、瀏覽網頁都可以産生各種數據,以人作為傳感器的話,這些數據都來源於此。此外我們還有大量的以物為傳感器得到的數據,比如説汽車的數據,水錶電表的數據,讀卡器的數據,銀行卡的數據,攝像頭的數據……所以數據來自於方方面面,其中,我們對來自於人的數據有一個稱謂:數字腳印,或者數字陰影。
類似于前文提到的針對推特數據進行的分析,我們也可以用新浪微博數據來感知城市的脈搏。現在看到的這個動畫所用的數據是人們在城市裏不同位置發出的微博,疊加在地圖上可以用來查看民眾在各個時間段的情緒。因為我們發的每一條微博除了具有語意以外,還有時間和地點標簽。所以通過對數據進行分析,將這些微博數據聚合到城市街區地塊上,這樣我們就能知道城市裏每塊土地上的居民,每天是開心還是不開心,以及整個城市哪開心、哪不開心。我們可以看到北京的市民隨著時間的變化,他們的情緒波動與其它因素是否有關;比如説可以看看北京市民的情緒波動,是否跟市區內PM2.5的變化有關。
當然,情緒並不是社交媒體數據的唯一應用,我們還可以感知市民在説什麼話,也就是城市的語意:比如説什麼地方的人在提到大學,什麼地方的人在提到購物。基於這樣一些技術手段,我們能夠感知我們的城市,監測我們城市的語意和情感。例如在我們開發的某一應用系統中,我們為貴陽市做了一個情緒監測的功能平臺。通過它能看到貴陽每個街區內的市民每天都在社交媒體上在説什麼話,這些微博的語意是什麼,市民們每一天的情緒在是如何、因何而出現波動。
我們也可以為景區做遊客的情緒分析服務,比如這是江西的某景區,通過分析遊客在這個景點的遊記和微博,可以看到遊客情緒規律性的波動,在某些時間他們總是情緒比較好的,而在某些月份他們的情緒總是比較低落的。通過進一步分析,我們看到這個景點夏季的時候遊客的情緒相對不太高,但是冬季的時候情緒卻特別好,然而,冬季卻是這個景區遊客最少的時候;所以這些數據和分析結果是否可以向景區管理者給出一些針對景區的運營優化和宣傳的靈感?此外我們還可以通過遊客結構分析,以及不同結構的情緒曲線變化,分析出遊客跟什麼人到這個景點旅遊的情緒最好:看圖可知,如果是小兩口去這個景區,有可能情緒不會太好,但是如果遊客是跟自己的好朋友,或者自己一個人去這裡,他們的情緒總是表現的會比較好一些。
除了景區,我們在城市還有些更有深度的應用。比如在北京的長辛店——這是豐台區的一個老鎮,我們在這裡的規劃當中使用到一種叫做社會感知的辦法,去感知、認知這個地方。我們將提到長辛店這個地方的微博、貼吧、論壇和新聞的語料抓下來,總共300多萬字的語料,通過對這些語料進行自然語言處理,首先能夠知道提到長辛店這個地方的時候,都會提到哪些關鍵詞,市民對於長辛店這裡的整體印像是什麼?當然這個對於指導規劃來説還是不夠的,我們進一步將長辛店有意義的地點,或者説有特徵的地點進行了提取,找到了43個情緒特徵地點,我們將語料跟這43個地點進行了關聯,分析每個地點的語料的語義和情感,就能夠知道居民對於長辛店各個特徵地點到底持有什麼樣的情感,以及在提到這些地點的時候會反映出什麼樣的問題,這樣,最後發現居民對這43個地點有的是持積極態度的、有的是持消極態度的。比如長辛店小學,居民提到長辛店小學的時候會提到聯合國兒童基金會、校園足球、校園餐、蝦排、紅薯餅,所以老百姓喜歡長辛店小學。但是有些地點老百姓就不喜歡,這樣的話我們就可以快速地對城市的體徵進行診斷,知道市民對於城市的各個地點存在什麼樣的意見。我們將這個辦法也擴大到北京的各個地方,將市民反映在微博上、論壇裏的各種意見,跟城市的空間地點進行關聯,能夠讓城市的管理者、城市規劃師知道,在城市的各個地方都分別存在什麼問題。此外我們也可以去感知城市的各個活動的語意,比如説這是之前做的一些旅遊景點,以及北京國際設計周的各個展點,能夠得到特定地點的語意關鍵詞都是什麼。
當然會有人説,我不用新浪微博也不上網,那麼我們還有其他的數據去感知所在城市的體徵,比如説一卡通數據。很多人都會乘坐公交車和地鐵,乘坐公交車和地鐵的時候你就會留下一些印記——刷卡記錄,這些記錄也可以有助於我們來理解我們的城市,比如利用公交的刷卡數據分析居民的出行的情況,左邊這張動圖顯示的是不同的時間,有多少人在城市的不同地點乘坐公交車或者地鐵出行,這可以視為一個城市的甦醒過程;我們也能夠通過大家的刷卡數據去看到,不同地方的人他們都往哪些方向出行,乘坐公交車去哪些地點。所以通過分析可以看到去金融街上班的人群、去CBD上班的人群和去亦莊經濟開發區上班的人,他們分別都是從哪兒來。
交通並不是利用數據來感知城市的唯一一方面,我們還可以進一步去看北京地區上學的情況。我們將中學生和小學生的刷卡記錄提取出來,就能夠發現這些中小學生乘坐公交車和地鐵,都從哪兒出發到哪些學校去上學。有意思的是,你會發現有一些中小學生每天會乘坐20公里以上的公交車和地鐵去他的學校去上學,所以這些學生在上下學的路上浪費了大量的時間和精力,同時你也能夠通過這個結果能夠看到,主要的乘坐公交車和地鐵上學的方向是什麼樣子的。通過這樣的工作就能直觀看出北京的教育資源的分配是否存在問題;儘管教委進行了比較嚴格的學區劃分和就近入學要求,是否仍然還有一些人突破了學區控制,我們會通過這些數據觀測到這種跨區域擇校的情況。
除了去感知通學行為,我們還可以去感知不同的人群:通過乘坐公交車和地鐵的刷卡數據,我們發現有一些市民他們每天早上6點鐘以前就出門了,有的每天晚上十點鐘以後才回家,有的每天花在路上的時間會超過3個多小時,還有的人通勤時一天會坐六趟公交車,這些人在過去五年當中都維持著這樣一個通勤模式,他們可能屬於城市裏面的低收入人群。這樣這些公交卡的擁有者,可能是城市要進行扶貧的對象。同時,我們還能夠觀測到他們生活在哪,他們的出行活動是什麼樣的。
除了低收入人群,我們還可以感知一類特殊的人群——灰色人群,包括地鐵裏的乞討、賣藝的人,以及地鐵裏發小廣告的人等等,這些人都是地鐵運營管理者特別希望能夠去監測到的人群,因為他們會在一定程度上干擾地鐵的正常運行秩序、讓乘客出行的體驗感變低。但是我們卻沒有什麼好的辦法去知道這些人在哪,或者準確定位這些人。然而,通過刷卡記錄數據卻能感知到他們。因為相比起普通乘客,這些灰色人群他們的出行方式,或者出行的行為模式是完全不同的,普通乘客將地鐵作為交通工具,會從A點上車,從B點下車;但是灰色人群他們去將地鐵作為工作場所,所以他們會從A點上車,從A點下車,由於他們進一次站要刷卡,要支付成本,所以他們會在站裏邊待足夠長的時間;而且由於將地鐵視為工作地點,所以他們會像上班的人一樣頻繁地出現在這一個站點。所以基於這樣一個認知,我們可以發現哪些人具有這樣的行為模式,並且能夠找到他們出現比較密集的站點。利用2014年某個時期的北京地鐵刷卡記錄,我們監測到了481個灰色人群,他們居住在地鐵的首末站,城區地鐵和郊區地鐵換乘站附近。還能知道他們都幾點鐘進站,幾點鐘出站。下面我們看一個小的動畫,去看一看這個人群他們在城市裏的活動情況。通過這樣的噴泉效果我們能看到,這481個的灰色人群,每天隨著時間的變化都在城市的什麼地方出沒,他們都在哪一站進站了,或者在哪一站出站了。我們通過大數據的方法能夠去監測到特定人群的行為。
我們還開發了一個系統,通過這個系統看到城市地鐵的運行情況,通過這個動畫能看到地鐵裏每小時進站的人數有多少,出站的人數有多少,我們也看到早上8點鐘宋家莊地鐵站內有多少人在進站,有多少人在出站,進站的人都會去哪兒,出站的人又從哪兒來的,同時我們還知道在這一個小時裏面,進站人都是些什麼人,有多少是普通乘客,有多少是中小學生,有多少是大學生,還有多少是低收入人群,有多少是灰色人群,這就是我們利用一卡通數據所做的一個城市體徵的監測。
我們還有一類覆蓋人群更廣泛的數據。有一些人不一定會持續乘坐地鐵和公交車,但是他們總是會使用手機的,所以利用智慧終端的定位數據就能感知到整個城市中的大部分人群。
智慧終端的定位數據一個比較廣泛的應用形式就是熱力圖,它可以告訴我們隨著時間的演變,城市裏的不同區域的人口密度是什麼樣子的,並通過一個紅色和藍色的熱力方式來去呈現它。熱力圖可以告訴我們很多信息,例如在這張圖上可以看到,同樣是北京的舊城,前門西側的大柵欄區域有非常多的人,而同樣的時間在前門東側鮮魚口和前門東區卻沒有什麼人,這樣一個簡單的數據其實反映了非常深刻的城市問題。怎麼去理解這個鮮明的結果呢,對比這個區域的衛星影像我們發現無論是大柵欄區域,還是前門東區,這兩個區域其實的它們城市的空間形態,衚同的肌理,院落形式保持的都是很完整的,但是為什麼西側會比東側的人流會多這麼多?西側的人口密度會比東側多這麼多,因為這背後是使用的不同的城市更新辦法,在西側大柵欄區域的舊城是使用的微循環和有機城市更新的辦法來對它進行城市的品質提升,所以這裡的居民仍然在這生活,所以這裡維持了一個比較良好的城市活力。
但是在前門東側我們使用的是一個更為激進的拆建改造的辦法,所以這裡的居民很早知道自己要離開這裡,所以儘管這裡的衚同還在、他們房子還沒有拆,但是這裡人的生活很早就沒有了,這個區域沒有居民願意去經營它,所以一個小小的城市人口密度數據,可以反映出非常多的背後的城市問題。
我們將視野放大到全國,其實我們可以監測到全國所有的城市,每一平方公里的土地上它們的人口密度怎麼在變化,比如我們現在這張圖上看到的是春節之前的工作日和大年初一假期,全中國各個地點的人口是怎麼在變化。我們將地圖放大,比如説放大到長三角地區,可以看到在平時的時候,長三角的這些中心城市都有大量的人口,紅色的是人口多的地方,綠色的地方是人口少的地方,但是到了大年初一我們發現城市裏人口數量急劇地減少。這張圖看的更清楚,我們將這兩個數據疊加在一張圖上,我們可以知道藍色的就是人口減少的區域,而紅色的就是大年初一人口增加的地方,這是長三角的情況。這裡是中國的西部,可以看到成都、重慶、貴陽等地都有人口流失這一情況,但是在整個四川省發現大量的農村地區、一些過去沒有人的地方人口顯著增加了,人們從大城市回到家裏,我們甚至可以知道每一塊土地上大年初一回去了多少人。我們還可以看到海南島,遊客都在海南的什麼地方,還有東南亞……
我們將這些數據做成了一個平臺,來監測中國的人口流動和變化情況,可以看到中國在過去一年當中每一天、每一個小時人流密度在如何變化。這是在長三角的這樣一個宏觀的尺度上看的整個城市群的甦醒過程。在微觀的尺度上,例如貴陽,我們可以看到該市每一個街區在平時某工作日和十一節假日時,在街區尺度上人口密度的變化對比。此外我們也看到每一個街區,每一個小時人口密度變化,以及在這裡活動的人都來自於哪些城市,理論上可以監測到中國的每一寸土地,每一天、每一個小時的密度變化,以及在該區域活動的人有多少是本地的市民,有多少是外地人,這些外地人來自於哪些城市。
此外還可以看到特定人群的分佈,比如説在北京的日本人都住在哪些小區,在北京的韓國人又住在哪,北京的公務員住在哪,北京的軟體開發者或者我們俗稱碼農群體,他們又住在哪兒?可以將這些不同的人群的空間行為偏好,他們喜歡去哪進行地圖可視化。比如北京的韓國人在2015年8月份這一個月都去了哪些地點?
我們還可以看到每一個街區的職住關係,在每個街區上班的人都是從哪些小區來的,在這裡住的人都會去哪些地方上班。而且,我們還有一些其他的數據可以感知、監測城市空間,比如説動態的房價指標、公共服務設施的指標,以及不同街區的微博語意和情緒情況;最後,我們可以通過特定的數據指標看到城市的空間異質性,形成名為城市光譜的分析圖。
對於城市,我們的目的並不是感知、監測到就結束了,還要通過這些感知監測到的結果去治理城市,因此我們利用這些新的數據、新的技術開展了一系列的城市治理工作。我們參與了“順義城市品質提升研究”的項目中,通過針對智慧手機定位數據的分析得出住在通州的人都去哪些地方上班,住在順義的人又去哪些地方上班,傳統上我們會認為順義會有更多的就業崗位,因為那裏有比較多的産業園區,所以順義是不是比通州在通勤和職住分離的情況上會更好呢?
我們的數據告訴我們,其實無論是順義也好,還是通州也好,他們的職住分離現象是一樣的嚴重,順義的居民和通州的居民一多半人都會離開他們居住的新城,去其他的區域去上班,所以通過上圖可以看到,他們的去向都是比較一致的;反過來,順義新城和通州新城吸引就業的能力卻是截然不同的,順義新城的這些就業崗位吸引了大量來自於其他區域、尤其中心城各個區縣的人去那兒工作,但是通州卻很難吸引其他地方人到那兒去工作,所以我們並不能先天地認為順義這個地方有更多的就業崗位,所以順義就職住更平衡了,其實它的意義在於,順義新城提供了工作崗位,它為其他區域的人帶來了服務,所以順義的這些軌道交通,城市快速路,以及基礎設施的效率是比較好的,因為它們總是雙向的、相對比較均衡的在使用。那麼順義提供的這些就業崗位,是否在改變順義居民的擇業或者置業,使他在順義新城內部去進行更短的通勤,在自己的新城內部進行的職住平衡呢?我們也有條件去監測它。通過IC卡刷卡記錄可以看到隨著時間的演變,早高峰的時候有多少人乘坐公交車和地鐵在順義內部下車,這些人數和比例是否在發生變化。因此,我們能夠模擬出,通過提供新的就業崗位,或者建設新的産業園區,到底能夠對市民的出行和擇業帶來什麼樣的變化,這項工作我們正在進行當中。
作為一個城市品質提升的研究,我們還基於社交媒體數據進行社會感知。跟長辛店一樣將順義的特徵地點進行了提取,將這些特徵地點的微博語料進行了抓取,這樣就能夠對於順義的公共空間進行診斷。我們發現順義的居民對於順義絕大多數區域都是比較滿意的,但是對於有一些地點——以紅點的恐懼臉符號為標識——是順義居民覺得不太好的地方,進一步通過他們所説的話,反映他們眼中的城市到底存在什麼問題,比如説北小營村這裡有一系列的微博,我挑了幾條語義消極的:比如有一個人説,“我今天出門遇到了變態尾隨我”;第二條語料説“今天出門踩了狗屎”;第三條語料説“北小營村今天又停水停電,一直停到了下午五點半”……所以通過這樣的辦法,我們能夠知道這裡存在治安問題、環境問題、公共服務設施和物業管理問題,這就是一個利用社交媒體數據,去對我們的城市體徵進行快速診斷,從而開展治理的案例。
在通州我們也做了類似的工作。我們除了研究了通州新城的職住情況,還分析通州東側北三縣——三河、大廠、香河這些區域。大家都知道這些區域每天應該都有很多人會乘坐公交車、地鐵、或開車到北京去上班,但是確切的數字是多少呢?他們到北京什麼地方工作了?過去並沒有什麼好辦法來統計這些,但是利用大數據,例如智慧手機的定位數據、IC卡刷卡記錄,我們就能夠知道每天北三縣的居民有多少人來到了北京,他們到北京的什麼地方去,他們大概在從事什麼樣的工作。而且我們將智慧手機的定位數據跟IC卡刷卡記錄進行了互相的驗證,發現這兩者有非常好的相關性,表明這兩者可以互相校驗。
除了IC卡和智慧手機以及社交媒體數據,還有一類數據,我們稱之為“志願者數據”。志願者數據也可以為我們的城市治理服務,比如在北京的步行系統規劃當中,我們結合著線下和線上開展了志願者數據採集。利用北京國際設計周的時機,我們在大柵欄做了一個線下的展覽:在展廳布了一扇墻,印有一張五環內的路網圖,在現場放了兩種顏色的大頭針,我們邀請前來看展的遊客,用不同顏色的大頭針來表述他們對城市的直觀感受:北京哪些地方步行環境比較好,哪些地方步行環境比較糟糕,同時我們在微信公眾號上面也做了這樣一個地圖,讓公眾能夠在微信公眾號的地圖上面去“扎針”,最終我們採集到了1560個扎針的點,這些點表現為兩種顏色,一種顏色是市民覺得走路比較好的地方,一種顏色是市民覺得走路不好的地方。我們想進一步了解市民覺得步行環境好或者不好的原因,分析各個不好的點存在什麼問題,所以通過互聯網的街景數據,對於扎針的每一個地點進行了場景還原,並將這些扎針的地點的街景進行了抓取,每一個地點抓8張圖,每45度抓一張;我們通過分析這些照片來觀察市民扎的地方是什麼地方,然後讓規劃師也對其進行評價,對於每一個扎針的地點用可達性、步行的尺度、無障礙性、停車的情況、公共設施的情況等 9個維度去評估它,並對每一個維度進行打分,這樣就得到了一套市民的評價結果和一套規劃師的評價結果,通過對比市民的評價和規劃師的評價之間的差異,得出哪些總體評價是一致的,哪些點評價極端不一致(這些極端不一致的地方有可能是扎針環節出現了錯誤)。將評價極端不一致的點過濾掉之後,得到一個共識的評價結果,並且實現了將一個比較粗的好和壞二元評價,變成了精細的9個維度的評分,我們就能夠知道北京的哪些地方停車管理比較糟糕,哪些地方是街道上的這些市政設施不合理,哪些地方使北京的步行系統不夠連續,這樣我們就能夠對城市的步行系統進行比較精細化的、有針對性的改進。
最近我們將之前所作的這些工作基於數據的感知、監測和治理手段進行了總結,並將這些成果集中地應用到了“回龍觀地區的功能優化”這一項目當中。基於之前的這些技術手段和案例,我們形成了一個從前期分析到方案設計、再到運營評估的一個完整流程的解決方案,並編制了數據治理城市的手冊,告知規劃師,在面對不同的城市問題時,要感知城市的哪些內容,監測城市的哪些指標,使用哪些工具,分析哪些問題,最後找到解決辦法。
基於手冊我們做了一些工作,發現了一些有意思的結論。比如我們都知道鐵路會分割城市空間,影響社區的居民互相交流往來和兩個區域的活力,但是傳統上並沒有辦法去了解和量化這種情況,但是利用智慧手機的定位數據,我們發現在回龍觀區域13號線所在的這樣一條鐵路,將回龍觀分成了南北兩個區域,北側60%的人口,南側40%的人口;鐵路對這裡的商業設施客流帶來了嚴重的分隔,北側的商業設施只有14%的人來自於南側居民,而南側的商業設施只有27%的客源來自於北側的居民。所以我們可以量化城市空間的這樣一個阻隔,到底對所在區域的商業活力帶來了什麼影響。為了提升城市品質,我們可以通過模型去模擬,假如在這裡打通幾個通道,會使得南北兩個區域的交流往來得到多大程度上提升,增加多少商業客流。
我們也可以通過大數據分析來對比回龍觀和望京兩個區域存在什麼樣的差異:利用大眾點評網的設施數據,我們進行了統計並形成了詞雲圖,可以發現回龍觀的餐飲以簡餐,小吃,快餐為主,而望京的餐飲設施詞雲圖卻以韓國料理、火鍋、燒烤、西點麵包等類型為主;我們也能夠看到在工作日的晚上和在休息日的期間,回龍觀的居民和望京的居民他出行的規律有什麼區別:比如,回龍觀的居民到了週末的時候,比望京的居民更喜歡宅在家裏邊。而對於那些外出的人來説,回龍觀的居民會去的地方更遠,他們會離開回龍觀區域去到五道口、中關村等更遠的地方去活動,但是望京的居民在週末的時候儘管外出,其大部分活動範圍還是處於望京的區域內部。這意味著望京提供了比較完善的公共服務設施,能夠滿足望京的居民休閒活動的需求,所以望京居民都在自己區域裏面活動;而回龍觀休閒服務設施不足,所以有大量的居民需要到回龍觀區域以外去滿足自己的休閒活動需求。兩者所用擁有的商業設施數量、品質等方面的差異也可以用數據觀測到:例如回龍觀人均的消費更低,回龍觀的商業和餐飲的得分更低,多樣性更差,以及回龍觀的商業設施他們對區域外的客流吸引力較小,而望京的商業卻能夠吸引大量的望京區域以外的客流等等。
通過這樣一系列的技術手段,我們可以更好地去感知和監測城市,並提出有針對性的治理手段。我們可以感知社交媒體數據,感知智慧終端的數據,感知刷卡記錄,感知各類傳感器的數據;並能通過這些數據去監測人群的流動、監測城市的活力,監測城市公眾的情緒和輿情;基於感知和監測的信息,我們能夠針對它們反映的問題進行有精細化的治理,比如説進行城市的預警應急、城市規劃、設施選址、優化提質……。我們一直有一個觀點:當一個市民的活動被我們感知到,這個市民就參與到我們的城市治理中了。所以我們提出了“感知即參與”的觀點,基於城市數據的感知、監測也是我們能夠達成居民更廣泛的參與社會生活,參與城市治理的一個好辦法。
今天我就介紹到這裡,謝謝大家。