2025.01.04 電子報
執笠開張大數據 45 萬行數據背後
各位誌友:
2025 年首份電子報,先祝願大家今年平安健康、事事順利。新年伊始,《集誌社》團隊繼去年 5 月走訪港九新界,記錄多區逾千間店舖的變化後,我們去年底重訪逾 1300 間店舖, 繼續從店舖空置率和各區市道,微觀經濟變化。



略懂電腦編程的記者,透過 23、24 年新成立和解散公司的名單,分析 45 萬間「執笠、開張」公司的數據和名稱。原來,政府近年宣稱香港「由治及興」,數據顯示,去年截至 11月公司「執十間、開12間」;新開張公司中,「科技」是關鍵詞。同事由零開始,整理、分析數據,她在採訪手記中記下這極具挑戰性的過程:
「記者先將過去兩年,與『公司註冊處』相關的約 4000 份憲報公告全數下載;再按照《公司條例》中有關解散的條文篩選出適用的數百份公告;再從中提取公司名稱、編號或商業登記號碼,以及解散日期等,加以整理作分析。



過程說來容易,實則對非技術背景出身的記者是一大挑戰。起碼記者不曾想過,以常用工具將英文版本 PDF 轉換成純文字檔後,竟出現大堆中文字,且結構鬆散,例如『下 列 公 司 notice 的名 is 稱 hereby 』,令人摸不著頭腦。後來嘗試不同的文字提取工具,才成功獲得較為『乾淨』的版本。
另一挑戰是對公司名稱的分析。註冊公司有一部分只有中文、或只有英文名,無法『偷懶』只取其中一個語言作分析。然而,可以用作中文分詞的工具和可參考資源,遠較英文為少。如何讓電腦得知,當『智能』同時出現應一併計算,而非僅計算『智』、『能』?



為確保資訊真確、反映現實,記者一直謹慎行事,以多個不同方法提取數據,再與公司註冊處整體數字作比對,放大檢視每一個有明顯出入的地方。直至將與官方數字的落差減至約 1%,認為足以讓分析的結果具一定代表性,才開始進行消化、分析 ,把觀察呈現在讀者眼前。」
正如記者所說,《集誌社》小小團隊嘗試「百足咁多爪」,踏入新一年,我們期待在有限人手和資源下,繼續做更多新嘗試,盼為讀者帶來看新聞的新角度。截至 12 月底,本年度 160 萬年訂目標仲爭 34%,誠邀讀者支持與我們同行。
最後,身處英國的「誌友」留意了!「 集誌迴響 2025 月曆」獲英國小店支持,現作限量發售,誌友可憑折扣碼「ForTheCollectiveHK」 獲 85 折優惠,歡迎大家支持。
祝大家有個愉快周末!
《集誌社》編輯阿包、子樂
2025.1.4
本周還有以下報道,向誌友推介:
深度|DQ社工|劉家棟釘牌五年 馬雲祺停牌三年 《集誌社》統計 21 社工被DQ 逾七成涉社運案
2024 回顧|速過 23 條 47人案戴耀廷囚十年 立場案鍾沛權收監 DQ社工 兩國安例 186名被告
2024 回顧|千億財赤 日夜繽紛、大熊貓經濟救市 政府「導演經濟」 成效如何?
2024 回顧|忘掉種過的花 油旺、大坑西、彩虹、竹園、古洞、牛潭尾皆拆遷
2024 回顧・中國|蕭條未盡 地產大時代終結 青年失業率創新高 無差別襲擊激增
黃斑病變|老翁險失打針銜接資助 求助社署、醫管局曾碰壁 開記者會翌日獲跟進





