乘車資料分析失敗後的感想

Vincent Ko
Jun 9, 2024

--

其實這學期有一個我非常遺憾,並且很討厭自己的事件,就是和計程車公司共同合作的商業資料分析專案。這個專案有至少三個月的時間可以執行,但是我們五人小組在這段時間內,並沒有成功的得到滿意的結果,甚至說有些部分「和亂猜差不多」。我覺得很煩燥的原因,一方面是這個主題的潛在分析價值很高,但是設定的主題並沒有辦法讓我好好的應用這份資料;另外一方面則是我花了太多時間在其他的課程中,因此我其實沒有花太多的時間對這份資料進行survey,同時因為時間不足,我給的貢獻真的很低。因此雖然這個課程佔了三學分,但是我其實沒有花足夠多的時間生產出更好的預測結果,這件事情讓我很沮喪,而且覺得很對不起自己。首先談論議題本身,議題是被設定好的,他們希望可以透過用戶的乘車資料,預測其中那些人會使用該公司新增的服務,例如代客打掃、代客洗衣等等。我們遇到了兩個基礎的問題,其中一個是資料不平衡,使用計程車服務的人裡面,只有0.1%會使用這些服務;另一方面是基礎的個人用戶背景資料不足,基本上我們只有每筆搭車資料的資訊,因此我們需要做一些前處理來猜測一些重要的參數,但是有些其實都沒有辦法得到,所以遇到了很多問題。

我們希望可以用這些乘車資料來找到哪些人會對其他服務有興趣,但是研究到後來,這兩件事情之間真的沒有甚麼特殊的關聯,同時又遇到了多重共線性的問題,在模型選擇和參數選擇上花了一些時間討論,同時也因為資料不平衡,所以大部分的模型也不能夠直接套用,需要先進行oversampling和undersampling等等,所以這些程序跑下來,最後的結果就是沒有結果。在這個部分上,我覺得我們做的最大錯誤,或許就是採用傳統的classification問題的架構,來處理這個問題,因為這份data的特徵和資訊其實不太適合使用classification的架構,除了上述的問題之外,另外一大問題就是我們的核心思想沒有調整好我們其實想要做的是推薦模型,也就是我要針對那些客人來推薦這個服務,並且希望這些用戶在得到相關的資訊之後,會嘗試使用這些新的服務,所以這個問題應該沒有「標準答案」可言,換句話說,我們當初定義「有用過這個服務的人設為1,沒有用過的人設為0,並且進行classification」的想法本身就有問題。我們該做的應該是我之前其實早就做過的recommendation model,並且不進行回測

我應該去說明說 那些參數是相對重要的,針對擁有這些特徵的客戶直接進行推薦即可,而不是要真正去預測說用戶A會使用此功能,用戶B不會,因為我相信他的潛在市場不會到那麼小(總體使用者的0.1%),而且另外一個重點是投放廣告、優惠卷其實不會消耗到太多成本,因此我們應該要廣泛的猜測,針對某特定群體(簡單定義)進行行銷,而不是使用分類模型的方式。我應該要直接去做recommendation模型,但是回測有點麻煩,得到這些資訊也有點麻煩,所以我其實不確定我自己到底在做些甚麼。當然,這些想法會引領到第二個問題,也就是我花了太少的時間在這份專案上面,因此我其實都在用舊有的思維在進行思考,所以我才會感到窒礙難行。老師雖然有給予一些意見,但是這是我們提出了想要建立classification model之後才進行意見討論的,所以我倒很後來才意識到問題分析架構想錯了,但也已經有點來不及了。另外一組也在做這個問題的人使用的是以圖為基底的演算法,有點隨機的意味,把用戶和特徵設為節點來進行延伸,但是我其實對這個部分不太熟,所以我也沒有辦法給予太多的意見,但如果用那種方式的話或許我會學到更多。

總之,雖然這個問題有點在商業上不make sense,用乘車資料來預測其他服務真的沒有甚麼潛在的關聯(舉例來說,如果是處理信用卡盜刷的資料的話,我們’應該可以想像有怎麼樣的特稱可以增加這筆紀錄是盜刷的機率),但是我自己的態度也出了蠻多的問題的,我這學期在修那麼多課程的情況下就不應該選這門課,如果我選了就更應該在議題上好好的想想,再進行決定,雖然在分工上我是屬於協作者和意見提供者的角色,而不是在主導的位置,但是我應該也要對這份作業的失敗負起一些責任。如果我重來一次,我應該要先懷揣者這個不能用分類模型的前提下進行思考分析,這樣才能夠得到最有洞見的結果吧,但總之現在搞砸感很重,哀哀。

我也還在學習,但這次是一個蠻失敗的經驗,同時也歸咎於我自己不太好的團隊溝通和合作能力,以及程式邏輯上的硬實力,總之我很抱歉花了一整個學期的時間做出了依託答辯。

--

--

Vincent Ko
Vincent Ko

Written by Vincent Ko

又名為黑翅鳶羽札,2024年即將邁向大四,正在國泰銀行資訊部門實習,可能會帶來第一手GenAI相關知識。LLM、人工智慧、資料分析與處理;財金、管理、財金數據分析。

No responses yet