【经验分享】市场调研大赛参赛心得
0 引言
在经管专业同学的超级盛情邀请下,博主连着参加了两届“正大杯”市场调查与分析大赛。硬着头皮去做,没想到还是收获了点东西。
市调赛的核心其实也是分析手头上的数据,然后从中提炼出有价值的结论——感觉就像更贴近现实商业场景的数学建模比赛。虽然这块并不是我的强项,我也没有系统学习过相关理论,但凭借积累的编程基础,加上用互联网现学现用,还是摸索出了一些经验和思路。
这篇文章将分为两个部分:首先,我会分享我是如何从确定选题后束手无措,到逐步摸索出解决方案的(姑且把这种摸着石头过河的行为称作建模);然后我将分享一些参赛过程中总结的小提示,希望能给有意参赛的同学提供一些启发。
1 核心思路
1.1 从选题切入行动
一般来说,在设计问卷、开展调查之前,调查的目标就已经被设定好了——通常是一个产品或者行业。但即便是最简单的一个产品,都会有消费者、营销模式、竞争产品等等诸多因素与市场相挂钩。于是我们在好不容易确定选题之后,也不知道从哪里入手开展研究。
看了一些历年得过奖的报告,我们有了一些头绪。市场调研的本质是评估与市场相关的各种因素,以帮助企业或组织做出更明智的商业决策。例如,如果我们知道某一产品消费者的主要构成(结论),我们就能建议相关企业针对特定人群做宣传;再比如我们知道哪一种营销方式更能被认可、效果更好(结论),企业就能有的放矢地调整营销策略。
因此我们的目标就是为相关行业的企业提建议,有理有据的建议——依据就从获取的数据中来。从这个思路出发,不断细化选题,从选题延伸到生产企业成本考量、消费者核心需求等各类议题,就能得到调查的路径。当然对于大学生来说,最容易的方式就是发调查问卷。所以大多数参加市调赛的项目都是从消费者入手的。
我们队伍也是同样的思路。围绕着一个特定的产品,我们把这次的主题确定为“调查武汉市居民对其的消费偏好,以及该产品能给消费者带来的情绪价值”。通过问卷,我们能比较容易地获取用户对这一产品的态度和痛点、以及不同特征用户的消费意愿,从而帮助企业有针对性地改善产品与开展营销。
确定好选题之后,就能够开展问卷设计、抽样与问卷发放、信效度检验、分析数据并得出结论等一系列流程了。这个流程涉及到整个团队的合作,大多数时候大家可以分头行动、各司其职。但从确定主题到问卷设计的部分一定要全队共同讨论,否则拿到的数据没办法支持后续的数据分析,就是一件很棘手的事情了。
具体操作起来也不困难。例如要获取用户画像,问卷就会包括对消费者基本信息的调查;要得知消费者产品的态度,问卷中就需要用量表用户的各项意愿。由于我主要负责的是数据分析部分,对调查统计的相关知识也不甚了解,此处就不再赘述。
1.2 用合适的模型分析
在得到问卷数据之后,我们需要选用合适的方法或者数学模型对数据进行分析,最终得出结论。也可以通过假设-检验的方式,现提出一个与结论相关的假设,然后用数据进行检验,从而接受/拒绝假设。
在这次的比赛中,我们选择了几个不同的研究内容,每个内容都试着用不同的方式展开分析。我负责的是消费群体特征分析(用户画像)以及消费者对营销策略的偏好分析。对于不同的问题,我都试着根据问题的特点,寻找尽可能合适的方法进行解决。以下是我的部分思考过程,或许能给诸位带来一些启发。
1.2.1 用户画像-聚类算法
用户画像倒还好说,惯用做法是使用聚类算法对得到的用户信息数据进行聚类,得到的不同聚类中心点就是最具有典型性的用户特征。由于这次进行聚类的数据包括数值型和类别型,我选用了K-prototypes算法进行聚类。并最后得到了6个类别。
聚类算法的选择、聚类簇数的确定以及各类参数的选择中也有不少学问,这里仅作简单介绍,感兴趣的同学可以自行搜集更多资料。
K-means:主要用于数值型数据的聚类,它通过迭代地调整质心位置,最小化数据点到其最近质心的欧氏距离来形成簇。K-means要求事先指定簇的个数“K”,通常使用均值来更新中心点的位置。
K-modes:针对分类数据(即离散属性)的聚类问题进行优化,不同于K-means的均值计算,K-modes通过调整质心为簇内数据的模(mode),使用简单匹配系数来衡量相似度(例如汉明距离),适合处理非数值型数据。
K-prototypes:结合了K-means和K-modes,适用于包含混合属性(数值和分类数据)的数据集。K-prototypes在计算距离时,结合了数值数据的欧氏距离和分类数据的简单匹配系数,提供了一种统一的方法来处理复杂、多样的数据结构。
同时我们也不妨再多思考一下:之所以能够这样做,是因为聚类算法的本质就是寻找数据点的共同特征,符合我们绘制用户画像的根本任务。因此选用方法时不可以生搬硬套,必须摸清楚算法的本质,当算法和我们的目标相匹配时,这个方法才能是有效的。
1.2.2 比较差异-假设检验法
而对于消费者的营销策略偏好,我们的思考方向和目标又有所不同了。此时不妨先揣摩我们的根本目的:观察消费者最喜欢哪一种营销策略,从而建议企业强化该种营销策略,吸引更多消费者。
顺着这个思路往下思考,不难找到一些头绪:我们可以横向对比消费者对不同策略的态度,找到比较出来评价最高的那个,即最好的营销策略。于是我下一步的目标就是寻找一种能横向比较不同变量得分的算法。
而当我们将问题转化为数据之间的对比时,就会有两个关键问题:
- 设计一个参考/评价标准,从而便于不同数据进行比较。即将数据量化为可以直接比较的数值。
- 比较的结果是否显著。在我们的问题中,亦即“最好的”是否“足够好”。
由于问卷设计时,我们采用的是李克特量表,因此可以很容易地将消费者的偏好量化为数值。然后,我们可以采用卡方拟合优度检验法,先假设后检验,观察消费者是否对某一类营销策略具有显著偏好。
但在查阅更多资料后,我们选择了另一种更适合这中数据的检验方法——Ridit检验。
Ridit检验(Relative to an Identified Distribution Integral Transformation)是一种非参数统计方法,用于比较两组或多组有序分类数据的分布差异。它由Bross于1958年提出,提供了一种将有序分类数据量化的途径,适用于等级资料(如临床疗效的“无效、好转、显效、治愈”)的比较,尤其当数据不满足参数检验(如t检验)的前提条件时。
该检验方法将有序分类数据转换为连续的概率值(Ridit值),表示某一类别在参考分布中的相对位置。Ridit值的范围在0到1之间,可理解为“某分类等级的个体在参考组中优于或等于的比例”。通常选择数据量最大的一组作为参考分布(或合并所有组作为参考)。然后比较每组的平均Ridit值 $\bar{R}$,若两组分布相同,则 $\bar{R}$ 应接近0.5;若 $\bar{R}_A > \bar{R}_B$,说明A组倾向于更高等级。
Ridit值的计算公式:$$ \text{Ridit}_i = \frac{\sum_{j=1}^{i-1} f_j + 0.5 f_i}{N} $$
其中,$f_j$ 为第 $j$ 类的频数,$N$ 为参考组总样本量。
相对于常规的卡方检验,Ridit检验能够以Ridit值的方式,更直观地呈现数据之间的差异。Ridit值越高,说明消费者越偏好该类营销方式。
1.2.3 探究变量间关系-结构方程模型
当然,有时候研究对象本身并不一定这么简单,光是梳理研究目的就很困难。例如去年,我们团队需要研究【消费者参与非遗产品体验所感受到的“体验价值”】,光是听名字就感觉要被绕晕了。而“体验价值”又是一个很抽象的概念,于是我的队友从认知、经济、情景、活态、传承五个维度的不同变量对消费者体验进行考量,设计了一个理论模型。
顺水推舟,我试着采用了适于探索变量间复杂关系的结构方程模型,检验不同变量对体验价值的影响,并最终对消费意愿起到的作用。
具体的建模过程也不再赘述了。最后,我们的模型结果也成功验证了假设:消费者所感知到的价值越大,其消费意愿就越高,他们掏钱的意愿就越大。而体验价值中,“活态价值”、“认知价值”两个维度的价值影响最大,因此相关产品可以考虑从这两个维度进行优化,针对性地给消费者提供更好的体验,从而打造更好的产品。
结合上面的经验不难看出,我们只需要思考清楚我们想要做到什么,再根据目的去匹配和选用合适的算法,就能够较好地完成分析。应用这一套方法开展任务,并在建模过程中反复调整,就能够非常丝滑地完成从数据到结论的整个流程了。
当然,采用的方法无法得到想要的结果,或者结果不显著也是常有的事。这时可以考虑更换方法,或者从根本进行考虑——是否在问卷设计和研究方向上出了岔子。
此外,尽管解决问题不可以套模板,但上面提到的一些算法,例如K聚类算法、结构方程模型等,因为具有很好的泛用性,经常能在这类比赛中用到,因此可以优先考虑能否应用,也算得上是一条屡试不爽的参赛技巧。
1.3 用严密的逻辑推出结论
其实上述的大多数问题,都可以直接用描述性统计来得到结果——画个饼状图或者条形图,哪一类多,就从哪里找结论。
这样的确是可行的,然而面临着一个硬伤——没有说服力。描述性统计只是从数据中能够观察到的最直观结果,这一结果与结论之间有着过大的距离,我们很容易在这一过程中带入自己的主观推断,从而使结论没有可信度。举个例子,相差1%能否算明显的差异?相差20%呢?这两者之间的界限是什么?
描述性统计无法给我们一个精确的结果,这也是为什么统计学中需要引入各类检验方法。市场调查分析大赛虽然更偏向于实战,但其本质上也是统计与建模等数学原理。因此在处理数据和撰写报告时,一定要有严谨的逻辑链,用简明精确的语言和数据告诉相关企业(和评委老师),我们的结论并非空穴来风。
2 参赛Tips
2.1 精通包装的技巧
无论是学术论文还是各类报告,在写作时都强调把数据用图标的形式直观地呈现出来,也就是数据可视化。市调赛也是同样。从基础的条形图、饼状图到更加复杂的热力图、雷达图等等,越能将复杂数据直观地呈现,越凸显写作者的功底。
目前最常用的画图工具是Matlab和Python(借助Matplotlib和Seaborn等模块)。网上相关的教程已有很多,我们甚至可以简单地使用ChatGPT等AI工具方便地生成画图代码,快速得到想要的可视化图表。但使用代码绘图的缺点是很难直观地对图进行修改,有时需要反复调整很多次才能达到想要的效果。这时不妨简单粗暴地使用Powerpoint画图,然后导出为图片——简单又美观。
和数学建模类的比赛不同,市调赛的学术性并没有那么强。因此对于图表的专业性没有太高的要求。但是它商学类比赛的性质也说明,必须要将调查报告包装得够精美,有吸引力,才能够在比赛中有更高的竞争力。这也是为什么很多队伍会额外招募一名专门负责美工设计的队员。
而对于没有专门美工的队伍,最好的方法是全队先商量好一个配色与设计方案(可以直接选用一个PPT模板,参考里面的配色和图形设计),然后所有人在画图时都参考这一配色,只选用特定的颜色,从而避免整篇报告颜色混乱、无法统一。
除了报告正文,页眉页脚和封面也是可以施展拳脚的地方。例如这是我两次参赛时,报告书的封面。(时间仓促,感觉还有不少提升空间)
2.2 加入辅助性的方法
虽然报告的主体一定是开展调查并对调查结果进行分析,但我们也可以在此基础上进行点缀,使用不同来源的数据支撑我们的结论。
例如在问卷设计模块,我们可以采用文献综述的形式阐述问卷设计所参考的依据和研究背景;在实证分析模块,我们也可以通过爬虫爬取网络上和产品相关的语料数据,进行情感倾向分析或者制作词云图。不仅可以让我们的结论更有说服力,还能使报告更有亮点。
在这次比赛中,我采用了爬虫爬取评论信息+大语言模型的方法,对消费者的情绪价值来源进行了分析。方法的核心是Prompt工程+DeepSeek API 调用,在设计好任务指示之后把评论信息逐条发送给大模型,让它分析评论中的情感倾向与情绪价值来源。这其实并没有什么算法或者建模上的难度,但借助大模型强悍的文本理解与输出能力,我们可以完成这种很多以往需要大量人工归纳与整理的工作,用一种类似暴力美学的方式得出结论。
换个角度思考,这样的方法也是采用了当下最前沿的技术,蹭了一下这两年AI大模型的热点,或许能成为加分项(笑)
3 结语
在我参加过的诸多比赛里面,市调赛算得上是难度与性价比最合适的比赛了,尤其适合想要拿到一定奖项的同时锻炼自己的能力的大学生。
从难度上来说,市调赛虽然综合性较强,但相当容易上手。无论是建模、调查、统计,还是美工和文书编纂,你总能在团队里找到适合自己的位置(前提是需要有一个不划水的小队)。完整经历整个比赛流程,你的数学建模、报告写作、PPT制作、表达和答辩等能力都能够得到锻炼,同时投入的时间成本远小于acm、互联网+等需要长时间训练或打磨的比赛,如果有兴趣,不妨大胆去试一试。
尽管省赛结果尚未出炉,但我觉得报告撰写过程中的灵感与巧思,才是这次比赛更有意义的部分。因此无论结果如何,我都收获了很多。最后感谢我的小组长!凭借超强的领导能力和组织能力,push全体组员成功冲刺,完成了一份相当完美的报告!