AI能代替人类工作了吗？汇丰做了个实验

葛佳明发表于 2024年02月23日 08:38

摘要：汇丰直言，人类分析师+AI工具才是提升工作效率的关键，AI会在关键地方犯错，每一个步骤都需要人类确认。

AI之火的燎原之势延续至2024年，甚至任何不运用AI的人都开始被贴上了“时代落后者”的标签。

2月20日，汇丰发布了一份题为《AI能代替我工作吗？》的实验分析报告，在报告中，汇丰数据科学与分析主管Mark McDonald比较了ChatGPT的“高级数据分析”模块与人类分析师的表现，得出结论：

此次试验中，AI的表现非常好且仍在不断进步，但还未到能取代数据分析师的水平，AI的运用更倾向于实现特定任务的自动化，而不是完全替代人类的全部职责和工作。数据分析师在借助AI工具后，生产力的水平已经得到了显著提升。

汇丰称，在实验过程中，他们采用了一个公开的数据集——各州Zillow房屋价值指数，让人类数据科学家和 ChatGPT分别对该数据集进行探索性数据分析 (EDA)。

汇丰认为，上述任务对于AI工具（如ChatGPT）来说是一个挑战，原因如下：

指令模糊：要求不是特别明确，没有具体指出要分析数据集的哪些方面，这要求AI能够自主决定如何进行EDA。
需要进行多步骤分析：进行EDA分析，不仅仅是执行一个简单的任务，而是需要通过多个分析步骤来探索数据集的特性和趋势。
数据格式非典型：数据集的格式并不是常见的标准格式，这增加了处理和分析数据的复杂性。

来看实验的结果，汇丰写到，最开始他们仅仅是将数据集加载到ChatGPT的对话框中，并要求其对数据集进行探索性数据分析（EDA），这种尝试通常以ChatGPT仅执行了几项EDA分析后崩溃而告终。

为了使实验更加顺利，汇丰发现首先要罗列出希望ChatGPT完成的EDA分析步骤，然后逐步进行。但每个步骤都需要人工参与确认，才能展现AI最佳性能，人类的参与可以更好的配合AI正确高效完成任务。

AI分析师与人类分析师工作对比

汇丰在报告中称，他们将Zillow各州房屋价值指数 (ZHVI) 的数据文件上传到ChatGPT，并要求它将数据加载到pandas DataFrame中。然后，让ChatGPT分步骤对该数据集进行全面探索性数据分析 (EDA)（完整步骤见附录）。

与此同时，汇丰也让人类分析师执行了相应的步骤，以此来比较人类和人工智能各自在数据分析领域的优缺点：

首先在数据处理过程中，人类分析师采取的方法是进行数据行列转置（dataframe），运用这种方法，原来作为列名的日期变为索引值，原来的RegionName列的值变成了新的列名。这样做的结果是丢失了其他元数据列（如RegionID, SizeRank, RegionType和StateName），这些信息被放到了一个单独的元数据对象中。

AI采取的方法是在pandas中使用melt函数，来将宽格式的数据框转换为长格式，melt方法的好处是所有元数据都保留在同一个数据框对象中。

在这个例子中，元数据并不是特别有用，所以两种方法都可行。但在其他元数据更为重要的数据集中，人类分析师的方法可能需要后续在分析中执行大量的联接或合并操作，会比较麻烦。

与此同时，AI在写代码的过程中会有大量的注释，这有助于理解代码的目的和功能。相比之下，人类在进行数据分析的过程中往往不愿意花时间写注释，因为这会占用较多时间。

但AI生成的代码中存在较多的注释对于提高代码质量和促进团队间的协作是有益的，虽然人类不喜欢写注释，但他们很喜欢看别人的代码时能看到这些注释。

汇丰在报告中指出，AI做的最让人印象深刻的事情就是在地图上直观显示各州房价的增长率，下图仅展示了这一可视化的截图，而实际上这是一个交互式的HTML/Javascript地图：

这也是AI如何和人类分析师有效合作的案例，下图所示的案例中，AI使用了一个名为folium的Python包来创建可视化地图，这是人类分析师未曾使用过的工具，但通过查看AI生成的代码和完整的工作示例，人类分析师能够迅速学习如何创建类似的可视化效果。

同时，在AI生成可视化交互图中存在一个问题，即缺失数据的颜色编码与表示低增长率的颜色编码相同，这会引起混淆。人类分析师通过修改AI的代码，很好的解决了这个问题，改进后的可视化图例如下，其中用蓝色标出了缺失数据的州，这样使得可视化信息更加清晰易懂。

汇丰称，当AI在进行相关性分析时犯了一个没有受过专业训练的数据分析师会犯的错——在非平稳数据上计算相关性的错误，选择了基于价格水平而不是价格变化的百分比来分析：

尽管AI熟悉计量经济学的文献，能够建议对数据应用ARIMA模型，但它仍然犯了一个在非平稳数据上计算相关性的错误。这一点也表明了AI与人类在处理知识方面的不同。

人类一旦在计量经济学方面受到良好的训练，通常不会再犯这样的错误，而AI尽管知道相关理论，但在实际应用中仍然可能犯错。在使用AI进行数据分析时，仍然需要人类专家的监督来避免得出错误或危险的结论。

我们再次要求AI使用价格环比百分比变化而不是价格本身进行分析。这次分析的结果可以看到非平稳数据的重要性。

当使用非平稳数据（即价格水平）进行相关性评估时，AI错误评估德克萨斯州和夏威夷州之间的相关系数（高达94%）。而当分析方法被修正后，这两个州之间的相关系数降至58%。

汇丰称在最后的房价预测阶段，AI选择并运用ARIMA模型来预测加州房价，但AI在选择模型参数时存疑，它随意选择了一个ARIMA(5，1，0)模型进行拟合，没有提供为何选择这个模型的理由。

而运用AI时还有一个关键问题，随着时间流逝AI已经忘记了它最初计划的EDA步骤，因此人类不得不提醒AI按计划进行，AI的任务才得以继续完成。

以下为汇丰让ChatGPT完成分析步骤的拆解：

1. 数据概览：
显示数据集的前几行和后几行。检查每列的数据类型和非空值计数。获取数值列的基本数据摘要。

2. 处理缺失值：
识别有缺失值的列。采用适当的策略来处理这些问题，如删除空值数据或给空值赋值。

3. 时间分析：
绘制房价总体变化趋势。识别周期性或循环趋势。高亮异常点或异常事件。

4. 地区分析：
识别平均房价最高和最低的州。分析各州的增长率,找到增长最快和下降最快的市场。如果可能,在地图上可视化数据,发现区域分布图。

5. 分布分析：
绘制直方图或核密度分布估算图，以了解房价的分布情况。
使用箱形图识别异常值并比较不同州之间的分布。

6. 相关性分析：
计算不同州之间房价的成对相关性,识别关系。使用热图可视化相关性。

7. 分解：
如果数据集显示明显的趋势或周期性，进行时间序列分解，分离趋势、周期性和残差。

8. 频率分析：
分析房价大幅上涨或下跌的频率。识别出现峰值或低谷的特定月份或季节。

9. 统计测试：
根据问题或假设，进行适当的统计检验。例如，如果要知道两个州之间的价格差异是否具有统计学显著性意义，可以使用t检验。

10. 特征工程（如果计划建模）：
创建滞后特征、移动均值和其他衍生特征，这些特征对预测建模可能有用。

11. 洞察和记录:
在探索性数据分析的过程中，记录所有重要的发现和见解。这对后续决策或结果展示很有用。

12. 可视化：
使用各种可视化工具和技术，以直观和深刻的方式表示数据，包括线图、条形图、散点图、热图等。

13. 最终报告：
总结关键的分析结果，提供基于分析的可操作性建议或推荐。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

</div

AI能代替人类工作了吗？汇丰做了个实验

AI能代替人类工作了吗？汇丰做了个实验

Recommend

VVVV – A Hybrid Visual/Textual Development Environment

23亿美元收购Vizio，沃尔玛进一步在广告行业开疆拓土

The Eagle Obsession – Space: 1999 documentary

What's Wrong with Google Drive, Dropbox, and OneDrive? More Than You Think

投中榜・2023年度粤港澳大湾区榜单重磅发布

Calvin Ayre Foundation donates $100K to Sports Cars for a Cause, funds nearly 10...

Leisure firm told scanning staff faces is illegal

Leaked Files Show the Secret World of China's Hackers for Hire

LinkedIn Publishes Guide To Evolving Data Privacy Approaches in Marketing

2024年中国高速公路企业交能融合方向探讨——“高速公路+光伏”较受青睐【组图】

About Joyk