# 背景介绍随着OpenClaw的爆火,AI智能体赛道迎来了前所未有的关注度。OpenClaw凭借其强大的文件操作、代码执行、网页浏览等能力,迅速在开发者社区和普通用户中掀起热潮。它的成功验证了一个关键命题:AI不再仅仅是"对话工具",而是可以真正成为用户的"数字助手",自主完成复杂任务。随后,各大厂商纷纷入局,密集推出自家的龙虾产品。这些龙虾产品到底哪个更好用?用户该如何选择?基于这一背景,我们推出SuperCLUE-XClaw测评基准,客观评估各厂商龙虾产品的真实能力。# SuperCLUE-XClaw榜单概览SuperCLUE-XClaw榜单地址:https://superclueai.com/xclaw1. 总分对比2. 五大维度对比SuperCLUE-XClaw测评摘要摘要1:头部龙虾产品的性能差异较小,但整体差异显著本次测评的10款龙虾产品中,前5名平均分均突破90分,差距不到两分,头部阵营竞争高度胶着。具体而言,火山引擎的ArkClaw-Pro(92.33)与智谱AI的AutoClaw(92.23)、腾讯QClaw(91.44)并列第一;WorkBuddy(90.90)、KimiClaw(90.64)和ArkClaw-Lite(89.96)并列第二,头部龙虾产品之间的差异较小。但从整体来看,头部和尾部的龙虾产品性能差距较大,分差接近10分,分层显著。摘要2:能力梯度分化显著,通用文本创作任务成熟,复杂任务仍需攻坚从五大能力维度的平均分对比来看,目前国内的龙虾产品呈现出清晰的能力层级:内容创作以 98.08 分的绝对高分领跑,龙虾产品在该维度的能力较为成熟;数据处理(89.81)、研究分析(87.87)、记忆能力(86.59)三大维度分数集中在 86-90 分区间,属于中等偏上的水平;代码开发以 78.91 分成为唯一低于 80 分的维度,是当前最大的能力短板,与其他维度形成明显断层。摘要3:产品的稳定性差异较大,部分产品稳定性更优在三次测评中,ArkClaw系列龙虾产品均取得极佳的稳定性,两款产品三次测评的极差分别为0.16和0.25,波动极小,说明该产品在相同任务下的表现一致性很高,实际使用中的“翻车”概率较低。KimiClaw和QClaw分别以0.78和1.27的极差紧随其后,稳定性表现尚可。摘要4:不同用户可根据自身情况选择合适的龙虾产品对于价格敏感的新手用户,推荐体验腾讯系的免费产品,如 WorkBuddy 和 QClaw,以及低成本的 ArkClaw-Lite;而对于使用频率高、对价格不敏感的用户,ArkClaw-Pro 与 AutoClaw 则是不错的选择。# 基准介绍一、SuperCLUE-XClaw介绍SuperCLUE-XClaw是针对各厂商的龙虾产品设计的测评基准,具体介绍如下:(一)任务设计特点1. 真实性测评任务模拟真实办公场景。例如,Excel数据清洗任务要求删除重复记录、处理空值、过滤异常值、统一日期格式,这正是数据分析师日常工作的真实写照。2. 多文件操作任务涉及多种文件格式(Excel、PDF、CSV、JSON、Word、Markdown 等),考察智能体对不同文件类型的处理能力。3. 复合能力考察部分任务需要多种能力配合。例如,多文件数据合并任务既考察文件读取能力,又考察数据统计和JSON格式输出能力。4. 细粒度评分标准每个任务都设有详细的评分标准。以Excel数据清洗为例,包含7个检查点:是否存在重复记录、是否存在空值、是否存在负数记录、日期格式是否统一、单价为0的记录是否删除、销售额列是否写入、计算是否正确。(二)任务类型SuperCLUE-XClaw龙虾产品测评共有5大核心测评场景,具体介绍如下:1. 数据处理考察智能体对结构化数据的操作能力,包括 Excel 数据清洗、PDF 信息提取、日程事件创建、多文件数据合并、数据透视表生成。这是智能体最基础也是最高频的应用场景。2. 内容创作评估智能体的文本生成能力,涵盖商务邮件撰写、博客文章生成、内容风格改写、文档格式规范化。重点考察内容的准确性、专业性和格式规范性。3. 记忆能力测试智能体的上下文理解和任务规划能力,包括智能任务调度、每日工作摘要、个性化回复调整。这是区分"工具"与"助手"的关键维度。4. 代码开发考察智能体的编程能力,从Python脚本开发、项目创建到文件批量处理、日志分析项目。验证智能体能否真正成为开发者的得力助手。5. 研究分析评估智能体的信息检索和分析能力,包括网络信息检索、竞品分析报告、行业报告摘要、技术文档调研。(三)测评流程及评估方法SuperCLUE-XClaw龙虾产品测评采用人工获取答案+自动化评估的方式,确保评估结果真实反映各产品的实际能力。1. 自主设计测评任务我们根据5大维度(数据处理、内容创作、记忆能力、代码开发、研究分析)的任务场景,自主设计详细的测评题目和明确的输出要求。每道题目都附带:完整的任务描述明确的输入文件具体的输出格式要求详细的评分标准2. 获取产品答案将同一套题目提交给各参测产品,记录其实际输出作为"产品答案"。为了避免单次测试的偶然性误差,确保测评结果的稳定性和可信度,我们对每个参测产品的每一项任务都进行了三次独立重复测评,全程严格控制变量:所有测评环境保持完全一致;每一次测评都重新向产品提交完整任务指令,全程独立记录产品的执行过程和输出结果,不同轮次测试互不干扰;三次测评全部完成后,收集该产品对应任务的三组输出结果,统一进入后续评分环节。3. 评分方法本次SuperCLUE-XClaw测评采用三层评分架构,包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明:(1)自动化脚本评估该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。评分标准:采用0/1二分制。- 1分:脚本验证全部通过,所有检查点均符合预期,任务判定为成功。- 0分:脚本验证失败,任一检查点未通过(如文件缺失、日期错误、格式不符等),任务判定为失败。(2)大模型评估该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);- 待评测模型生成的结果;- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。(3)混合评估该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。4. 最终统分针对每个产品每个任务的3次独立测评结果,我们采用如下规则计算最终得分,兼顾能力准确性和执行稳定性:首先对3次测评结果分别按照对应评分机制(自动化脚本评估/大模型评估/混合评估)独立打分,得到3个单次得分;最终任务得分为3次单次得分的算术平均值(结果保留2位小数);若某产品在某一任务中3次全部执行失败,该任务最终得分为0分;若仅1-2次执行失败,仍按实际得分取平均,客观反映产品的稳定性表现。通过三次测试取平均的方式,既能够过滤单次执行的偶发错误、网络波动等非产品能力因素的干扰,也能够真实反映产品的任务执行稳定性,让最终得分更贴近产品在实际使用中的真实表现水平。# 参评产品本次SuperCLUE-XClaw龙虾产品测评共有10款主流Claw产品参测,具体测评产品详情如下图所示:# 测评总榜一、三次测评平均分榜单二、第一次测评榜单三、第二次测评榜单四、第三次测评榜单# 测评分析及结论一、整体竞争格局:头部三大厂商领跑,产品分层清晰从综合得分排名来看,火山引擎、智谱AI和腾讯三家机构的龙虾产品展现出绝对的头部优势,ArkClaw-Pro 以 92.33 分斩获榜单榜首,AutoClaw 以 92.23 分紧随其后,两款产品分差仅 0.1 分,几乎持平;QClaw(91.44)、WorkBuddy(90.92)、KimiClaw(90.64)、ArkClaw-Lite(89.96)共同组成第一梯队,头部产品分数高度集中,形成明显的第一梯队集群。CoPaw(85.62)、MaxClaw(84.71)、DuClaw(83.62)、StepClaw(82.65)4 款产品,与第一梯队分差超 4 分,且内部从 85.62 分至 82.65 分,分差逐步拉大,充分体现出不同层级产品的综合能力差距。二、通用能力高度成熟,复杂任务仍有攻坚空间结合SuperCLUE-XClaw的五大能力维度测评结果,行业能力结构呈现明显的分层特征:能力梯度分化显著,内容创作成绝对强项,代码开发为核心短板从五大能力维度的平均分对比来看,目前国内的龙虾产品呈现出清晰的能力层级:内容创作以 98.08 分的绝对高分领跑,接近满分,龙虾产品在该维度的能力已高度成熟;数据处理(89.81)、研究分析(87.87)、记忆能力(86.59)三大维度分数集中在 86-90 分区间,属于中等偏上的基础能力水平;代码开发以 78.91 分成为唯一低于 80 分的维度,是当前最大的能力短板,与其他维度形成明显断层。三、稳定性分析:头部产品优势凸显,稳定性差异直接影响实际使用体验三次独立测试的得分波动(波动值=三次测试最高分-最低分)直接反映产品的执行可靠性,波动越小说明产品在相同任务下的表现一致性越好,工程化成熟度越高,实际使用中的“翻车”概率越低。1. ArkClaw系列以极致低极差登顶稳定性榜首,实现综合实力与稳定性双优 ArkClaw系列展现出碾压级的稳定性:ArkClaw-Lite以0.16分的全榜最低极差,ArkClaw-Pro以0.25分的次低极差,两款产品极差均不足0.3分,三次测试得分几乎完全一致,鲁棒性、一致性拉满。结合综合得分排名,ArkClaw-Pro以92.33分拿下综合榜第一,ArkClaw-Lite以89.96分位列第六,两款产品同时实现了高综合分与极致稳定性,是全赛道综合实力与可靠性双优的标杆产品。 2. 综合排名头部产品稳定性分化显著,高综合分≠高稳定性,稳定性为独立核心评估维度 综合得分与稳定性无绝对正相关,头部产品稳定性呈现明显分化: - 综合榜第二的AutoClaw(92.23分)极差达4.96分,属于高波动产品; - 综合榜第五的KimiClaw(90.64分)极差仅0.78分,稳定性仅次于ArkClaw系列; - 综合榜第三的QClaw(91.44分)极差1.27分,稳定性表现优异; - 综合榜第四的WorkBuddy(90.92分)极差3.62分,波动中等。 这说明稳定性是独立于综合分的核心评估维度:高综合分仅代表产品的能力上限,而低极差代表产品的可靠性与一致性,是产品落地商用的关键指标。 3. 稳定性差异对用户选型的参考意义对稳定性要求较高的企业级用户与高频办公用户,建议优先选择波动小于1.5分的产品(如字节ArkClaw系列、KimiClaw、腾讯QClaw),任务执行成功率更有保障;对价格敏感的免费用户,腾讯QClaw为免费产品中稳定性最优的选择,波动仅1.27分,表现优于部分付费产品。# 示例展示对比示例一【任务类型】:数据处理【题目】:首先将 D4_sales_jan.csv、D4_sales_feb.csv、D4_sales_mar.csv 这三个文件合并为一个文件,保存到 D4_first_quarter_summary.xlsx 文件中,合并要求如下:1. 将3个文件合并为一个汇总表2. 添加"月份"列标识数据来源3. 保留所有原始字段4. 确保数据格式统一然后统计以下汇总后的数据:1. 各月销售总额2. 各产品累计销售额3. 月均销售额将这些数据以{{"各月销售总额": [{"一月": xxx}, {"二月": xxx}, {"三月": xxx}]}, {"各产品累计销售额": [{"产品A": xxx}, {"产品B": xxx}, {"产品C": xxx}]}, {"月均销售额": xxx}}保存到 D4_data_summary.json 文件中。D4_sales_jan.csv、D4_sales_feb.csv、D4_sales_mar.csv 三个文件的内容如下:D4_sales_jan.csvD4_sales_feb.csvD4_sales_mar.csv【评分点介绍】:本题完全由自动化脚本进行评价,共设计14个得分点,每个得分点只有正确和错误两种情况,正确得1分,错误得0分,最后汇总正确的数量,除以总数,得到产品在本题的得分。{"excel_file_exists": 是否生成了D4_first_quarter_summary.xlsx,"excel_row_count_correct": Excel里的数据行数是否正确,要求是150行,"excel_month_column_exists": Excel中是否存在“月份/month”这一列,"excel_month_values_complete": 月份列里的值是否完整包含1月、2月、3月,"excel_original_fields_preserved": 原始关键字段是否还保留在Excel中,没有被误删,"excel_sales_format_unified": 销售额字段的格式是否统一,并且大部分值都能被正确转成数值,"json_file_exists": 是否生成了D4_data_summary.json文件,"json_monthly_jan_correct": JSON中1月总销售额是否正确,"json_monthly_feb_correct": JSON中2月总销售额是否正确,"json_monthly_mar_correct": JSON中3月总销售额是否正确,"json_product_a_correct": JSON中产品A的销售额是否正确,"json_product_b_correct": JSON中产品B的销售额是否正确,"json_product_c_correct": JSON中产品C的销售额是否正确,"json_avg_sales_correct": JSON中第一季度月均销售额是否正确,"score_percentage": 最终总分占比。前面这些数值项会汇总后归一化成一个0到1之间的分数}【AutoClaw的答案】:D4_first_quarter_summary.xlsx 文件中的内容:(文件过长,略)D4_data_summary.json文件中的内容:{ "各月销售总额": [ { "一月": 282820 }, { "二月": 269930 }, { "三月": 277738 } ], "各产品累计销售额": [ { "产品A": 199437 }, { "产品B": 291557 }, { "产品C": 339494 } ], "月均销售额": 276829}【对AutoClaw的评价结果】:{"excel_file_exists": 1.0,"excel_row_count_correct": 1.0,"excel_month_column_exists": 1.0,"excel_month_values_complete": 1.0,"excel_original_fields_preserved": 1.0,"excel_sales_format_unified": 1.0,"json_file_exists": 1.0,"json_monthly_jan_correct": 1.0,"json_monthly_feb_correct": 1.0,"json_monthly_mar_correct": 1.0,"json_product_a_correct": 1.0,"json_product_b_correct": 1.0,"json_product_c_correct": 1.0,"json_avg_sales_correct": 1.0,"score_percentage": 1.0}【StepClaw的答案】:D4_first_quarter_summary.xlsx 文件中的内容:(文件过长,略)D4_data_summary.json文件中的内容:{ "各月销售总额": [ { "一月": 177442.0 }, { "二月": 267169.0 }, { "三月": 282254.0 } ], "各产品累计销售额": [ { "产品A": 187860.0 }, { "产品B": 270063.0 }, { "产品C": 268942.0 } ], "月均销售额": 242288.33333333334}【对StepClaw的评价结果】:{"excel_file_exists": 1.0,"excel_row_count_correct": 0.0,"excel_month_column_exists": 1.0,"excel_month_values_complete": 1.0,"excel_original_fields_preserved": 1.0,"excel_sales_format_unified": 1.0,"json_file_exists": 1.0,"json_monthly_jan_correct": 0.0,"json_monthly_feb_correct": 0.0,"json_monthly_mar_correct": 0.0,"json_product_a_correct": 0.0,"json_product_b_correct": 0.0,"json_product_c_correct": 0.0,"json_avg_sales_correct": 0.0,"score_percentage": 0.4286}评分说明:1."excel_row_count_correct": 0.0 是因为D4_first_quarter_summary.xlsx 文件中仅有131行,而3个月份表格中的数据加起来应该是150行;2."json_monthly_jan_correct":0.0,"json_monthly_feb_correct":0.0,"json_monthly_mar_correct":0.0,"json_product_a_correct":0.0,"json_product_b_correct":0.0,"json_product_c_correct":0.0,"json_avg_sales_correct":0.0 是因为合并的Excel文件中数据缺少,导致每个月的销售额、每个产品的销售额、月均销售额统计均出错。对比示例二【任务类型】:代码开发【题目】:在当前工作区创建一个 Python 项目结构,主目录为project需包含:1. `data/` 目录,将工作目录中的 A6_financial_data.csv 文件,移动到此目录下2.`result/`,用来存放输出结果3.'app/'目录,内含statistic.py,实现对data目录下数据的分析,统计所有年份的银行数量总数,保险公司总数,证券公司总数,将结果输出为total.csv文件,放入result文件下4. `README.md`(包含安装和运行说明)5. `requirements.txt`(包含 `requests`)A6_financial_data.csv 文件内容如下:【评分点介绍】:本题完全由自动化脚本进行评价,共设计18个得分点,每个得分点只有正确和错误两种情况,正确得1分,错误得0分,最后汇总正确的数量,除以总数,得到产品在本题的得分。{"project_root_exists": 是否存在项目根目录 project/,"app_dir_exists": 是否存在 project/app/ 目录,"data_dir_exists": 是否存在 project/data/ 目录,"result_dir_exists": 是否存在 project/result/ 目录,"data_file_in_project": 原始数据文件 A6_financial_data.csv 是否已经放进 project/data/,"original_data_removed": 工作区根目录下原来的 A6_financial_data.csv 是否已移走。也就是不应继续留在外面,"statistic_py_exists": 是否存在主脚本 project/app/statistic.py,"script_reads_project_data": 是否体现出从项目内的数据文件读取数据。代码里主要看是否引用了 A6_financial_data.csv,并且路径上体现了 data 目录或 Path(...),"script_counts_all_categories": 是否覆盖了题目要求统计的全部类别。脚本会检查源码里是否包含那 3 个目标类别名称,"script_writes_total_csv": 是否把统计结果写到 total.csv。代码里会看是否出现 total.csv,并且用了 to_csv、writer 或 open() 之类写文件方式,"submitted_total_exists": 是否已经提交了结果文件 project/result/total.csv,"submitted_total_correct": 已提交的 total.csv 内容是否正确。也就是各类别统计值是否和从原始数据推导出的期望值一致,"runtime_execution_success": 把项目复制到临时目录后,实际运行 project/app/statistic.py 是否成功。判定标准是退出码为 0 且没有超时,"runtime_total_generated": 实际运行后是否成功生成 result/total.csv,"runtime_total_correct": 实际运行生成的 total.csv 内容是否正确,"readme_has_install": project/README.md 是否包含安装说明。脚本会找类似 install、setup 等关键词,"readme_has_run": project/README.md 是否包含运行说明。脚本会找类似 run、usage 等关键词,"requirements_has_requests": project/requirements.txt 是否包含 requests 依赖,"score_percentage": 最终总分占比。前面这些计分项会一起归一化成 0 到 1 的分数}【QClaw的答案】:【对QClaw的评价结果】:{"project_root_exists": 1.0,"app_dir_exists": 1.0,"data_dir_exists": 1.0,"result_dir_exists": 1.0,"data_file_in_project": 1.0,"original_data_removed": 1.0,"statistic_py_exists": 1.0,"script_reads_project_data": 1.0,"script_counts_all_categories": 1.0,"script_writes_total_csv": 1.0,"submitted_total_exists": 1.0,"submitted_total_correct": 1.0,"runtime_execution_success": 1.0,"runtime_total_generated": 1.0,"runtime_total_correct": 1.0,"readme_has_install": 1.0,"readme_has_run": 1.0,"requirements_has_requests": 1.0,"score_percentage": 1.0}【StepClaw的答案】:【对StepClaw的评价结果】:{"project_root_exists": 1.0,"app_dir_exists": 1.0,"data_dir_exists": 0.0,"result_dir_exists": 0.0,"data_file_in_project": 0.0,"original_data_removed": 1.0,"statistic_py_exists": 1.0,"script_reads_project_data": 1.0,"script_counts_all_categories": 1.0,"script_writes_total_csv": 1.0,"submitted_total_exists": 0.0,"submitted_total_correct": 0.0,"runtime_execution_success": 0.0,"runtime_total_generated": 0.0,"runtime_total_correct": 0.0,"readme_has_install": 1.0,"readme_has_run": 1.0,"requirements_has_requests": 0.0,"score_percentage": 0.5}评分说明:project文件夹下的文件存在大量缺失,故扣分较多。对比示例三【任务类型】:研究分析【题目】:读取R5_industry_report.pdf长篇行业报告,提取提取市场规模、增长趋势、关键厂商发展情况等核心信息,输出为500字左右的摘要R5_report_analysis.md文件。【评分点介绍】:本题由自动化脚本和大模型二者混合进行评价,自动化脚本评价与大模型评价的权重为2:8。其中自动化脚本评价共设计3个得分点,每个得分点只有正确和错误两种情况,正确得1分,错误得0分,最后汇总正确的数量,除以总数,得到产品在本题的得分。{"char_count_valid": 中文字符数是否在 350 到 650 之间即判为正确,得1分,"has_structured_paragraphs": 是否有基本的段落结构。判断方式是按空行分段后,非空段落至少有 2 段,"has_numeric_evidence": 文中是否出现数字,说明内容里有数据证据支撑}大模型评分细则如下:请严格依据题目要求和输入文件(`R5_industry_report.pdf` 摘录)对模型生成的摘要 `R5_report_analysis.md` 进行评分。评分应围绕题目明确要求的“市场规模”、“增长趋势”、“关键厂商发展情况”三大核心信息展开。**核心评分原则:**1. **忠实原文**:所有结论、数据必须能在原文中找到明确依据。对于原文中不存在或信息不足的部分(如“关键厂商发展情况”),模型应如实反映或选择不写,严禁臆造。2. **摘要性质**:输出应为高度凝练的摘要(约500字),而非原文的简单摘抄或信息堆砌。3. **评分粒度**:每个标准独立打分,分数档位为 1.0 / 0.75 / 0.5 / 0.25 / 0。4. **职责分工**:字数范围、基础段落结构和是否包含数字证据已由脚本单独检查;本 rubric 重点评估信息提取、压缩质量与忠实度。### Criterion 1: 市场规模信息提取的准确性与完整性 (Weight: 25%)评估模型是否准确、完整地提取了报告中的市场规模核心信息。- **Score 1.0**: 准确提取了2024年中国内地调查行业的**总体规模(约188亿元)** 及其**同比变化(较2023年下滑6%)**。信息完整、无误。- **Score 0.75**: 提取了总体规模和变化趋势,但可能表述不够精确(如仅说“下滑”,未点明“6%”)或遗漏了年份。- **Score 0.5**: 仅提取了总体规模或变化趋势中的一项,另一项缺失或错误。- **Score 0.25**: 提及了市场规模相关的信息,但关键数字(188亿,6%)错误或缺失,信息很弱。- **Score 0.0**: 未提及任何关于市场规模(总额或变化)的有效信息。### Criterion 2: 增长趋势与行业结构变化的总结质量 (Weight: 20%)评估模型对行业增长趋势、客户结构变化等动态信息的总结是否清晰、准确。- **Score 1.0**: 准确总结了以下要点: 1. 行业整体呈现**下滑趋势**(-6%)。 2. 分行业看,**快消和公共部门仍是支柱**,但公共部门受财政影响占比下降,**汽车、耐用品、金融等商业类项目占比回升**。- **Score 0.75**: 总结出整体下滑趋势,并对分行业趋势变化有所提及,但不够完整或清晰。- **Score 0.5**: 仅描述了整体下滑趋势,未提及行业结构变化;或仅罗列了行业占比,未点明变化趋势。- **Score 0.25**: 对增长趋势的描述模糊或存在错误,信息很弱。- **Score 0.0**: 未覆盖任何增长趋势或行业结构变化的信息。### Criterion 3: 关键厂商/机构发展情况的覆盖与准确性 (Weight: 15%)评估模型对报告中“机构/厂商”层面信息的提取情况。**注意:** 报告中并未详细描述“关键厂商”的“发展情况”(如营收、市场份额等),因此本项评分更侧重于模型是否如实地反映了报告中有限的相关信息,或诚实说明信息的缺失。- **Score 1.0**: 准确识别并总结了报告中与“机构”相关的信息,例如: - 提及了**海外执行项目**是业务亮点,**24%的企业**有此类项目,其中**70%的企业营业额增长**。 - 提及了**人工智能应用**情况,**80%的企业有应用**,且大型企业更倾向于重点投入。 - 若模型因信息不足而选择**不编造任何“关键厂商”信息**,而是将重心放在其他核心信息上,可视为满分。- **Score 0.75**: 提取了上述部分机构层面的关键信息,但有所遗漏。- **Score 0.5**: 仅泛泛提及“企业面临挑战”或“需求方选择供应商的考虑因素”,未提取出与机构业务表现直接相关的核心数据点。- **Score 0.25**: 试图臆造或强行总结报告中不存在的“关键厂商发展情况”(如杜撰某公司市场份额)。- **Score 0.0**: 完全未提及任何与调研机构/服务商相关的信息。### Criterion 4: 摘要压缩质量与结构清晰度 (Weight: 20%)评估模型输出的“摘要”性质,是否做到了高度凝练、重点突出、结构清晰。- **Score 1.0**: 输出是高质量的摘要,字数控制在500字左右。信息组织逻辑清晰(例如按“市场规模-增长趋势-机构动态-挑战”结构),语言精炼,重点突出,无冗余信息。- **Score 0.75**: 整体符合摘要要求,但可能存在少量冗余、结构不够清晰或重点不够突出的情况。- **Score 0.5**: 更像是原文的摘抄集合,信息点堆砌,缺乏归纳和逻辑串联,重点不集中。- **Score 0.25**: 内容零散,条理混乱,难以作为摘要阅读。- **Score 0.0**: 不能视为有效摘要,例如只写了标题或只有一两句无关的话。### Criterion 5: 忠实原文与克制臆造 (Weight: 20%)评估模型在总结过程中是否严格遵循原文,是否存在无依据的推断、扩写或编造。- **Score 1.0**: 所有数据、结论和表述均在原文中有明确依据。未添加原文没有的“精确数字”、“趋势解读”或“厂商描述”。对于原文信息不充分的部分(如关键厂商发展),处理方式得当(如实说明或省略)。- **Score 0.75**: 整体忠实,但可能存在一两处轻微的、基于原文的合理引申,或细微信息点(如年份、百分比)的表述不够精确。- **Score 0.5**: 存在多处依据不足的判断或扩写,将原文中非直接的描述作为事实陈述。- **Score 0.25**: 存在明显的无依据扩写或错误解读,部分内容与原文事实不符。- **Score 0.0**: 存在严重的臆造行为,例如捏造了报告中完全不存在的市场规模、增长数据或关键厂商发展情况。【ArkClaw的答案】:# 《2024中国市场调查行业发展趋势报告》摘要*报告来源:中国信息协会市场研究业分会(CMRA),2025年6月发布*---## 一、市场规模2024年中国内地市场调查行业总规模约为 **188亿元**,较2023年下滑 **6%** 左右,行业经历小幅调整。从历史趋势看,行业在2021年达到峰值224亿元后,连续两年小幅收缩,主要受宏观经济环境和政府财政支出收缩影响。## 二、增长趋势与结构变化- 客户结构:**快消品(18%)和公共部门/公共事业(18%)** 仍然是市场两大支柱,但受政府财政收缩影响,公共部门占比同比下降2个百分点;**汽车制造(耐消品)、金融服务、制药医药** 等商业客户占比回升,各提升1-2个百分点。- 研究方法:**定量研究依然占比76%**,是行业最主要研究方式。与去年相比,**面访、CATI电话研究** 等传统调研方式应用占比提升(分别+2PT、+4PT),**在线定量、互联网大数据采集** 占比有所下降。## 三、关键厂商发展情况- 出海业务:**24%** 的调研企业已经在开展海外执行项目,其中 **70%** 的企业海外项目营业额实现增长,服务国内企业出海仍然是行业增长亮点。- 人工智能应用:**80%** 企业已经开始应用AI,以个人尝试和局部环节试点为主,**5000万营业额以上**的大型企业投入力度明显大于中小企业。## 四、需求侧变化需求侧方面,2024年呈现**量降价缩**态势:约一半客户项目数量增加,但只有四成客户预算增加,需求方面临"更少预算做更多项目"的压力。53%的客户提高了内部完成比例,外部委托占比下降。需求方选择供应商,**团队专业水平(80%)、数据质量(71%)、价格(59%)** 是前三考虑因素,大型企业对创新方法工具要求更高。---**全文约 490 字**【对ArkClaw的评价结果】:脚本评分:{"chinese_char_count": 513,"has_structured_paragraphs": true,"has_numeric_evidence": true,"script_score_normalized": 1.0}大模型评分: {"market_size_score": 1.0,"growth_trend_score": 1.0,"vendor_coverage_score": 1.0,"summary_quality_score": 1.0,"faithfulness_score": 1.0,"reasoning": "摘要准确提取了188亿元市场规模及下滑6%的数据;清晰总结了快消与公共部门的结构变化;如实反映了机构在出海业务和AI应用方面的发展情况;结构清晰,高度凝练,且所有数据均忠实于原文,无臆造。","raw_response": "{\"market_size_score\": 1.0, \"growth_trend_score\": 1.0, \"vendor_coverage_score\": 1.0, \"summary_quality_score\": 1.0, \"faithfulness_score\": 1.0, \"reasoning\": \"摘要准确提取了188亿元市场规模及下滑6%的数据;清晰总结了快消与公共部门的结构变化;如实反映了机构在出海业务和AI应用方面的发展情况;结构清晰,高度凝练,且所有数据均忠实于原文,无臆造。\"}","llm_score_normalized": 1.0}加权汇总:{"total_score": 0.2*1.0+0.8*1.0=1.0}【DuClaw的答案】:# 2024年中国市场洞察行业发展趋势报告摘要## 一、市场规模与整体趋势根据CMRA(中国信息协会市场研究业分会)发布的报告,**2024年中国内地调查行业规模约为188亿元人民币**,较2023年下滑约6%,延续了自2021年以来的下行趋势。从2015年至2024年,行业经历了从高速增长到逐步调整的过程,2020年曾达到约210亿元的峰值。## 二、行业结构与客户分布**快消品和公共部门/公共事业**继续是市场研究的两大支柱领域。受政府财政支出紧缩影响,2024年公共部门项目占比有所下降。与此同时,**汽车制造、耐消品、金融和制药**等商业类项目占比回升,显示出商业客户需求的复苏迹象。在研究方法方面,**定量研究仍占主导地位(76%)**。值得注意的是,与2023年相比,传统的面访、CATI电话调研方式应用占比提升,而在线定量和互联网大数据采集有所下降,反映出研究方法向传统回归的趋势。## 三、海外市场拓展2024年有**24%的调研企业运作了海外执行项目**,其中70%的企业海外项目营业额实现增长。服务国内出海企业仍是业务亮点,海外营业额在千万元以上的企业与2023年持平。然而,出海项目面临的主要挑战包括:对当地文化和社会习俗了解不足(40%)、缺少当地用户资源(40%)以及调研成本高昂(44%)。## 四、人工智能应用现状人工智能在行业中的应用总体积极,**80%的企业已有AI应用**,其中以个人尝试和局部环节试点为主。5000万营业额以上的大型企业、服务范围涵盖研究的公司更倾向于在人工智能应用上重点投入。使用方式上,除主流的在线联机直接使用外,约40%企业进行了本地化部署。## 五、行业面临的主要挑战调研公司面临的压力呈现内外分化:- **外部压力上升**:项目产出要求提高(+6PT)、客户需求难以把握(+9PT)、大数据冲击传统研究(+8PT)- **内部压力改善**:雇员成本提高(-4PT)、人才短缺(-3PT)等问题有所缓解## 六、需求方视角约半数需求方项目数量增加,但仅**40%增加了洞察预算**,显示出"用更少预算做更多项目"的挑战。53%的需求方表示内部完成比例增加,但趋势较上年减缓。在选择供应商时,**团队专业服务水平(80%)、数据质量(71%)和价格(59%)**是三大核心考量因素。---*数据来源:中国信息协会市场研究业分会(CMRA)《2024年中国市场洞察行业发展趋势报告》**报告基于对111家市场调研机构和需求方的问卷调查*【对DuClaw的评价结果】:脚本评分:{"chinese_char_count": 749,"has_structured_paragraphs": true,"has_numeric_evidence": true,"script_score_normalized": 0.6667}大模型评分: {"market_size_score": 1.0,"growth_trend_score": 1.0,"vendor_coverage_score": 1.0,"summary_quality_score": 1.0,"faithfulness_score": 0.75,"reasoning": "摘要准确提取了市场规模、增长趋势及机构动态等核心信息,结构清晰。但存在细节错误:2021年224亿才是峰值而非2020年;雇员成本压力改善应为-8PT而非-4PT,故忠实度扣分。","raw_response": "{\"market_size_score\": 1.0, \"growth_trend_score\": 1.0, \"vendor_coverage_score\": 1.0, \"summary_quality_score\": 1.0, \"faithfulness_score\": 0.75, \"reasoning\": \"摘要准确提取了市场规模、增长趋势及机构动态等核心信息,结构清晰。但存在细节错误:2021年224亿才是峰值而非2020年;雇员成本压力改善应为-8PT而非-4PT,故忠实度扣分。\"}","llm_score_normalized": 0.95}加权汇总:{"total_score": 0.2*0.6667+0.8*0.95=0.89334}评分说明:1.markdown文档中的字数超过限定范围,故此处脚本评价得0分;2.产品答案中提到“2020年曾达到约210亿元的峰值”,下图是报告截图,峰值并不在2020年,此处错误;3.产品答案中提到“雇员成本提高(-4PT)”,下图是报告截图,可以发现并不是-4PT,此处错误。附各龙虾产品链接:1.ArkClaw:https://www.volcengine.com/docs/82379/2229107?lang=zh2.KimiClaw:https://www.kimi.com/bot3.MaxClaw:https://maxclaw.ai/4.WorkBuddy:https://www.codebuddy.cn/work/5.AutoClaw:https://autoglm.zhipuai.cn/autoclaw/6.CoPaw:https://www.aliyun.com/solution/tech-solution/copaw7.DuClaw:https://cloud.baidu.com/product/duclaw.html?from=home_banner8.QClaw:https://qclaw.qq.com/9.StepClaw:https://www.stepfun.com/chats/openclaw# 参测流程1.邮件申请2.意向沟通3.参测确认与协议流程4.提供API接口或大模型5.获得测评报告# 邮件申请邮件标题:SuperCLUE-XClaw 测评申请,发送到contact@superclue.ai请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式# 联系我们