Sáng nay, Anthropic chính thức vượt qua OpenAI, công bố định giá mới và phát hành Claude Opus 4.8, phiên bản mới nhất của dòng sản phẩm chủ lực, vốn đã được đồn đoán trong hai ngày qua.
Sáng nay, Anthropic chính thức vượt qua OpenAI, công bố định giá mới và phát hành Claude Opus 4.8, phiên bản mới nhất của dòng sản phẩm chủ lực, vốn đã được đồn đoán trong hai ngày qua. Chúng tôi đã có trong tay ngay lập tức và thu thập phản hồi ban đầu từ cộng đồng người dùng. Kết luận là: nó mạnh mẽ hơn, nhưng "tính cách" của nó trở nên khó làm việc hơn. Thử nghiệm APPSO: Bộ não đã được nâng cấp, nhưng miệng thì biến mất. Chúng tôi không sử dụng các kịch bản benchmark do Anthropic chuẩn bị, mà thay vào đó thử nghiệm với nhu cầu thực tế của riêng mình: trích xuất và lưu trữ toàn bộ lịch sử hội thoại từ một nền tảng cộng tác trực tuyến. Khối lượng dữ liệu hơn 30MB, nằm rải rác khắp giao diện người dùng, mà không có nút xuất dữ liệu dễ dàng. Loại nhiệm vụ này không kiểm tra xem mô hình có thể viết mã hay không, mà là liệu nó có thể làm việc với một nhà phát triển không chuyên để tìm ra và hoàn thành nhiệm vụ từ đầu hay không. Khởi đầu là một khám phá tình cờ. Các đồng nghiệp thử nghiệm của chúng tôi nhận thấy giao diện người dùng của nền tảng thỉnh thoảng lại nhấp nháy các bản ghi lịch sử cũ, như thể dữ liệu được tải lên máy khách trong giây lát rồi bị thu hồi. Anh ấy đã chuyển quan sát này cho nhóm 4.8 mà không có bất kỳ mô tả kỹ thuật nào, chỉ đơn giản nói bằng ngôn ngữ dễ hiểu: "Tôi thấy một số tin nhắn cũ nhấp nháy rồi biến mất."
4.8 Tôi hiểu ý anh ấy và đưa ra nhận định chính xác: dữ liệu được tải qua yêu cầu giao diện và có thể bị chặn ở lớp mạng của trình duyệt. Sau đó, tôi đã cung cấp một kế hoạch hoạt động, hướng dẫn các bước: công cụ dành cho nhà phát triển, bảng điều khiển Mạng, lọc từ khóa và định vị yêu cầu mục tiêu. Nhận định chính xác và suy nghĩ rõ ràng. Nhưng đây là điểm mâu thuẫn trong mục 4.8: khả năng tư duy mạnh mẽ, nhưng cách diễn đạt lại... rườm rà. Mọi giải pháp kỹ thuật đều đúng, nhưng phần giải thích cho mỗi bước lại cần đến hai hoặc ba câu. Bạn hỏi về một phương pháp, và đầu tiên nó đưa ra câu trả lời "Tất nhiên! Hãy cùng làm từng bước một", sau đó liệt kê một danh sách các điểm cần làm, rồi thêm một "giải thích bổ sung" ở cuối danh sách để giải thích lý do tại sao nên làm theo cách này. Những gì có thể giải thích bằng ba câu lại chiếm đến ba màn hình văn bản. Tôi chỉ không biết lập trình, chứ không phải là não tôi bị mất kiểm soát.
Đây không phải là vấn đề mới trong phiên bản 4.8; đó là một vấn đề tồn tại lâu dài trong dòng sản phẩm Opus kể từ phiên bản 4.7. Mặc dù đã bị chỉ trích nhiều lần, phiên bản này vẫn không được cải thiện và thậm chí có thể còn tệ hơn. Phần tốn thời gian nhất là giai đoạn sửa lỗi: sau giải pháp đầu tiên, người dùng gặp phải lỗi. Phiên bản 4.8 đã xác định chính xác vấn đề, cung cấp giải pháp mới và không lặp lại các bước đã thất bại. Điều này chắc chắn tốt hơn so với phiên bản 4.6, nơi mà lỗi đôi khi quên những gì đã được thử trong nhiều vòng sửa lỗi. Thừa nhận sai lầm là tốt, nhưng không cần phải quá cứng nhắc. Việc thêm phân tích nguyên nhân và danh sách gạch đầu dòng khiến nó giống như một email chăm sóc khách hàng, mặc dù nó được cho là một bản đánh giá vấn đề kỹ thuật.
Cuối cùng, dữ liệu đã được xuất hoàn toàn ở định dạng HAR, và quá trình làm sạch và phân lớp bằng các tập lệnh tùy chỉnh đều được hoàn tất thành công. Một số người dùng vẫn chưa nhận được bản cập nhật Claude Code, nhưng Claude dành cho Chrome hiện đã ở phiên bản 4.8 và cũng đã được triển khai cho các công cụ văn phòng lớn như Notion. Chúng tôi đã thử nghiệm sử dụng Claude để thực hiện các tác vụ cơ bản như tìm kiếm và điền vào biểu mẫu trong Chrome.

一个能干活但不会聊天的同事如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。这与其说是「缺点」,不如说是一种设计选择。Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
总体来看,Opus 4.8 是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。
尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。