圖片來源@pixabay
AI能力落地是當下最熱門的話題,從走下技術(shù)神壇,到真正賦能場景和業(yè)務,撥開輿論的重重迷霧,真實情況如何?我們將以“真相”為主線,持續(xù)推出系列稿件,理性觀察AI技術(shù)應用落地的現(xiàn)狀和未來,也歡迎產(chǎn)業(yè)各方參與話題討論。
“AI替代程序員”的言論甚囂,AI編程(AI Coding)也正被多方共同塑造為“大幅提升企業(yè)開發(fā)效率潛力”的形象。但在大廠和創(chuàng)企產(chǎn)品競賽、企業(yè)內(nèi)部應用不甘落后之外,仍處在探索期的AI編程,自面世至今備受質(zhì)疑。
近日,一支由國際算法奧賽金牌得主組成的科研團隊推出了 LiveCodeBench Pro 基準測試,結(jié)果讓人大跌眼鏡:GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型,在來自頂級賽事的最新584道編程賽題上展開對決,在高難度題目上,所有AI的通過率是——0%。(相關(guān)報道《AI替代程序員?一項最新測試的結(jié)果恰恰相反 | 企服國際觀察》)
可以說,脫離了網(wǎng)絡信息作為訓練數(shù)據(jù),不能“作弊”,AI的編程能力遠沒有外界吹捧的那么神乎其神。
而且,在關(guān)于AI編程的熱議中,作為最卷也最容易接受創(chuàng)新事物的程序員群體,隨著更多實際應用,對AI編程工具也在祛魅。
“出于信息安全的考慮,安全部門會禁止使用AI大模型,即便是本地部署。但同時,業(yè)務部門經(jīng)理會要求所有開發(fā)人員必須使用大模型以提高性能。每個部門都矛盾,但又認為自己的做法正確。公司裁員后,我們將績效提高了1倍多,但事實上沒有任何工具能夠幫我們實現(xiàn)這一目標。”
“大多數(shù)出于數(shù)據(jù)合規(guī)保密不讓用外部商業(yè)化成型的AI工具,內(nèi)部的IDE插件又不太好用,加上大廠上下游太多,潛在業(yè)務知識太多,‘屎山’(結(jié)構(gòu)混亂、難以理解和維護的代碼)太多,導致很多時候也要自己將業(yè)務知識翻譯成Prompt時間也多,所以總的來說性價比不太高。”
“去年Claude推出編程功能時,我興奮得不行。想象一下:描述想法,代碼自動生成,效率提升10倍。半年下來,有驚喜也有血淚教訓。最大的收獲是:AI很強,但需要人類劃清邊界。”
“此前完全沒碰過Cursor,focus可能還在傳統(tǒng)的完成一些task,但殊不知在外面的世界,現(xiàn)在提升的技能或知識已經(jīng)完全不重要了。以我的視角來看,現(xiàn)在非常需要使用AI的經(jīng)驗,我想說AI是個工具,如何合適的使用它來幫助到自己才是本事。”
“人用AI寫代碼和自己寫代碼的唯一區(qū)別是,用AI寫代碼你意識不到自己是在用自然語言編程,即使是自然語言,也不能只給出需求,自然語言編程也需要編程的邏輯和規(guī)范設計。”
在筆者與多位業(yè)內(nèi)從業(yè)者交流中,一個共識越來越清晰:AI尚無法取代人類,只是在重塑開發(fā)者的角色定位。基于大模型本質(zhì)和產(chǎn)品成熟度的因素,部分開發(fā)人員依然對AI編程無法接受,這類工具還未能快速普及。
是否值得信任是關(guān)鍵考量。根據(jù) Cloudsmith 的《2025 Artifact管理報告》,三分之一的開發(fā)人員在每次部署之前并未審查AI生成的代碼,這意味著“很大一部分”代碼未經(jīng)審查,這給供應鏈帶來了越來越大的漏洞。AI將成為軟件堆棧的關(guān)鍵貢獻者,而信任模型、工具和策略尚未跟上。而且,依靠人工審查代碼是不可持續(xù)的。
更現(xiàn)實的問題是,AI編程產(chǎn)品并不便宜,說服讓先一步用上AI編程的企業(yè)花更多錢,特別是已經(jīng)達到IT預算上限的客戶,其實并不容易。
高盛作為微軟GitHub Copilot的早期客戶,為其約1.2萬名開發(fā)人員每人購買了該工具的月度訂閱,每年花費數(shù)百萬美元。該客戶最近同樣在關(guān)注Copilot之外的競品,這也迫使微軟調(diào)整定價策略:也可以基于用戶的使用量,而不是純訂閱模式,同時推出Agent等新功能產(chǎn)品以說服客戶追加預算。
反觀國內(nèi),雖然大廠和不少創(chuàng)企也在紛紛入局,無論是爭論原生IDE還是插件,Agent是實時還是異步,除了技術(shù)產(chǎn)品的差距需要跟進外,商業(yè)化就當前的國內(nèi)市場環(huán)境而言,其實更為艱難。
AI編程核心支撐在于大語言模型,或由微調(diào)模型如OpenAI的Codex提供支持,能夠自動補全代碼、提供調(diào)試建議、根據(jù)自然語言提示編寫完整腳本。正因如此,越來越多的AI編程工具如GitHub Copilot、Cursor出現(xiàn),并被納入企業(yè)日常開發(fā)工作流程之中。
但一些企業(yè)已經(jīng)意識到現(xiàn)階段AI編程助手存在的弊端。
2023年,GitHub Copilot因訓練數(shù)據(jù)合法性陷入訴訟,原因在于AI生成的代碼可能包含來自MTL、GPL等開源協(xié)議的下的代碼,而這些代碼并未經(jīng)GitHub Copilot屬性聲明。同年,武漢大學等六所高校針對GitHub Copilot生成代碼的安全性提出質(zhì)疑,并指出Copilot生成的代碼可能包含安全漏洞,開發(fā)人員在接受Copilot生成的代碼之前,應進行嚴格的安全審查。
今年3月,AI編程軟件Lovable被發(fā)現(xiàn)存在重大漏洞:使用Lovable構(gòu)建的應用存在泄露用戶個人信息的情況,同時還會泄露Lovable客戶用于訪問其他服務的密碼。隨后這類問題被Lovable解釋為“并非自家獨有,任何面向非專業(yè)開發(fā)者的AI編程產(chǎn)品都面臨類似的問題。”Lovable為此推出了一款“安全掃描”的新功能,旨在檢測漏洞,才將此事平息。
筆者注意到,不少海外企業(yè)公開表示,AI生成的代碼有時并不能按預期運行,甚至更糟的是,可能使其更易受黑客攻擊或數(shù)據(jù)泄露。如果將AI編程生成的軟件直接用作系統(tǒng)運行,很可能會給企業(yè)留下一個缺陷性產(chǎn)品。
原因在于,AI并不能真正理解代碼邏輯,而是基于概率模型生成看似合理的代碼,這意味著,AI編程可能存在潛在的錯誤或安全漏洞。
為了防范AI生成代碼中潛伏的風險,一些企業(yè)已開始明確提醒其工程師不要發(fā)布任何未經(jīng)人工審核的軟件。
營銷分析軟件公司Amplitude制定了一項政策,要求所有AI生成的代碼在客戶使用前都要經(jīng)過審核。同時,Amplitude更傾向于使用托管在自有服務器上的模型,而不是基于云端數(shù)據(jù)中心運行。此外,Amplitude也會事先提示模型有限考慮其生成的代碼安全性,或者要求模型事后檢查自身代碼是否存在缺陷。
國內(nèi)企業(yè)市場,這種情況也正在上演。
對于具備強大自研團隊及能力的互聯(lián)網(wǎng)企業(yè),或出于安全和內(nèi)部研發(fā)訴求的因素,會首先考慮自研工具。
字節(jié)跳動公開表示,目前超過80%的工程師在使用其開發(fā)的TRAE產(chǎn)品輔助開發(fā)。但此前5月,字節(jié)跳動安全與風控部門曾發(fā)布內(nèi)部郵件稱,出于對防范數(shù)據(jù)泄露風險的考慮,自6月30日起,將在內(nèi)部分批次禁用第三方AI開發(fā)軟件,包括AI編程工具Cursor、Windsurf等,并將Trae作為替代方案。
美團在6月初發(fā)布AI編程類工具NoCode,集成了美團自研千億參數(shù)規(guī)模的模型LongCat。作為一款服務于內(nèi)部員工,并希望將能力進一步開放給外部人員的軟件工具,美團基礎研發(fā)平臺智能開發(fā)工具負責人俞超對筆者解釋,“大公司自研工具往往源自于自身訴求,而多數(shù)純商業(yè)軟件無法滿足企業(yè)內(nèi)部研發(fā)場景,企業(yè)自身研發(fā)流程進行深度優(yōu)化。”
對于企業(yè)而言,一些需要通過外部采購快速構(gòu)建的業(yè)務系統(tǒng)領域,要在保證數(shù)據(jù)安全的前提下,考慮整個研發(fā)流程及系統(tǒng)運維的便捷性。
“大家都知道汽車行業(yè)競爭非常激烈,對于功能的快速開發(fā)有強烈訴求。同時,維護周期也非常長。所以車企對于效率有要求,對質(zhì)量要求更高。”蔚來汽車資深工程師揭曉表示。近兩年,蔚來汽車開始逐步將AI編程工具用于模板生成、單元測試自動生成等內(nèi)部研發(fā)場景。
2024年初,蔚來汽車從微軟Github Copilot切換到了阿里云通義靈碼。談及當時為什么會最終選擇通義靈碼,揭曉指出,核心就是代碼安全問題,“雖然在此之前內(nèi)部曾小范圍使用過一段時間Copilot,但出于數(shù)據(jù)跨境風險的考慮,標準化的海外產(chǎn)品其實并不適合于在全公司內(nèi)大范圍推廣。”
回顧此次國內(nèi)選型,其實能夠在AI編程領域投入資源的廠商并不多,背靠大廠資源的通義靈碼,在產(chǎn)品及模型層面更接近于海外產(chǎn)品,且工程化層面成熟度高,“不可否認,國外模型會有一定優(yōu)勢,回答的更簡潔,準確性一定場景下會更好。但我們也會看重一些產(chǎn)品功能上的細節(jié)點,在產(chǎn)品設計尤其是安全性層面的前瞻性。”揭曉指出。
蔚來汽車用上了通義靈碼,但目前并未采用其提供的私有化部署解決方案,即大模型、服務部署在企業(yè)內(nèi)網(wǎng),與外網(wǎng)形成隔離。
揭曉告訴筆者,“雖然這種方案可以實現(xiàn)100%安全,但當前來看沒有采取的核心原因有兩點:一是貴,二是升級和維護非常麻煩,網(wǎng)絡隔絕就是需要廠商時刻派人進行升級維護。”
對于技術(shù)自信的開發(fā)人而言,AI編程如同無法了解代碼來源及工作原理的“黑箱”,如何推動他們深層次使用?
幾個月前,微軟高管就一直在鼓勵內(nèi)部員工更多地使用AI編程以加快軟件開發(fā)。據(jù)悉,微軟幾個負責研發(fā)提效的團隊已經(jīng)設置一些監(jiān)測工具,用于追蹤基于Copilot生成的代碼量。
而與此同時,微軟最新一項6000名員工的裁員計劃中,有一部分員工來自軟件工程師。盡管微軟發(fā)言人在一份聲明中表示,公司并非用AI取代現(xiàn)有人員崗位,而是利用技術(shù)來提高效率,但其明顯意圖在于,工程師需要轉(zhuǎn)型成為“人工智能提示工程師”,向AI編程助手發(fā)出指令,而不是從頭開始編寫代碼的傳統(tǒng)程序員。
基于近段時間服務銀行業(yè)客戶的實踐,神州信息新動力數(shù)字金融研究院副院長薛春雨向筆者分析表示,“目前銀行業(yè)對科技驅(qū)動這件事情是積極的,但在實際推行過程中同樣面臨問題:一是設計文檔的問題,大模型訓練所需的上下文數(shù)據(jù)明顯不足;二是開發(fā)人員接受度,以及銀行內(nèi)部降本增效帶來的抵觸因素;三是銀行特有的業(yè)務場景,比如數(shù)據(jù)的開發(fā)跟交易的開發(fā)并不一樣。”
俞超認為,“當前(國內(nèi))整體的AI編程的滲透率還不夠高,大部分人還沒有用好。”從他目前的觀察來看,主要有兩類群體對AI編程存在消極態(tài)度:一類是工作時間長且認為自身代碼能力強的不愿意嘗試;還有一類是雖然愿意嘗試,但本身這類程序員的代碼可讀性就差,連注釋都沒有,都是文件上建補丁,其實這類群體也不見得能用好AI。
基于對AI編程未來的樂觀態(tài)度,俞超認為,“未來具備良好編程基礎、有強烈意愿且動手能力強的程序員,在AI編程時代將具備明顯的核心競爭力。同時,模型能力也在發(fā)展,可能未來開發(fā)者也不需要具備特別強的編程素質(zhì),就能夠完成一些端到端的開發(fā)。”
在美團內(nèi)部,NoCode 去年年底就上線了,產(chǎn)品、設計用來畫原型,HR、行政團隊等非技術(shù)人員也開始利用該產(chǎn)品解決工作中遇到的問題,甚至有人通過對話幾百輪構(gòu)建出完整的系統(tǒng),而在此之前他們毫無編程經(jīng)驗。
而很多人可能會忽略工具平臺的統(tǒng)一性問題。在揭曉看來,“至少要保證在同一個部門或公司內(nèi)部實現(xiàn)AI編程工具的統(tǒng)一。”比如寫一份培訓文檔,就很難在另一個工具上進行復現(xiàn),自定義Prompt、項目規(guī)范、RAG等,維護起來也非常麻煩。
“即便AI能夠產(chǎn)生結(jié)果上的代碼,但并不意味著這種質(zhì)量和效果,是可以滿足公司的迭代演進和維護訴求,往往還需要優(yōu)秀程序員對整個架構(gòu)做把關(guān)。”揭曉表示。
能夠看到,企業(yè)客戶現(xiàn)在很熱情的擁抱大模型,但能不能節(jié)省開發(fā)人員,以及生成的代碼可不可用,都還是問題。
一位開發(fā)人員則對筆者表示,在使用AI的過程中,發(fā)現(xiàn)最頭疼的就是AI不太適合做高層級抽象的設計,而更適合做具體的任務。此外,從價值角度判斷,很難準確說明AI編程對企業(yè)研發(fā)效率和質(zhì)量的提升,只能說“部分場景的價值比較明顯,但距離理想狀態(tài)還有一定差距。”
AI編程的落地速度加快,一些共識已潛移默化中達成。筆者整理并結(jié)合訪談發(fā)現(xiàn),業(yè)內(nèi)多數(shù)專家提及了基礎模型能力提升對AI編程工具的影響。
去年,Cursor的開發(fā)商Anysphere發(fā)布了自研模型Cursor-Fast,OpenAI計劃以30億美金收購AI編程助手開發(fā)商Windsurf,后者隨后發(fā)布SWE-1模型,被認為其核心目的是提高模型自主能力,并控制成本。
騰訊云開發(fā)者產(chǎn)品總經(jīng)理劉毅在解釋其代碼助手CodeBuddy時提到,下一段研發(fā)提效的瓶頸有三方面:大模型對人輸入的指令感知不夠精確、對復雜工程的理解與處理能力不足,以及軟件工程各階段的協(xié)作工具與信息傳遞仍然割裂。
5月末,通義靈碼產(chǎn)品技術(shù)負責人陳鑫(神秀)在關(guān)于通義靈碼AI IDE升級的交流中指出,“在未來AI編程領域,一定是端到端的競爭,即應用+模型+AI infra的整體能力,這樣才能實現(xiàn)更好的性價比和自主優(yōu)勢。”
俞超也對筆者表示,“業(yè)內(nèi)普遍共識是2027年之前會實現(xiàn)完整的端到端自動化。回顧過去兩年,AI編程的進步,更多也是底層模型的能力帶來的。隨著模型能力的提升,模型出錯的概率會越來越小,當前很多的技術(shù)方案、架構(gòu)可能會隨著技術(shù)進步而逐步過時。”
比如,Cognition公司的Devin很早就做出來了,但效果沒有跟上,也是因為模型能力提升不足。當每個階段模型的窗口和推理能力、推理速度等沒有達到時,就需要通過大量的工程去解決問題。
俞超的判斷是,“可能剛開始模型能力不強時,需要做大量工程化技術(shù)去做優(yōu)化,但未來隨著模型發(fā)展和推理能力的提升,未來的應用架構(gòu)可能會變得更為簡單,不再依賴大量工程優(yōu)化來彌補模型問題。”
如今,AI編程在海外市場已進入一番纏斗狀態(tài):
大模型公司Anthropic在2月推出了自己的AI編程工具Claude Code,隨后又在近日突然切斷了Windsurf對Claude系列模型的訪問。
而在Anthropic和Windsurf的PK之外,Cursor已經(jīng)在大肆攻城略地,與GitHub Copilot不相上下,前者的年化收入已突破5億美元。
同樣,微軟試圖繞開OpenAI,選擇Anthropic的Claude模型,而OpenAI不希望微軟獲得Windsurf的知識產(chǎn)權(quán),指控微軟反競爭。
與海外正面搏斗相反的是,在國內(nèi),很多AI編程產(chǎn)品或迫于生態(tài)與產(chǎn)品的不成熟,競爭關(guān)系較為緩和,且沒有明確的商業(yè)化指向。
國內(nèi)頭部云廠商推出了自己的AI編程工具,AI大模型廠商也推出了微調(diào)模型或AI代碼工具,部分AI編程初創(chuàng)公司則在挖掘Agent創(chuàng)新應用。
在初創(chuàng)陣營中,尤為引人矚目的是聚焦海外市場的YouWare,該公司已籌集2000萬美元融資,其投資者包括五源資本、真格基金、高瓴資本等風投,截至去年11月,其估值已達8000萬美元。YouWare創(chuàng)始人明超平是月之暗面前核心產(chǎn)品負責人。
他在一次訪談中提到,“Cursor、Windsurf等公司在服務專業(yè)程序員方面做得很好,但半專業(yè)人士的需求還有很大的待開發(fā)空間,這些人一行代碼都不會寫,但出于需要或創(chuàng)造力,他們渴望進行開發(fā)。”
YouWare基于Claude 3.7 Sonnet模型,并向Claude 4 Sonnet過渡。目前對于該公司而言,核心問題是用于支撐模型的計算資源的成本支出卻不菲,其每天處理數(shù)千項任務,處理用戶每項任務的平均成本為1.5美元至2美元。
目前看來,國產(chǎn)工具的一個優(yōu)勢變化在于,中美雙方在模型上的差距,以及產(chǎn)品上的差距在逐步縮小。
神秀指出,“目前AI編程的市場滲透率在快速提高。那么在這個差距逐漸縮小的背景下,國產(chǎn)的AI編程工具不僅存在數(shù)據(jù)安全隱私合規(guī)的保證,還有性價比,以及IDE生態(tài)的選擇性上的優(yōu)勢。”
俞超在對比使用了幾款海外AI編程工具后得出的結(jié)論是:“除了模型之外,海外產(chǎn)品同樣有兩點值得參考:一是速度,尤其是Cursor的產(chǎn)品迭代速度非??欤踔烈惶煊袔装姹镜?;二是對產(chǎn)品細節(jié)的打磨。”這一點在Cursor身上就體現(xiàn)非常明顯,比如UI、操作流程上,都能讓開發(fā)者實現(xiàn)沉浸式編程。對比之下,國內(nèi)產(chǎn)品不僅要打磨好產(chǎn)品,提升模型能力,在此前提之下進一步培養(yǎng)用戶的付費意愿。
就在半月前,Cursor CEO Michael Truell在接受Y Combinator的訪談中提到一點,AI編程工具的護城河在于用戶規(guī)模和產(chǎn)品快速迭代。
競爭可能才剛開始。但可以肯定的是,AI編程需要先解決核心的技術(shù)工程化難題,才有上牌桌的機會。(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達,張申宇、張帥對本文亦有貢獻。)
AI落地的真相是什么?鼓吹派和保守派都說了很多,我們想多聽到實干派的聲音。
如果你是AI編碼的使用者、部署者,亦或是受害者,你的第一現(xiàn)場感受和體驗都是我們非常歡迎的。
如果你也有話要說,歡迎聯(lián)系我們,參與話題討論,發(fā)表你的見解。
如果你的觀點足夠獨到、精彩,我們也想邀請你9月來三亞,在數(shù)字價值年會上講一講。你也將有機會遇到更多和你一樣的實干派。
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論