
https://runwayml.com/research/introducing-runway-gen-4.5
Runway推出視頻模型Gen-4.5,以1247的Elo分數(shù)位居Artificial Analysis文生視頻基準的榜首。模型在預訓練數(shù)據(jù)效率和后訓練技術方面進步顯著,在保持Gen-4的速度和效率的同時,樹立了可控動作生成、時序一致性、控制精度等的新標準,支持多種藝術風格。
https://seed.bytedance.com/en/seedream4_5 字節(jié)跳動推出Seedream 4.5,可在多圖組合中精準識別并穩(wěn)定鎖定主體,保持原圖特征與細節(jié)質感,同時進一步強化海報等密集文字的排版渲染能力,相較Seedream 4.0,在指令遵循、一致性、美學表現(xiàn)等維度實現(xiàn)全面提升。 https://www.vidu.com/zh 生數(shù)科技升級Vidu Q2參考生圖功能,同時上線文生圖、圖像編輯功能,一致性效果驚艷,尤其圖像編輯功能躋身Artificial Analysis榜單前四,比肩Nano Banana 2。支持一站式多參工作流,生成速度最快5秒。 https://bytedance.github.io/vidi-website 字節(jié)跳動推出視頻理解模型Vidi2,能夠以細粒度的時空定位能力(STG)更好地理解視頻,實現(xiàn)全面的多模態(tài)推理。Vidi2可以根據(jù)文本問詢精準定位到視頻中對應事件發(fā)生的時間,并且在畫面中用邊界框標出對應主體的空間位置,可應用于復雜的編輯場景。Vidi2在兩個時間檢索和時空定位的基準的表現(xiàn)超過Gemini 3 Pro(Preview)和GPT-5。 https://x.com/Kling_ai/status/19954499505199 快手Kling AI發(fā)布:多模態(tài)創(chuàng)作工具Kling O1,可穩(wěn)定保持角色和場景的一致性;圖像生成和編輯模型Kling Image O1,支持多張參考圖像的特征抓取和主體一致性;音頻-視頻模型Kling 2.6,能夠生成搭配音頻的視頻,支持口型對齊、樂器演奏、音效生成,目前僅支持中英雙語;KlingAI Avatar 2.0,可生成時長五分鐘的虛擬形象演繹,表情豐富、口型對齊。 https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf DeepSeek推出DeepSeek-V3.2,主要技術突破包括:1. 推出注意力機制DSA,能夠在長上下文場景中保持性能的同時,大幅降低計算復雜度;2. 可擴展增強學習框架,讓DeepSeek-V3.2實現(xiàn)不輸GPT-5的性能,另外還有高算力衍生版DeepSeek-V3.2-Speciale,推理性能比肩Gemini-3.0-Pro;3. 大規(guī)模智能體任務合成管線,能夠系統(tǒng)性、規(guī)?;厣捎柧殧?shù)據(jù),將推理融入工具使用場景,在復雜的交互環(huán)境中顯著提升智能體的泛化能力和指令遵循能力。 https://mistral.ai/news/mistral-3 Mistral AI開源Mistral 3系列模型,包括參數(shù)分別為140億、80億和30億的三個小模型。同時推出總參數(shù)6750億的稀疏MoE模型Mistral Large 3,LMArena ELO Score分數(shù)接近DeepSeek v3.2。 https://z-image.ai 阿里通義團隊開源圖像生成模型Z-Image(造相),速度優(yōu)先的Turbo蒸餾版參數(shù)60億,支持行業(yè)領先的高清畫質、中英雙語文本渲染,有提示詞增強器賦予模型推理能力,從而融合世界知識、生成內(nèi)容,Elo得分位居開源模型榜首。另外還有待發(fā)布的面向微調與研究的完整版模型Z-Image-Base,以及面向圖像編輯的衍生版Z-Image-Edit,通過自然語言指令進行圖像轉圖像。 https://3d.hunyuan.tencent.com/login?redirect_url=https%3A%2F%2F3d.hunyuan. 騰訊混元3D Studio升級到1.1版,接入3D生成模型PolyGen 1.5,實現(xiàn)端到端四邊形網(wǎng)格生成,PolyGen 1.5可以直接學習四邊形拓撲結構,適用于游戲開發(fā)、動畫設計、VR內(nèi)容創(chuàng)作等。 https://hunyuanocr.org 騰訊混元開源端到端OCR專家視覺-語言模型HunyuanOCR,參數(shù)10億,將檢測、識別、解析、翻譯和信息提取功能整合到一個統(tǒng)一的流程中,這樣就不需要額外的模型或者復雜的預處理步驟了,提高模型的部署運行效率。HunyuanOCR在文本識別、復雜文檔解析、開放字段信息提取、字幕提取和圖片翻譯方面表現(xiàn)出色,能夠準確處理多語種內(nèi)容以及復雜的文檔布局,在多項OCR任務和基準的表現(xiàn)領先。 https://chat.primeintellect.ai Prime Intellect發(fā)布參數(shù)1000億的混合專家模型INTELLECT-3,在數(shù)學、代碼、科學和推理基準的表現(xiàn)超過一些規(guī)模更大的前沿模型。INTELLECT-3首先基于GLM-4.5-Air基礎模型進行監(jiān)督微調(SFT),然后進行大規(guī)模RL訓練,兩個階段都是在一個由512塊H200 GPU組成的集群上完成的,歷時兩個月。模型權重、訓練框架、數(shù)據(jù)集、RL環(huán)境和模型評估等全部開源。 https://kiro.dev/autonomous-agent AWS面向AI編程推出自主智能體Kiro,旨在將開發(fā)者從繁瑣的協(xié)調工作中解放出來。Kiro具備跨越會話的上下文能力,能夠持續(xù)學習用戶的pull requests和反饋,處理問題分診、提升代碼覆蓋率等多樣的任務。用戶可以直接通過GitHub向Kiro布置任務,然后它會獨立規(guī)劃并執(zhí)行,通過編輯建議和拉取請求的方式交付成果。 https://arxiv.org/pdf/2511.21689 英偉達和香港大學的研究者介紹ToolOrchestra方法,采用結果感知、效率感知和用戶偏好感知的強化學習獎勵機制,通過管理其它模型、協(xié)調各類工具,來突破智能的上限,解決復雜的智能體任務?;赥oolOrchestra推出的80億參數(shù)模型Orchestrator模型,能夠根據(jù)用戶偏好選擇適合特定任務的工具,以更低成本實現(xiàn)更高的準確率,在HLE的表現(xiàn)超越GPT-5,效率提升2.5倍。 https://www.barry-callebaut.com/en/about-us/media/news-stories/barry-callebaut-partners-notco-ai-unlock-next-level-chocolate 巧克力制造商Barry Callebaut與食品科技公司NotCo合作利用AI開發(fā)巧克力配方,融合Barry Callebaut跨越一個多世紀的巧克力經(jīng)驗與NotCo的前沿AI能力,更高效地探索口味、口感和巧克力產(chǎn)業(yè)的可持續(xù)發(fā)展。 https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the SemiAnalysis指出,世界上最好的兩大模型Anthropic的Claude 4.5 Opus和谷歌的Gemini 3主要的訓練和推理基礎設施用的都是谷歌的TPUs和亞馬遜的Trainium,而非英偉達的GPUs。在Anthropic之外,Meta、SSI等也加入谷歌TPU的客戶名單。黃仁勛從多年前反復強調的“The more you buy, the more you save”,似乎正在變成“The more TPUs you buy, the more GPUs you save”。 https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission 美國啟動“創(chuàng)世紀計劃”,旨在傾舉國之力匯聚政企學研各方的研發(fā)資源,用AI加速創(chuàng)新發(fā)現(xiàn)、解決這個世紀最具挑戰(zhàn)的問題。該計劃將創(chuàng)建統(tǒng)一的AI平臺the American Science and Security Platform,利用積累了幾十年的聯(lián)邦科學數(shù)據(jù)集,訓練科學基礎模型并創(chuàng)建AI智能體,基于在半導體和高性能計算領域的創(chuàng)新和沉淀,加速科學突破,尤其聚焦先進制造、生物科技、材料科學、核裂變與核聚變能、量子信息科學、半導體與微電子學。 https://iceberg.mit.edu MIT等聯(lián)合開展“冰山項目”,利用大型人口模型來模擬人與AI協(xié)作的勞動力市場,旨在捕捉GDP、失業(yè)率等傳統(tǒng)指標所無法有效捕捉的AI經(jīng)濟帶來的影響。該項目用自主智能體代表1.51億名勞動者,與數(shù)千個AI工具交互,施展3.2萬多種技能。同時推出“冰山指數(shù)”,以技能為中心,衡量每個職業(yè)中AI系統(tǒng)能夠執(zhí)行的技能所對應的工資價值。分析顯示,目前AI已經(jīng)能夠接管大約1.2萬億美元的工資價值,比重占到11.7%,影響遍及全美各州,覆蓋管理、金融、專業(yè)服務等領域。
網(wǎng)上經(jīng)營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.mayimov.com all right reserved 技術支持:杭州高達軟件系統(tǒng)股份有限公司
服務熱線:010-59231580