【行業(yè)熱點】大模型周報（12.1-12.7）

2025-12-10 15:33:40來源：中關村超互聯(lián)新基建產(chǎn)業(yè)創(chuàng)新聯(lián)盟作者：

https://runwayml.com/research/introducing-runway-gen-4.5

Runway推出視頻模型Gen-4.5，以1247的Elo分數(shù)位居Artificial Analysis文生視頻基準的榜首。模型在預訓練數(shù)據(jù)效率和后訓練技術方面進步顯著，在保持Gen-4的速度和效率的同時，樹立了可控動作生成、時序一致性、控制精度等的新標準，支持多種藝術風格。

https://seed.bytedance.com/en/seedream4_5

字節(jié)跳動推出Seedream 4.5，可在多圖組合中精準識別并穩(wěn)定鎖定主體，保持原圖特征與細節(jié)質感，同時進一步強化海報等密集文字的排版渲染能力，相較Seedream 4.0，在指令遵循、一致性、美學表現(xiàn)等維度實現(xiàn)全面提升。

https://www.vidu.com/zh

生數(shù)科技升級Vidu Q2參考生圖功能，同時上線文生圖、圖像編輯功能，一致性效果驚艷，尤其圖像編輯功能躋身Artificial Analysis榜單前四，比肩Nano Banana 2。支持一站式多參工作流，生成速度最快5秒。

https://bytedance.github.io/vidi-website

字節(jié)跳動推出視頻理解模型Vidi2，能夠以細粒度的時空定位能力（STG）更好地理解視頻，實現(xiàn)全面的多模態(tài)推理。Vidi2可以根據(jù)文本問詢精準定位到視頻中對應事件發(fā)生的時間，并且在畫面中用邊界框標出對應主體的空間位置，可應用于復雜的編輯場景。Vidi2在兩個時間檢索和時空定位的基準的表現(xiàn)超過Gemini 3 Pro（Preview）和GPT-5。

https://x.com/Kling_ai/status/19954499505199

快手Kling AI發(fā)布：多模態(tài)創(chuàng)作工具Kling O1，可穩(wěn)定保持角色和場景的一致性；圖像生成和編輯模型Kling Image O1，支持多張參考圖像的特征抓取和主體一致性；音頻-視頻模型Kling 2.6，能夠生成搭配音頻的視頻，支持口型對齊、樂器演奏、音效生成，目前僅支持中英雙語；KlingAI Avatar 2.0，可生成時長五分鐘的虛擬形象演繹，表情豐富、口型對齊。

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

DeepSeek推出DeepSeek-V3.2，主要技術突破包括：1. 推出注意力機制DSA，能夠在長上下文場景中保持性能的同時，大幅降低計算復雜度；2. 可擴展增強學習框架，讓DeepSeek-V3.2實現(xiàn)不輸GPT-5的性能，另外還有高算力衍生版DeepSeek-V3.2-Speciale，推理性能比肩Gemini-3.0-Pro；3. 大規(guī)模智能體任務合成管線，能夠系統(tǒng)性、規(guī)?；厣捎柧殧?shù)據(jù)，將推理融入工具使用場景，在復雜的交互環(huán)境中顯著提升智能體的泛化能力和指令遵循能力。

https://mistral.ai/news/mistral-3

Mistral AI開源Mistral 3系列模型，包括參數(shù)分別為140億、80億和30億的三個小模型。同時推出總參數(shù)6750億的稀疏MoE模型Mistral Large 3，LMArena ELO Score分數(shù)接近DeepSeek v3.2。

https://z-image.ai

阿里通義團隊開源圖像生成模型Z-Image（造相），速度優(yōu)先的Turbo蒸餾版參數(shù)60億，支持行業(yè)領先的高清畫質、中英雙語文本渲染，有提示詞增強器賦予模型推理能力，從而融合世界知識、生成內(nèi)容，Elo得分位居開源模型榜首。另外還有待發(fā)布的面向微調與研究的完整版模型Z-Image-Base，以及面向圖像編輯的衍生版Z-Image-Edit，通過自然語言指令進行圖像轉圖像。

https://3d.hunyuan.tencent.com/login?redirect_url=https%3A%2F%2F3d.hunyuan.

騰訊混元3D Studio升級到1.1版，接入3D生成模型PolyGen 1.5，實現(xiàn)端到端四邊形網(wǎng)格生成，PolyGen 1.5可以直接學習四邊形拓撲結構，適用于游戲開發(fā)、動畫設計、VR內(nèi)容創(chuàng)作等。

https://hunyuanocr.org

騰訊混元開源端到端OCR專家視覺-語言模型HunyuanOCR，參數(shù)10億，將檢測、識別、解析、翻譯和信息提取功能整合到一個統(tǒng)一的流程中，這樣就不需要額外的模型或者復雜的預處理步驟了，提高模型的部署運行效率。HunyuanOCR在文本識別、復雜文檔解析、開放字段信息提取、字幕提取和圖片翻譯方面表現(xiàn)出色，能夠準確處理多語種內(nèi)容以及復雜的文檔布局，在多項OCR任務和基準的表現(xiàn)領先。

https://chat.primeintellect.ai

Prime Intellect發(fā)布參數(shù)1000億的混合專家模型INTELLECT-3，在數(shù)學、代碼、科學和推理基準的表現(xiàn)超過一些規(guī)模更大的前沿模型。INTELLECT-3首先基于GLM-4.5-Air基礎模型進行監(jiān)督微調（SFT），然后進行大規(guī)模RL訓練，兩個階段都是在一個由512塊H200 GPU組成的集群上完成的，歷時兩個月。模型權重、訓練框架、數(shù)據(jù)集、RL環(huán)境和模型評估等全部開源。

https://kiro.dev/autonomous-agent

AWS面向AI編程推出自主智能體Kiro，旨在將開發(fā)者從繁瑣的協(xié)調工作中解放出來。Kiro具備跨越會話的上下文能力，能夠持續(xù)學習用戶的pull requests和反饋，處理問題分診、提升代碼覆蓋率等多樣的任務。用戶可以直接通過GitHub向Kiro布置任務，然后它會獨立規(guī)劃并執(zhí)行，通過編輯建議和拉取請求的方式交付成果。

https://arxiv.org/pdf/2511.21689

英偉達和香港大學的研究者介紹ToolOrchestra方法，采用結果感知、效率感知和用戶偏好感知的強化學習獎勵機制，通過管理其它模型、協(xié)調各類工具，來突破智能的上限，解決復雜的智能體任務?；赥oolOrchestra推出的80億參數(shù)模型Orchestrator模型，能夠根據(jù)用戶偏好選擇適合特定任務的工具，以更低成本實現(xiàn)更高的準確率，在HLE的表現(xiàn)超越GPT-5，效率提升2.5倍。

https://www.barry-callebaut.com/en/about-us/media/news-stories/barry-callebaut-partners-notco-ai-unlock-next-level-chocolate

巧克力制造商Barry Callebaut與食品科技公司NotCo合作利用AI開發(fā)巧克力配方，融合Barry Callebaut跨越一個多世紀的巧克力經(jīng)驗與NotCo的前沿AI能力，更高效地探索口味、口感和巧克力產(chǎn)業(yè)的可持續(xù)發(fā)展。

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

SemiAnalysis指出，世界上最好的兩大模型Anthropic的Claude 4.5 Opus和谷歌的Gemini 3主要的訓練和推理基礎設施用的都是谷歌的TPUs和亞馬遜的Trainium，而非英偉達的GPUs。在Anthropic之外，Meta、SSI等也加入谷歌TPU的客戶名單。黃仁勛從多年前反復強調的“The more you buy, the more you save”，似乎正在變成“The more TPUs you buy, the more GPUs you save”。

https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission

美國啟動“創(chuàng)世紀計劃”，旨在傾舉國之力匯聚政企學研各方的研發(fā)資源，用AI加速創(chuàng)新發(fā)現(xiàn)、解決這個世紀最具挑戰(zhàn)的問題。該計劃將創(chuàng)建統(tǒng)一的AI平臺the American Science and Security Platform，利用積累了幾十年的聯(lián)邦科學數(shù)據(jù)集，訓練科學基礎模型并創(chuàng)建AI智能體，基于在半導體和高性能計算領域的創(chuàng)新和沉淀，加速科學突破，尤其聚焦先進制造、生物科技、材料科學、核裂變與核聚變能、量子信息科學、半導體與微電子學。

https://iceberg.mit.edu

MIT等聯(lián)合開展“冰山項目”，利用大型人口模型來模擬人與AI協(xié)作的勞動力市場，旨在捕捉GDP、失業(yè)率等傳統(tǒng)指標所無法有效捕捉的AI經(jīng)濟帶來的影響。該項目用自主智能體代表1.51億名勞動者，與數(shù)千個AI工具交互，施展3.2萬多種技能。同時推出“冰山指數(shù)”，以技能為中心，衡量每個職業(yè)中AI系統(tǒng)能夠執(zhí)行的技能所對應的工資價值。分析顯示，目前AI已經(jīng)能夠接管大約1.2萬億美元的工資價值，比重占到11.7%，影響遍及全美各州，覆蓋管理、金融、專業(yè)服務等領域。

返回列表

激情文学婷婷六月开心久久-久久久精品一区二区国产-久久精品免费视频精品视频-嫩草午夜福利在线观看

【行業(yè)熱點】大模型周報（12.1-12.7）