阿里云百煉支持模型與能力全解析:千問三方大模型一站調(diào)用,新用戶享7000萬tokens免費

阿里云百煉是一站式大模型開發(fā)與應用平臺,集成千問及主流第三方模型。面向開發(fā)者提供兼容 OpenAI 的API和全鏈路模型服務;面向業(yè)務人員提供可視化應用構建能力,可快速創(chuàng)建智能體、知識庫問答等 AI 應用。阿里云百煉提供千問及第三方模型服務,覆蓋文本、圖像、音頻、視頻等多種模態(tài)。無需自行部署或運維,可直接調(diào)用自研千問(Qwen)全系列模型,以及 DeepSeek、Kimi、GLM 等第三方大模型。

阿里云百煉全部模型.png

一、賬號設置

1.注冊賬號:若無阿里云賬號,需首先注冊。
2.開通阿里云百煉:進入阿里云百煉大模型服務平臺:https://www.aliyun.com/product/bailian 然后進入大模型服務平臺百煉控制臺,閱讀并同意協(xié)議后,將自動開通阿里云百煉,如果未彈出服務協(xié)議,則表示您已經(jīng)開通。

大模型控制臺進入.png

3.獲取API Key:前往API Key頁面,單擊創(chuàng)建API Key,即可通過API KEY調(diào)用大模型。

4.新用戶免費額度
百煉為新用戶提供北京地域?qū)俚男氯嗣赓M額度,用于體驗模型調(diào)用。額度用完后自動轉(zhuǎn)為按量付費。如需避免意外扣費,可開啟免費額度用完即停功能,額度耗盡時服務自動停止。

二、文本生成主要模型及能力介紹

2.1 千問模型

從能力最強到成本最低,按需選擇.

1、Qwen3.7-Max
Qwen3.7系列中規(guī)模最大、綜合能力最強的Max模型,當前開放純文本模型能力供體驗。Qwen3.7是面向智能體時代的新一代旗艦模型,核心優(yōu)勢在于智能體能力的廣度與深度:在編程、辦公與生產(chǎn)力、長周期自主執(zhí)行方面均能出色勝任各項任務。

2、Qwen3.6-Plus
Qwen3.6原生視覺語言系列Plus模型,展現(xiàn)出與當前頂尖前沿模型相媲美的卓越性能,模型效果相較3.5系列顯著提升。模型在Agentic coding、前端編程、Vibe coding等代碼能力、多模態(tài)萬物識別、OCR、物體定位等能力上顯著增強。

3、Qwen3.6-Flash
Qwen3.6原生視覺語言系列Flash模型,模型效果相較3.5-Flash顯著提升。本模型重點提升agentic coding能力(在多項代碼智能體基準上大幅超越前代)、數(shù)學推理和代碼推理能力;視覺方面在空間智能能力上顯著增強,物體定位與目標檢測提升尤為突出。

2.2 三方模型

API 格式與千問模型一致。

1、DeepSeek-V4-Pro
旗艦級 MoE 大模型,總參1.6T、激活 49B,原生支持百萬級超長上下文。依托海量高質(zhì)量訓練數(shù)據(jù),具備頂尖數(shù)學邏輯、復雜推理、專業(yè)代碼與長文本深度解析能力,適配高階科研、復雜辦公、深度智能代理等高難度場景。

2、DeepSeek-V4-Flash
高效輕量化MoE模型,總參284B,激活13B,原生支持百萬超長上下文能力。推理速度快、延遲低、調(diào)用成本低廉,綜合能力均衡,主打高并發(fā)、輕量化任務,適合日常對話、內(nèi)容創(chuàng)作、基礎 RAG、批量文案處理等普惠剛需場景。

3、Kimi-K2.6
kimi-k2.6是Kimi最新最智能的模型,具備更強更穩(wěn)的長程代碼編寫能力,指令遵循和自我糾錯能力顯著提升,同時支持文本、圖片與視頻輸入,思考與非思考模式,對話與Agent任務。

4、GLM-5.1
GLM-5.1是智譜AI推出的面向長程任務(Long Horizon Task)設計的模型,總參數(shù)744B,支持200K超長上下文,最大輸出 128K tokens。擁有強大邏輯推理、長文本理解與代碼生成能力、兼顧性能與推理效率;在多任務基準中表現(xiàn)優(yōu)異,適用于智能交互、企業(yè)應用、開發(fā)輔助等場景。

5、MiniMax/MiniMax-M2.7
M2.7 能夠自行構建復雜 Agent Harness,并基于 Agent Teams、復雜 Skills、Tool Search tool 等能力,完成高度復雜的生產(chǎn)力任務。

6、xiaomi/mimo-v2.5-pro
MiMo-V2.5-Pro 是小米發(fā)布的最新旗艦模型。與前代模型相比,它在通用智能體能力、復雜軟件工程以及長程任務等方面都有顯著提升,在 ClawEval、GDPVal 和 SWE-bench Pro 等基準測試中均位列前茅。它能夠獨立且完全自主地完成需要人類專家耗時數(shù)天甚至數(shù)周的專業(yè)任務,涉及上千次工具調(diào)用。其高達 100 萬 token 的上下文長度,非常適合集成到各種智能體框架中使用。

三、圖像與視頻主要模型及能力介紹

3.1 理解

分析圖片和視頻內(nèi)容,返回文本描述或結構化結果。熱門模型包括Qwen3.6-Plus和Kimi-K2.6(上文已介紹),這里主要介紹一下Qwen3.5-Omni-Plus。
Qwen3.5-Omni是Qwen最新一代全模態(tài)大模型,支持文本,圖片,音頻,音視頻理解與交互。作為 Qwen3-Omni 的全面進化版本, 支持超過 10 小時的音頻理解及超過 400 秒的 720P(1 FPS)音視頻理解與對話,并進一步拓展語言范圍,支持60+種語言音頻輸入,30+語言語音輸出,并且具備強大的結構化音視頻理解能力,廣泛應用于文本創(chuàng)作、語音助手、多媒體分析等場景,提供自然流暢的多模態(tài)理解與交互體驗。

3.2 生成

通過文本或圖片生成圖像與視頻,支持編輯、參考與高分辨率輸出。

1、Wan2.7-Image-Pro
萬相2.7-圖像生成與編輯旗艦版模型,支持文生圖、文生組圖、圖生組圖、圖像編輯、多圖參考生成、交互式編輯,在文字渲染、主體一致性、復雜指令遵循上都有更強表現(xiàn)。

2、Qwen-Image-2.0-Pro
Qwen-Image-2.0系列滿血版模型,實現(xiàn)了圖片生成和圖片編輯的融合;具備更專業(yè)的文字渲染1k token指令支持能力、更細膩的真實質(zhì)感,細膩刻畫寫實場景、更強的語義遵循能力。滿血版具備2.0系列最強的文字渲染能力和真實質(zhì)感。

3、HappyHorse-1.0-T2V
HappyHorse-1.0-T2V支持文生視頻,具備高度還原的動態(tài)畫面生成能力,能夠精準理解文本語義,輸出流暢自然、細節(jié)豐富的高質(zhì)量視頻。

4、HappyHorse-1.0-I2V
HappyHorse-1.0-I2V支持圖生視頻,具備高度還原的動態(tài)畫面生成能力,能夠精準理解文本語義,輸出流暢自然、細節(jié)豐富的高質(zhì)量視頻。

5、HappyHorse-1.0-R2V
HappyHorse-1.0-R2V支持參考生視頻,更加穩(wěn)定的主體與場景參考,支持最多9張圖片參考,能夠精準保持創(chuàng)作意圖,實現(xiàn)更強表現(xiàn)能力。

6、HappyHorse-1.0-Video-Edit
HappyHorse-1.0-Video-Edit支持視頻編輯,自然語言指令編輯視頻,可參考最多5張圖片局部或全局編輯視頻元素,能夠精準復刻視頻動態(tài)過程,實現(xiàn)更強表現(xiàn)能力。

3.3 3D模型生成

文生3D模型或圖生3D模型,構建三維資產(chǎn)。

1、Tripo-H3.1
Tripo H3.1 是 Tripo 推出的高精度 3D 生成模型,專為需要極致視覺質(zhì)量與細節(jié)表現(xiàn)的創(chuàng)作者設計。模型通過核心算法升級與模塊優(yōu)化,參數(shù)規(guī)模達 200 億級,支持十億體素級三維分辨率與最高 200 萬面多邊形生成。在保持高精度幾何與真實紋理的同時,Tripo H3.1 對輸入?yún)⒖紙D的還原度與對齊度進一步提升,在角色形體、面部細節(jié)與幾何文字等復雜結構上實現(xiàn)更穩(wěn)定、細致的表達,適用于高質(zhì)量視覺制作與 3D 打印等高精度資產(chǎn)生產(chǎn)場景。

2、Tripo-P1.0
Tripo P1.0 是面向?qū)崟r應用與生產(chǎn)管線的 3D 生成模型,專為需要干凈拓撲和引擎可用網(wǎng)格的開發(fā)者與創(chuàng)作者設計。模型可在約 2 秒內(nèi)生成具備專業(yè)級拓撲結構的 3D 資產(chǎn),適用于游戲、Web3D 與各類實時交互場景。針對 UGC 內(nèi)容生產(chǎn)中對“速度”和“開箱即用”的需求,Tripo P1.0 在保證質(zhì)量的同時大幅提升生成效率,使資產(chǎn)能夠快速接入實時引擎與開發(fā)流程。

四、音頻與語音主要模型及能力介紹

4.1 語音合成

適用于有聲閱讀、語音播報、虛擬人等場景。

1、語音生成CosyVoice-v3.5-plus
CosyVoice-v3.5-Plus是通義實驗室CosyVoice系列的超高表現(xiàn)力語音合成大模型。對聲音克隆和聲音設計的語音合成效果進行全面升級,確保說話人高相似度的前提下,支持free-style指令控制,合成風格豐富多樣。較之前版本大幅減少首包延遲,同時提高發(fā)音準確率,改善韻律和音質(zhì)。支持跨多語種(中、英、德、法、俄、日、韓、葡、泰、印尼、越南)超自然聽感實時語音合成。

2、speech-2.8-hd
MiniMax 語音大模型能夠根據(jù)上下文,智能預測文本的情緒、語調(diào)等信息,并生成超自然、高保真、個性化的語音。在社交、播客、有聲書、新聞資訊、教育、數(shù)字人等多種場景中展現(xiàn)出強大的實力。

4.2 音樂生成

根據(jù)提示詞或歌詞生成音樂。

1、fun-music-v1
百聆音樂生成大模型(Fun音樂大模型)支持輸入開放性歌曲的創(chuàng)作要求或歌詞,生成整首男/女聲演唱的中文或英文歌曲。歌曲通俗易懂,情緒由淺入深,是人類靈感與大模型能力的完美結合。

4.3 語音識別

專業(yè) ASR 與大模型兩種方案,按精度與靈活性選擇。

1、Fun-ASR實時語音識別
通義實驗室新一代端到端語音識別大模型的實時版,基于領先的自研語音技術,具備卓越的上下文感知和高精度語音轉(zhuǎn)寫能力?;诙说蕉思軜?,F(xiàn)un-ASR 集成了創(chuàng)新的 RAG 技術,支持大規(guī)模熱詞自定義、敏感/語氣詞自動過濾、ITN 規(guī)范化、標點預測等多維功能,顯著提升了整體識別準確率和語境貼合度。同時,F(xiàn)un-ASR 支持中英文自由切換,多地區(qū)方言覆蓋,具備更強的噪聲魯棒性,適應多樣復雜環(huán)境。

2、Fun-ASR語音識別
百聆2026年4月更新的大模型ASR版本,全面支持漢語傳統(tǒng)七大方言體系(官話/吳/湘/贛/客/閩/粵),并適配 20+ 地區(qū)口音官話。針對中文古詩詞的韻律、節(jié)奏與文言表達特點進行專項優(yōu)化,提升對古詩詞內(nèi)容的識別準確率,適用于文化傳承、教育講解、有聲讀物等場景。優(yōu)化標點預測與文本歸一化能力,使輸出文本更符合書面表達習慣,數(shù)字、日期、金額等信息自動轉(zhuǎn)換為標準格式,增強內(nèi)容的可讀性與專業(yè)性。同時語種擴展至英語、日語、韓語、越南語、泰語、印尼語、馬來語、菲律賓語、印地語、阿拉伯語、法語、德語、西班牙語、葡萄牙語、俄語、意大利語、荷蘭語、瑞典語、丹麥語、芬蘭語、挪威語、希臘語、波蘭語、捷克語、匈牙利語、羅馬尼亞、保加利亞語、克羅地亞語、斯洛伐克語等,共計30個語種。此版本等同于2025年11月7日的快照版本。

3、Qwen3.5-Omni-Plus-Realtime
Qwen3.5-Omni是Qwen最新一代全模態(tài)大模型,支持文本,圖片,音頻,音視頻理解與交互。作為 Qwen3-Omni 的全面進化版本,支持60+種語言音頻輸入,30+語言語音輸出以及可控語音對話,WebSearch和復雜FunctionCall的調(diào)用,并且具備智能語義打斷的交互能力,廣泛應用于文本創(chuàng)作、語音助手、多媒體分析等場景,提供自然流暢的多模態(tài)交互體驗。

4、Qwen3.5-Omni-Plus
Qwen3.5-Omni是Qwen最新一代全模態(tài)大模型,支持文本,圖片,音頻,音視頻理解與交互。作為 Qwen3-Omni 的全面進化版本, 支持超過 10 小時的音頻理解及超過 400 秒的 720P(1 FPS)音視頻理解與對話,并進一步拓展語言范圍,支持60+種語言音頻輸入,30+語言語音輸出,并且具備強大的結構化音視頻理解能力,廣泛應用于文本創(chuàng)作、語音助手、多媒體分析等場景,提供自然流暢的多模態(tài)理解與交互體驗。

4.4 語音轉(zhuǎn)語音

端到端語音對話,無需分別調(diào)用 ASR 和 TTS。

1、Qwen3.5-Omni-Plus-Realtime
Qwen3.5-Omni是Qwen最新一代全模態(tài)大模型,支持文本,圖片,音頻,音視頻理解與交互。作為 Qwen3-Omni 的全面進化版本,支持60+種語言音頻輸入,30+語言語音輸出以及可控語音對話,WebSearch和復雜FunctionCall的調(diào)用,并且具備智能語義打斷的交互能力,廣泛應用于文本創(chuàng)作、語音助手、多媒體分析等場景,提供自然流暢的多模態(tài)交互體驗。

2、Qwen3.5-Omni-Plus
Qwen3.5-Omni是Qwen最新一代全模態(tài)大模型,支持文本,圖片,音頻,音視頻理解與交互。作為 Qwen3-Omni 的全面進化版本, 支持超過 10 小時的音頻理解及超過 400 秒的 720P(1 FPS)音視頻理解與對話,并進一步拓展語言范圍,支持60+種語言音頻輸入,30+語言語音輸出,并且具備強大的結構化音視頻理解能力,廣泛應用于文本創(chuàng)作、語音助手、多媒體分析等場景,提供自然流暢的多模態(tài)理解與交互體驗。

五、全模態(tài)

融合文本、圖像、音頻、視頻等多種模態(tài)的理解與生成能力。目前主要模型為Qwen3.5-Omni-Plus-Realtime和Qwen3.5-Omni-Plus。模型具體能力上文已介紹。

六、向量與重排序

文本或圖文向量化,配合重排序提升檢索精度。

1、通用文本向量-v4
是通義實驗室基于Qwen3訓練的多語言文本統(tǒng)一向量模型,相較V3版本在文本檢索、聚類、分類性能大幅提升;在MTEB多語言、中英、Code檢索等評測任務上效果提升15%40%;支持642048維用戶自定義向量維度。

2、視覺向量-plus
Embedding-Vision是基于LLM底座的視覺多模態(tài)表征模型,具有以視覺為中心、領域性能優(yōu)異(電商、 安防、相冊/圖庫、自駕等)、高性價比的特點。兼容文本、圖像、視頻3種模態(tài),可應用于以圖搜圖、以文搜圖、以文搜視頻,以視頻搜視頻等下游任務場景。

3、千問3-Rerank
基于Qwen LLM底座訓練的文本排序模型,對輸入的Query和候選Docs進行相關性排序,支持100+語種和長文本輸入,適用于文本檢索、RAG等場景,效果對齊開源Qwen3-Rerank系列模型。

說明:以上僅為文本生成、圖像與視頻、音頻與語音等熱門模型與能力介紹,更多官方模型與第三方模型可通過百煉控制臺查詢。目前免費開通阿里云百煉即可享受享7000+萬 tokens 限免體驗和超30款 AI 產(chǎn)品免費試用,輕松構建 AI 應用。詳情可通過阿里云AI產(chǎn)品免費試用活動了解:??https://free.aliyun.com/product/ai

AI產(chǎn)品免費試用活動最新.png

2026年阿里云AI產(chǎn)品與云產(chǎn)品優(yōu)惠權益參考:
AI 產(chǎn)品權益主要包括阿里云百煉 Token Plan,提供多檔位套餐,包月預算可控;HappyHorse-1.0 系列模型 限時 8 折;阿里云百煉 Token Plan,提供多檔位套餐,包月預算可控;Qwen3.6全模型通享 4.5 折;Qwen3.7-Max 發(fā)布 限時 5 折;阿里云百煉優(yōu)惠券,先用后返,最高200元,個企同享;阿里云 JVS Claw 39元起,一鍵接入 OpenClaw等。而云產(chǎn)品權益主要有輕量應用服務器限時搶購2核2G38元/年、2核4G9.9元1個月、199元/年;通用算力型u2i實例3折,九代c9i、g9i、r9i等實例1年付6.4折起等優(yōu)惠權益。詳情可通過阿里云權益中心了解:??https://www.aliyun.com/benefit

AI產(chǎn)品權益最新.png

購買之前建議先了解一下當下是否有優(yōu)惠券或者代金券可以領取,2026年,阿里云官方已經(jīng)通過云小站平臺:??https://www.aliyun.com/minisite/goods 推出云產(chǎn)品通用折扣優(yōu)惠券,先領券再購買,價格可以在優(yōu)惠價格基礎上額外獲得一個折扣優(yōu)惠,最高能減12500元。

阿里云7.5優(yōu)惠券.png

小結:阿里云百煉作為一站式大模型開發(fā)與應用平臺,依托千問(Qwen)全系列模型及DeepSeek、Kimi、GLM等主流第三方大模型,覆蓋文本、圖像、音頻、視頻等多模態(tài)能力,為開發(fā)者和業(yè)務人員提供了從模型調(diào)用到AI應用構建的全鏈路支持。無論是通過OpenAI兼容API快速接入大模型能力,還是借助可視化工具搭建智能體、知識庫問答等應用,百煉都大幅降低了AI落地門檻。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容