2024-12-25 簡訊 : 谷歌最新的人工智能創(chuàng)新成果


頭條


谷歌最新的人工智能創(chuàng)新成果

https://blog.google/technology/ai/google-ai-updates-december-2024/
谷歌強調(diào)了人工智能領(lǐng)域的最新進展,包括對話式人工智能的強化模型、負(fù)責(zé)任人工智能實踐的更新,以及面向開發(fā)者的新工具。

OpenAI的O3

https://www.youtube.com/watch
在OpenAI發(fā)布消息的最后一天,OpenAI宣布了O3,這是其最強大的推理模型。

OpenAI的新對齊方法

https://openai.com/index/deliberative-alignment/
OpenAI開發(fā)了一種針對推理模型的新對齊技術(shù),能讓模型思考基于實際行為目標(biāo)(比如安全指南里的那些目標(biāo))并做出相應(yīng)回應(yīng)。這是在對齊方面的一個進步,避免了同時內(nèi)置對齊和偏好。


研究


醫(yī)療思維鏈

https://arxiv.org/abs/2412.13736v1
一種新的推理框架,能提高醫(yī)學(xué)視覺問答的準(zhǔn)確性和可解釋性。

多語句標(biāo)注數(shù)據(jù)集

https://zzzbbbzzz.github.io/MulSen_AD/index.html
一個新數(shù)據(jù)集,用于在多句理解和標(biāo)注任務(wù)上訓(xùn)練和評估人工智能模型,強調(diào)基于語境的分析。

行動規(guī)劃框架

https://kakituken.github.io/affordance-any.github.io/
這個框架能讓機器人根據(jù)物體的可供性來規(guī)劃行動,提高在動態(tài)環(huán)境中的泛化能力和效率。


工程


多模態(tài)人工智能工具包(GitHub倉庫)

https://github.com/taco-group/openemma
一個用于開發(fā)多模態(tài)人工智能應(yīng)用的綜合工具包,帶有用于視覺、語言和音頻集成的預(yù)制模塊。

利用Levitor實現(xiàn)無人機導(dǎo)航

https://ppetrichor.github.io/levitor.github.io/
Levitor是一個用于無人機自主導(dǎo)航的平臺,配有先進的避障和高效尋路算法。

微軟的大型語言模型基準(zhǔn)測試(GitHub倉庫)

https://github.com/microsoft/mmlu-cf
微軟的MMLU-CF是一個評估語言模型在多種任務(wù)上表現(xiàn)的基準(zhǔn),重點關(guān)注事實一致性和多語言能力。


其他


如何打造一款真正有用的人工智能產(chǎn)品

https://every.to/thesis/how-to-build-a-truly-useful-ai-product
打造人工智能初創(chuàng)公司,需要快速適應(yīng)大型語言模型(LLMs)的快速發(fā)展,避免那些即將推出的模型就能解決的問題,還要利用尖端技術(shù)的高成本來獲得競爭優(yōu)勢。要專注于特定用例,與通用人工智能競爭,同時強調(diào)產(chǎn)品體驗的無縫性。盡管生成式人工智能發(fā)展迅速,但打造受歡迎產(chǎn)品的核心原則并未改變。

有用和沒用的特定任務(wù)大語言模型評估

https://eugeneyan.com/writing/evals/
現(xiàn)成的評估方法往往無法有效衡量大型語言模型(LLM)在特定任務(wù)中的表現(xiàn)。用于分類的有用指標(biāo)包括召回率、精確率、ROC - AUC,而總結(jié)和翻譯任務(wù)則可分別采用基于自然語言推理(NLI)的一致性檢查以及chrF或BLEURT指標(biāo)。要考慮模型中可能存在的缺陷,比如版權(quán)抄襲和有害內(nèi)容等,可使用RealToxicityPrompts這類測試進行全面評估。

o1 轉(zhuǎn)為專業(yè)版

https://thezvi.substack.com/p/o1-turns-pro
OpenAI的o1和o1 Pro進行了更新,在編碼、數(shù)學(xué)和復(fù)雜問題解決能力方面有顯著提升,在深度推理和事實回憶方面表現(xiàn)尤為突出。每月200美元的o1 Pro服務(wù)通過增加計算能力進一步強化了這些功能,對處理專業(yè)或挑戰(zhàn)性任務(wù)的人來說特別有用??傮w反應(yīng)積極,多數(shù)用戶若沒有高級需求,每月20美元的服務(wù)就夠了。


快訊


一次性Python工具

https://simonwillison.net/2024/Dec/19/one-shot-python-tools/
一篇不錯的博客,介紹了一種提示策略,用于通過Claude制作自包含、兼容UV的Python腳本。

谷歌推出“水手計劃”:人工智能助手可為你使用網(wǎng)絡(luò)

https://techcrunch.com/2024/12/11/google-unveils-project-mariner-ai-agents-to-use-the-web-for-you/
谷歌的DeepMind推出了“水手計劃”,這是一個能通過Chrome瀏覽器自主瀏覽網(wǎng)站并與之互動的人工智能代理。

谷歌正在測試能在視頻游戲中幫到你的雙子座(Gemini)人工智能智能體

https://www.theverge.com/2024/12/11/24318530/google-gemini-2-0-understand-rules-video-games-genie
谷歌發(fā)布了Gemini 2.0,展示了能理解游戲規(guī)則并提供實時建議的人工智能代理,這些代理專門在《部落沖突》等游戲上進行了測試。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容