午夜福利99热欧美,五月天色播国产日韩,91福利探花

?<h1>人工智能之核心技術(shù) 深度學(xué)習(xí)</h1>第八章數(shù)據(jù)預(yù)處理與增強(qiáng)<img class="uploaded-img" src="https://upload-images.jianshu.io/upload_images/30827302-de8b0d870ef6d08b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240" width="auto" height="auto"/>

<h1>前言：數(shù)據(jù)預(yù)處理與增強(qiáng) —— 模型成功的基石</h1><blockquote>“Garbage in, garbage out.”
再?gòu)?qiáng)大的模型，若輸入的是臟亂、不平衡或信息貧乏的數(shù)據(jù)，也難以發(fā)揮性能。
本章將系統(tǒng)講解如何將原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量、高信息量、適合訓(xùn)練的格式。</blockquote>

一、數(shù)據(jù)預(yù)處理（Data Preprocessing）目標(biāo)：清洗 + 轉(zhuǎn)換 + 平衡，為模型提供“干凈燃料”。1.1 缺失值處理常見策略：<blockquote>???注意：避免在測(cè)試集上使用訓(xùn)練集以外的統(tǒng)計(jì)量！</blockquote>

1.2 異常值檢測(cè)與修正檢測(cè)方法：<ul><li>??Z-Score：?視為異常（假設(shè)正態(tài)分布）</li><li>??IQR（四分位距）：<img class="uploaded-img" src="https://upload-images.jianshu.io/upload_images/30827302-c8c26fcf42fdaa40.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240" width="auto" height="auto"/></li><li>??孤立森林（Isolation Forest）：無監(jiān)督異常檢測(cè)</li><li>??可視化：箱線圖、散點(diǎn)圖</li></ul>處理策略：<ul><li>??刪除：明顯錯(cuò)誤（如年齡=200）</li><li>??截?cái)啵╓insorizing）：將異常值設(shè)為邊界值</li><li>??分箱（Binning）：將連續(xù)值離散化</li></ul><pre>#?IQR?示例Q1?=?df['age'].quantile(0.25)Q3?=?df['age'].quantile(0.75)IQR?=?Q3?-?Q1lower_bound?=?Q1?-?1.5??IQRupper_bound?=?Q3?+?1.5??IQRdf?=?df[(df['age']?>=?lower_bound)?&?(df['age']?<=?upper_bound)]</pre>

1.3 數(shù)據(jù)歸一化與標(biāo)準(zhǔn)化<blockquote>??深度學(xué)習(xí)推薦：<ul><li>? 圖像 →?歸一化到 [0,1] 或 [-1,1]</li><li>? 其他數(shù)值特征 →?StandardScaler（Z-Score）</li></ul></blockquote><pre>from?sklearn.preprocessing?import?StandardScaler,?MinMaxScaler#?標(biāo)準(zhǔn)化scaler?=?StandardScaler()X_train_scaled?=?scaler.fit_transform(X_train)X_test_scaled?=?scaler.transform(X_test)??#?注意：只用訓(xùn)練集?fit！#?圖像歸一化（PyTorch）transforms.ToTensor()??#?自動(dòng)將?[0,255]?→?[0,1]</pre>

1.4 類別不平衡問題當(dāng)某一類樣本遠(yuǎn)多于其他類（如欺詐檢測(cè)中 99% 正常，1% 欺詐），模型會(huì)偏向多數(shù)類。解決方案：<pre>類別不平衡重采樣算法層面評(píng)估指標(biāo)過采樣：復(fù)制少數(shù)類欠采樣：刪除多數(shù)類SMOTE：合成新樣本代價(jià)敏感學(xué)習(xí)（class_weight）Focal?Loss不用?Accuracy！用?Precision/Recall/F1/AUC</pre>（1）SMOTE（Synthetic Minority Oversampling Technique）<ul><li>? 在少數(shù)類樣本間插值生成新樣本</li><li>? 避免簡(jiǎn)單復(fù)制導(dǎo)致的過擬合</li></ul><pre>from?imblearn.over_sampling?import?SMOTEsmote?=?SMOTE(random_state=42)X_res,?y_res?=?smote.fit_resample(X_train,?y_train)</pre>（2）代價(jià)敏感學(xué)習(xí)<ul><li>? 給少數(shù)類更高損失權(quán)重</li><li>? PyTorch 示例：<pre>weights?=?torch.tensor([1.0,?10.0])??#?少數(shù)類權(quán)重=10criterion?=?nn.CrossEntropyLoss(weight=weights)</pre></li></ul><blockquote>??最佳實(shí)踐：<ul><li>? 小數(shù)據(jù)集 →?SMOTE + 過采樣</li><li>? 大數(shù)據(jù)集 →?欠采樣 + Focal Loss</li></ul></blockquote>

二、數(shù)據(jù)增強(qiáng)（Data Augmentation）目標(biāo)：人工擴(kuò)充數(shù)據(jù)集，提升模型泛化能力與魯棒性。<blockquote>???核心思想：對(duì)輸入做合理擾動(dòng)，標(biāo)簽不變！</blockquote>

2.1 圖像增強(qiáng)常用技術(shù)：PyTorch 實(shí)現(xiàn)（<pre>from?torchvision?import?transformstrain_transform?=?transforms.Compose([????transforms.RandomHorizontalFlip(p=0.5),??????#?隨機(jī)水平翻轉(zhuǎn)????transforms.RandomRotation(degrees=15),???????#?隨機(jī)旋轉(zhuǎn)?±15°????transforms.ColorJitter(brightness=0.2,?contrast=0.2),??#?色彩抖動(dòng)????transforms.RandomResizedCrop(size=224,?scale=(0.8,?1.0)),??#?隨機(jī)裁剪????transforms.ToTensor(),????transforms.Normalize(mean=[0.485,?0.456,?0.406],??????????????????????????std=[0.229,?0.224,?0.225])??#?ImageNet?標(biāo)準(zhǔn)化])#?測(cè)試時(shí)通常只做?Resize?+?Normalizetest_transform?=?transforms.Compose([????transforms.Resize(256),????transforms.CenterCrop(224),????transforms.ToTensor(),????transforms.Normalize(mean=[0.485,?0.456,?0.406],??????????????????????????std=[0.229,?0.224,?0.225])])</pre>可視化示例：<pre>原始圖像水平翻轉(zhuǎn)旋轉(zhuǎn)?15°隨機(jī)裁剪色彩抖動(dòng)增強(qiáng)后圖像集合</pre><blockquote>???注意：<ul><li>??分類任務(wù)：可大幅增強(qiáng)</li><li>??檢測(cè)/分割：需同步修改標(biāo)注（如 bounding box）</li></ul></blockquote>

2.2 文本增強(qiáng)文本是離散符號(hào)，增強(qiáng)需保持語義一致性。常用方法：代碼示例（使用?<pre>import?nlpaug.augmenter.word?as?naw#?同義詞替換（基于?WordNet）aug?=?naw.SynonymAug(aug_src='wordnet')text?=?"This?movie?is?great!"augmented_text?=?aug.augment(text)print(augmented_text)??#?e.g.,?"This?film?is?wonderful!"#?回譯（需網(wǎng)絡(luò)）#?aug?=?naw.BackTranslationAug(#?????from_model_name='facebook/wmt19-en-de',?#?????to_model_name='facebook/wmt19-de-en'#?)</pre><blockquote>???警告：<ul><li>? 避免改變關(guān)鍵實(shí)體（如“不治之癥” → “可治愈疾病”）</li><li>? 醫(yī)療、法律等敏感領(lǐng)域慎用！</li></ul></blockquote>

三、完整流程圖<pre>原始數(shù)據(jù)預(yù)處理缺失值處理異常值處理歸一化/標(biāo)準(zhǔn)化類別平衡清洗后數(shù)據(jù)數(shù)據(jù)增強(qiáng)圖像增強(qiáng)文本增強(qiáng)最終數(shù)據(jù)集模型訓(xùn)練</pre>

四、配套實(shí)戰(zhàn)代碼（端到端）場(chǎng)景：不平衡圖像分類（貓 vs 稀有動(dòng)物）<pre>import?torchfrom?torch.utils.data?import?DataLoader,?WeightedRandomSamplerfrom?torchvision?import?datasets,?transformsfrom?sklearn.utils.class_weight?import?compute_class_weightimport?numpy?as?np#?1.?定義增強(qiáng)train_transform?=?transforms.Compose([????transforms.RandomHorizontalFlip(),????transforms.RandomRotation(10),????transforms.ColorJitter(0.1,?0.1,?0.1),????transforms.Resize((224,?224)),????transforms.ToTensor(),????transforms.Normalize(mean=[0.485,?0.456,?0.406],?std=[0.229,?0.224,?0.225])])#?2.?加載數(shù)據(jù)train_dataset?=?datasets.ImageFolder('data/train',?transform=train_transform)#?3.?處理類別不平衡：計(jì)算采樣權(quán)重labels?=?[sample[1]?for?sample?in?train_dataset.samples]class_weights?=?compute_class_weight('balanced',?classes=np.unique(labels),?y=labels)sample_weights?=?[class_weights[label]?for?label?in?labels]#?4.?使用?WeightedRandomSamplersampler?=?WeightedRandomSampler(sample_weights,?len(sample_weights))train_loader?=?DataLoader(train_dataset,?batch_size=32,?sampler=sampler)#?5.?模型訓(xùn)練（略）</pre><blockquote>??優(yōu)勢(shì)：<ul><li>? 增強(qiáng)提升泛化</li><li>? 加權(quán)采樣解決不平衡</li><li>? 標(biāo)準(zhǔn)化適配預(yù)訓(xùn)練模型</li></ul></blockquote>

五、總結(jié)與最佳實(shí)踐<blockquote>???黃金法則：<ol><li>1.?先分析，再處理：可視化缺失、分布、類別比例</li><li>2.?驗(yàn)證集不增強(qiáng)：只對(duì)訓(xùn)練集做增強(qiáng)</li><li>3.?保持語義：增強(qiáng)不能改變標(biāo)簽含義</li><li>4.?記錄 pipeline：確保可復(fù)現(xiàn)</li></ol></blockquote>

<h1>資料關(guān)注</h1>公眾號(hào)：咚咚王
gitee：https://gitee.com/wy18585051844/ai_learning《Python編程：從入門到實(shí)踐》
《利用Python進(jìn)行數(shù)據(jù)分析》
《算法導(dǎo)論中文第三版》
《概率論與數(shù)理統(tǒng)計(jì)（第四版） (盛驟) 》
《程序員的數(shù)學(xué)》
《線性代數(shù)應(yīng)該這樣學(xué)第3版》
《微積分和數(shù)學(xué)分析引論》
《（西瓜書）周志華-機(jī)器學(xué)習(xí)》
《TensorFlow機(jī)器學(xué)習(xí)實(shí)戰(zhàn)指南》
《Sklearn與TensorFlow機(jī)器學(xué)習(xí)實(shí)用指南》
《模式識(shí)別（第四版）》
《深度學(xué)習(xí) deep learning》伊恩·古德費(fèi)洛著花書
《Python深度學(xué)習(xí)第二版(中文版)【純文本】 (登封大數(shù)據(jù) (Francois Choliet)) (Z-Library)》
《深入淺出神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)+(邁克爾·尼爾森（Michael+Nielsen）》
《自然語言處理綜論第2版》
《Natural-Language-Processing-with-PyTorch》
《計(jì)算機(jī)視覺-算法與應(yīng)用(中文版)》
《Learning OpenCV 4》
《AIGC：智能創(chuàng)作時(shí)代》杜雨+&+張孜銘
《AIGC原理與實(shí)踐：零基礎(chǔ)學(xué)大語言模型、擴(kuò)散模型和多模態(tài)模型》
《從零構(gòu)建大語言模型（中文版）》
《實(shí)戰(zhàn)AI大模型》
《AI 3.0》?

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

人工智能之核心技術(shù) 深度學(xué)習(xí) 第八章數(shù)據(jù)預(yù)處理與增強(qiáng)

人工智能之核心技術(shù) 深度學(xué)習(xí) 第八章數(shù)據(jù)預(yù)處理與增強(qiáng)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

人工智能之核心技術(shù) 深度學(xué)習(xí) 第八章 數(shù)據(jù)預(yù)處理與增強(qiáng)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

人工智能之核心技術(shù) 深度學(xué)習(xí) 第八章數(shù)據(jù)預(yù)處理與增強(qiáng)