openMP 函數(shù)總結(jié)(并行程序設(shè)計(jì)導(dǎo)論)

本篇文章只是記錄api的用法和回顧,方便記憶

openMP

openMP提供“基于指令”的共享內(nèi)存API。這就意味著在c和c++中,有一些特殊的預(yù)處理指令pragma。在系統(tǒng)中加入預(yù)處理指令一般時用來允許不是基本C語言的規(guī)范的行為。
不支持pragma的編譯器會忽略pragma指令提示的那些語句,這樣就允許使用pragma的程序在不支持它的平臺上運(yùn)行

  • OpenMP的pragma總是以 ##pragma omp 開始
簡單例子
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

void Hello(void);
int main(int argc,char* argv[])
{       
         /*
             long strtol( 
                        const char* number_p *in*, 第一個參數(shù)是字符串
                        const char** end_p  *out*,終止的非法字符串 
                        int     base  *in* 進(jìn)制(2-36)
                        )
            
            例:
            char buffer[20]="10379cend$3";
            char *stop;
            printf("%d\n",strtol(buffer, &stop, 2));
            printf("%s\n", stop);
            輸出結(jié)果:
            2
            379cend$3
        */
        int thread_count = strtol(argv[1],NULL,10);
#pragma omp parallel num_threads(thread_count)
        Hello();
        
        return 0;
}

void Hello(void)
{
    int my_rank = omp_get_thread_num();
    int thread_count = omp_get_num_threads();

    printf("hello from thread %d of %d \n",my_rank,thread_count);
}


#編譯
gcc -g -Wall -fopenmp -o main main.c

#-g :產(chǎn)生供gdb調(diào)試用的可執(zhí)行文件
# http://www.itdecent.cn/p/30ffc01380a0
#-Wall:編譯后顯示所有警告
#-fopenmp 使用mpi支持
#-o:輸出到指定文件


#pragma omp pallel
  • 使用parallel是用來表明之后的結(jié)構(gòu)化代碼塊(一個結(jié)構(gòu)化代碼塊時一條C語句或者只有一個入口一個出口的一組復(fù)合C語句)應(yīng)該被多個線程并行執(zhí)行。
  • 完成代碼塊前會有一個隱式路障,先完成的線程必須等待線程組其他線程完成代碼塊。
- num_threads 子句
  1. 允許程序員指定執(zhí)行后代碼塊的線程數(shù)
  2. 程序可以啟動的線程數(shù)可能會受系統(tǒng)定義的限制。OpenMP標(biāo)準(zhǔn)并不保證實(shí)際能夠啟動thread_count個線程。
#pragma omp parallel num_threads(thread_count)
  • 線程被同一個進(jìn)程派生,這些線程共享大部分資源。有它自己的計(jì)數(shù)器。當(dāng)一個線程完成了執(zhí)行,它就又合并到啟動它的線程中。
  • 每個線程都有它自己的棧,所以執(zhí)行一個代碼塊將在代碼塊內(nèi)創(chuàng)建自己的私有局部變量。
-func omp_get_thread_num | omp_get_num_threads
#獲得當(dāng)前線程的編號
int omp_get_thread_num(void)
#獲得線程數(shù)量
int omp_get_num_threads(void)
錯誤檢查

可以通過預(yù)處理宏_OPENMP是否定義。

#ifdef _OPENMP
#include<omp.h>
#endif

#ifdef _OPENMP
    int my_rank=omp_get_thread_num();
    int thread_count=omp_get_num_threads();
#else
    int my_rank=0;
    int thread_count=1;
#endif
#pragma omp critical
  • 只有一個線程能夠執(zhí)行對應(yīng)代碼塊,并且第一個線程完成操作前,沒有其他的線程能夠開始執(zhí)行這段代碼。
  • 當(dāng)不添加name時,OpenMP默認(rèn)做法將所有臨界區(qū)代碼塊作為符合臨界區(qū)一部分,添加name后兩個不同名字的cirtical指令保護(hù)的代碼可以同時執(zhí)行。
語法
#pragma omp critical [(name)]
用法
#pragma omp critical
global_result += my_result;
變量的作用域
  • 在parallel塊之前被聲明的變量的缺省作用域時共享的。
  • parallel指令前已經(jīng)被聲明的變量,擁有線程組中所有線程間的共享作用域,而在塊中聲明的變量(例如,函數(shù)中的變量)中有私有作用域。
- reduction 規(guī)約子句
語法
reduction(<operator>:<variable list>)
# operator : +,*,-,&,|,^,&&,||
用法
  • 當(dāng)一個變量包含在一個reduction子句中時,變量本身是共享的。然而,線程組中的每個線程都創(chuàng)建自己的私有變量。在parallel塊里,每當(dāng)一個線程執(zhí)行涉及這個變量(共享變量)的語句時,它使用的其實(shí)時私有變量。當(dāng)parallel塊執(zhí)行結(jié)束后,私有變量中的值被整合到一個共享變量中。
  • 如果一個規(guī)約變量時floatdouble變量型數(shù)據(jù),那么當(dāng)使用不同數(shù)量的線程時,結(jié)果可能有些許不同。這是由于浮點(diǎn)數(shù)運(yùn)算不滿足結(jié)合律
  • OpenMp會為此創(chuàng)建一個臨界區(qū),并且在這個臨界區(qū)中,將存儲在私有變量中的值進(jìn)行相加(或其他operator)。
global_result=0.0;
#pragma omp parallel num_threads(thread_count) reduction(+:global_result)
global_result += Local_trap(double a,double b,int n);

####等同

global_result=0.0;
#pragma omp parallel num_threads(thread_count) 
{
    double my_result =0.0;/*私有變量*/
    my_result += Local_trap(double a,double b,int n);
#pragma omp critial
    global_result += Local_trap(double a,double b,int n);
}

#pragma omp parallel for
  • parallel for 指令生成一組線程來執(zhí)行后面的結(jié)構(gòu)化代碼塊(必須是for循環(huán))。
  • 系統(tǒng)通過在線程間劃分循環(huán)迭代來并行化for循環(huán)。與parallel指令非常不同,因?yàn)樵趐arallel指令之前的塊,一般來說其工作必須由線程本身在線程之間劃分。
  • 在一個已經(jīng)被parallel for指令并行化的for循環(huán)中,線程間的缺省劃分方式由系統(tǒng)決定(大約 m(迭代次數(shù))/thread_count)。
  • 在一個被parallel for指令并行化的循環(huán)中,循環(huán)變量的缺省作用域是私有的,每個線程會有它自己的循環(huán)變量副本
合法方式
h=(b-a)/n;
approx =(f(a)+f(b))/2.0;
# pragma omp parallel for num_threads(thread_count) reduction(+:=approx)
approx += f(a+i*h);
approx = h* approx;
線程重用
  • 與parallel指令不同的是,for指令并不創(chuàng)建任何線程。它使用已經(jīng)在parallel塊中創(chuàng)建的線程。在循環(huán)的末尾有一個隱式的路障。
#pragma omp parallel num_threads(thread_count) default(none) \ 
  shared(a,n) private(i,tmp,phase)
for(phase = 0;phase<n;phase++)
{
    if(phase%2 == 0)
      #pargma omp for
      for(i=1;i<n;i++)
        ...
    else
      #pargma omp for
      for(i=1;i<n;i++)
        ...
}  
數(shù)據(jù)依賴性
  • OpenMP編譯器不檢查parallel for指令并行化的循環(huán)所包含的迭代間的依賴關(guān)系,而是由程序員來識別這些依賴。
  • 一個或更多個迭代結(jié)果依賴于其他迭代的循環(huán),一般不能被OpenMP正確地并行化。
數(shù)據(jù)依賴
#y依賴于x
for(i=0;i<n;i++)
{
    x[i]=a+i*h;
    y[i]=exp(x[i]);
}
循環(huán)依賴

一個值在循環(huán)中計(jì)算,其結(jié)果在之后迭代中使用。

#并行化后某一個邊界值將是另一個并行化線程中的使用。
fibo[0]=fibo[1]=1;
for(i=2;i<n;i++)
    fibo[i]=fibo[i-1]+fibo[i-2];
- private 子句
  • 在private子句列舉的變量,在每個線程上都有一個私有副本被創(chuàng)建
  • 一個私有作用域的變量的值在parallel塊或者parallel for塊的開始處是未指定的。它的值在parallel塊或者parallel for塊完成之后也是未指定的。
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>

void Hello(void);
int main(int argc,char* argv[])
{

    int x=5;

    #pragma omp parallel private(x)
    {
        int my_rank =omp_get_thread_num();
        printf("Thread %d > before initialization,x=%d \n",my_rank,x);
        x=2*my_rank+2;
        printf("Thread %d > after initialization,x=%d \n",my_rank,x);
    }

    printf("after parallel,x=%d \n",x);
        return 0;
}
- default(none) 子句
  • 讓程序員明確塊中每個變量的作用域。
double sum = 0.0;
/*
sum是一個規(guī)約變量(同時擁有私有和共享作用域的屬性)。
*/
#pragma omp parallel for num_threads(thread_count) \
  default(none) redcution(+:sum) private(k,factor) \
  shared(n)
  for(k=0;k<n;k++)
    if(k%2 ==0)
        factor = 1.0;
    else
        factor = -1.0;
    sum += factor/(2*K+1);
- schedule子句

對線程進(jìn)行調(diào)度。

語法
schedule(<type> [,<chunsize>]

type可以時一下的任意一個。

  • static。迭代能夠在循環(huán)執(zhí)行前分配給線程。
(static,1)
Thread0:0,3,6,9
Thread1:1,4,7,10
Thread2:2,5,8,11

(static,2)
Thread0:0,1,6,7
Thread1:2,3,8,9
Thread2:4,5,10,11

缺省調(diào)度(static,total_iterations/thread_count)
  • dynamic或guided。迭代在循環(huán)執(zhí)行時被分配給線程,因此在一個線程完成了它的當(dāng)前迭代集合后,他能從運(yùn)行時系統(tǒng)中請求更多。
dynamic調(diào)度中,迭代也被分成chunksize個連續(xù)迭代的塊。
每個線程執(zhí)行一塊,并且當(dāng)一個線程完成一塊時,
他將從運(yùn)行時系統(tǒng)請求另一塊,直到所有的迭代完成。
chunksize可以被忽略。當(dāng)它被忽略時,chunksize為1。
在guided調(diào)度中,每個線程也執(zhí)行一塊,并且當(dāng)一個線程完成一塊,將請求另一塊。
然而,在guided調(diào)度中,當(dāng)塊完成后,新塊的大小變小。
例如:
n=10 000并且thread_count=2時,迭代將如表那樣分配。塊的大小近似等于的迭代數(shù)除以線程數(shù)。第一塊的大小為9999/2 ~=5000,因?yàn)?999個未被分配的迭代。第二塊的大小為4999/2~=2500。以此類推。

| 線程 |    塊    | 快的大小 | 剩下的迭代代數(shù) |
| 0   | 1~5000   | 5000 | 4999 |
| 1   | 5001-7500| 2500 | 2499 |
| 1   | 7501-8750| 1250 | 1249 |
...
  • auto。編譯器和運(yùn)行時系統(tǒng)決定調(diào)度方式。

  • runtime。調(diào)度在運(yùn)行時決定。
    chunksize是一個正整數(shù)。在OpenMP中,迭代塊在順序循環(huán)中連續(xù)執(zhí)行的一塊迭代語句,塊中的迭代次數(shù)時chunsize。只有static,dynamic和guided調(diào)度有chunksize。

設(shè)置環(huán)境變量
$export OMP_SCHEDULE="static,1"
#pragma omp barrier
  • 顯式的路障,當(dāng)所有的線程都到達(dá)了這個路障時,這些線程就可以接著往下執(zhí)行。
#pragma omp atomic
  • 只能保護(hù)由一條C語言賦值語句所形成的臨界區(qū),是一個更高效的指令。

語句必須是以下形式:

#op:+,*,-,/,&,^,|,<<,or >> .
#expreesion不能引用x。
x<op>=<expreesion>;
x++;
++x;
x--;
y--;

用法
#其他線程對x的更新必須等到該線程對x的更新結(jié)束之后。
#但對y不受保護(hù),因此程序的結(jié)果是不可預(yù)測的。
#pragma omp atomic
  x+=y++
簡單鎖
  • 第一個函數(shù)初始化鎖,所以鎖此時處于解鎖狀態(tài)。
  • 第二個函數(shù)嘗試獲得鎖,如果成功,調(diào)用該函數(shù)的線程可以繼續(xù)執(zhí)行,如果失敗調(diào)用該函數(shù)的線程被阻塞,直到鎖被其他線程釋放。
  • 第三個函數(shù)釋放鎖,以便其他線程獲得該鎖。
  • 第四個函數(shù)銷貨鎖。
void omp_init_lock(omp_lock_t*  lock_p  /*out*/);
void omp_set_lock(omp_lock_t*  lock_p  /*in/out*/);
void omp_unset_lock(omp_lock_t*  lock_p  /*in/out*/);
void omp_destroy_lock(omp_lock_t*  lock_p  /*in/out*/);
用法
static omp_lock_t lock;   
void test11()  
{  
    omp_init_lock(&lock); // 初始化互斥鎖    
  
#pragma omp parallel for    
    for (int i = 0; i < 5; ++i)     
    {    
        omp_set_lock(&lock); //獲得互斥器     
        std::cout << omp_get_thread_num() << "+" << std::endl;    
        std::cout << omp_get_thread_num() << "-" << std::endl;    
        omp_unset_lock(&lock); //釋放互斥器    
    }    
    omp_destroy_lock(&lock); //銷毀互斥器    
}  
#pragma omp single

這樣做能確保接下來的結(jié)構(gòu)化代碼塊由線程組中的一個線程執(zhí)行,而組內(nèi)其他線程等待直到該線程執(zhí)行結(jié)束(在代碼塊的最后設(shè)置一個隱式路障)

#include <stdio.h>
#include <stdlib.h>
#include <omp.h>
int main()
{

#pragma omp parallel
{
int my_rank = omp_get_thread_num();
if(my_rank == 1)
{
   int x=1;
   while(x<1e9)
    {
        x+=1;
    }
}
#pragma omp single
    printf("%d \n",my_rank);
printf("----> %d \n",my_rank);

}
    return 0;
}

#pragma omp master

這樣能確保線程0執(zhí)行接下來的結(jié)構(gòu)化代碼塊。然后master指令在最后不會設(shè)置隱式路障。

-func omp_get_wtime

獲取運(yùn)行時間。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容