ubuntu15.10下nutch2.2.1+mysql搭建爬蟲(chóng)平臺(tái)

引言

該教程獻(xiàn)給那些剛剛知道nutch這個(gè)東西,充滿好奇心想要嘗試卻一臉懵逼的小伙伴們。

nutch源碼下載

簡(jiǎn)書上沒(méi)有上傳的地方,有點(diǎn)淡淡的憂傷,所以我只有借助<a >CSDN</a>了(走過(guò)路過(guò)不要錯(cuò)過(guò),只要2個(gè)C幣,業(yè)界良心)。

nutch編譯前的配置

  • 打開(kāi)mysql支持
      <!--配置ivy/ivy.xml-->
      <!--ivy也是一種包管理工具,和maven差不多,這里就是添加sql的依賴-->
      <!--解注釋-->
      <dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>
      <dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />
      <修改
      <dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"/>
      <為
      <dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>
      <原因
      <!-- Uncomment this to use SQL as Gora backend. It should be noted that the 
      gora-sql 0.1.1-incubating artifact is NOT compatable with gora-core 0.3. Users should 
      downgrade to gora-core 0.2.1 in order to use SQL as a backend. -->
    
  • 配置mysql參數(shù)
    //conf/gora.properties
    //注釋掉Default SqlStore properties并添加MySQL properties
   //MySQL properties           
  gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
  gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
  gora.sqlstore.jdbc.user=root
  gora.sqlstore.jdbc.password=password
  • 修改nutch的參數(shù)
   <!--將nutch-site.xml.template重命名為nutch-site.xml-->
   <!--conf/nutch-site.xml文件中添加-->
  <property>
       <name>http.agent.name</name>
       <value>LiuXun Nutch Spider</value>
   </property>

   <property>
       <name>http.accept.language</name>
       <value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>
       <description>Value of the “Accept-Language” request header field.

       This allows selecting non-English language as default one to retrieve.

       It is a useful setting for search engines build for certain national group.

       </description>
   </property>

   <property>
       <name>parser.character.encoding.default</name>
       <value>utf-8</value>
       <description>The character encoding to fall back to when no other information
       is available</description>
   </property>

   <property>
       <name>storage.data.store.class</name>
       <value>org.apache.gora.sql.store.SqlStore</value>
       <description>The Gora DataStore class for storing and retrieving data.
       Currently the following stores are available: ….
       </description>
   </property>

   <property>
           <name>generate.batch.id</name>
           <value>*</value>
   </property>

nutch編譯工具的安裝

下載<a >ant</a>并配置path(就這么簡(jiǎn)單)

nutch的編譯

  • 配置
    將<a >sonar-ant-task-2.1.jar</a>放入nutch根目錄,并修改build.xml
  <!-- Define the Sonar task if this hasn't been done in a common script -->
 <taskdef uri="antlib:org.sonar.ant" resource="org/sonar/ant/antlib.xml">
         <classpath path="${ant.library.dir}" />
         <classpath path="${mysql.library.dir}" />
         <classpath><fileset dir="." includes="sonar*.jar" /></classpath>
 </taskdef>
  • ant編譯
    在nutch的根目錄運(yùn)行ant runtime命令,然后就是漫長(zhǎng)的依賴下載時(shí)間。
    真是可怕:
Paste_Image.png

預(yù)告

下一篇<a href="http://www.itdecent.cn/p/6c8d59d1f920">ubuntu15.10下nutch2.2.1+hbase1.1.1搭建爬蟲(chóng)平臺(tái)(失敗的嘗試)</a>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
    草里有只羊閱讀 18,554評(píng)論 0 85
  • Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
    Joyyx閱讀 8,486評(píng)論 0 16
  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,564評(píng)論 19 139
  • 花費(fèi)時(shí)間生命金錢。注意力要有產(chǎn)出。 1、今天有沒(méi)有浪費(fèi)注意力? 自古以來(lái),人都有靈與肉之分。我們的身體永遠(yuǎn)只能活在...
    陳東Growth閱讀 181評(píng)論 0 0
  • 和別的公司不一樣的,我們的聚會(huì)是突發(fā)性的。經(jīng)常是快要下班了,才決定去哪里嗟一頓。也不會(huì)也別的,都是發(fā)燒級(jí)的,臨時(shí)決...
    不曉得rita閱讀 371評(píng)論 0 0

友情鏈接更多精彩內(nèi)容