<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="pmathml.xsl"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="eu">
<head>
	<title>Zientzia eta Teknologiaren Corpusa</title>
	<meta http-equiv="content-language" content="eu" />
	<meta name="robots" content="index,follow" />
	<meta name="keywords" content="ztcorpusa, zientzia, teknologia, corpusa, euskara, elhuyar, ixa, taldea" />
	<meta name="description" content="Hau ZT Corpusaren web gunea da, Elhuyar Fundazioak eta IXA Taldeak elkarlanean egindako euskarazko zientzia eta teknologiaren corpusaren gunea" />
	<meta name="author" content="Elhuyar Fundazioa, IXA Taldea" />

	<meta name="copyright" content="Elhuyar Fundazioa, IXA Taldea" />
	<link rel="stylesheet" type="text/css" href="/text.css" />
	<ie6/>
	<ie7/>
</head>
<body id="a_ler">
	<a name="hasiera" id="hasiera"></a>
	<div id="nagusia">
		<div id="goiburua">
			<div id="logoak">

				<a id="link_elhuyar" href="http://www.elhuyar.org">
					<img src="/logo_Elh.gif" alt="Elhuyar fundazioaren logotipoa" />
				</a>

				<a id="link_ixa" href="http://ixa.si.ehu.es/Ixa">
					<img src="/logo_ixa-upv.gif" alt="Ixa taldearen logotipoa" />
				</a>
			</div>
			<h1 id="izenburua">Zientzia eta Teknologiaren Corpusa</h1>

			<div id="barra2">
				<ul id="menu1">
					<li><a href="/aurkezpena.htm">Aurkezpena</a></li>

					<li><a href="/laguntza.htm">Laguntza</a></li>
					<li><a href="/harremanak.htm">Harremanak</a></li>
					<li class="azkena"><a href="/cgi-bin/kontsulta.py?mota=arrunta">Bilaketa arrunta</a></li>

				</ul>
			</div> <!-- end barra2 -->
		</div> <!-- end goiburua -->
	<div id="edukinak">	
		<div id="nabigazioa">
			<ul class="menu2">
				<li><a href="/aurkezpena.htm">Azalpen laburra</a></li>
				<li><a href="/diseinua-metodologia.htm">Diseinua eta metodologia</a></li>

				<li><a href="/obrak.htm">Obrak</a></li>
				<li><a href="/hornitzaileak.htm">Hornitzaileak</a></li>
				<li><a href="/lantaldea.htm">Lantaldea</a></li>
				<li><a href="laguntzak.htm">Laguntzak</a></li>
			</ul>
		</div><!-- end nabigazioa -->
		
		<div id="testuak">
		
			<h2>Lagintze-eredu estatistikoa </h2>

			
			<p>Lagintze-sistema geruzatua erabiltzea erabaki da. Laginketa geruzatuan, populazioa zenbait multzo edo 'geruzatan' 
			banatuta dago. Corpusean sartuko diren testu-laginak ausaz hautatzen dira, geruza bakoitzaren barnean betiere. 
			Horretara, geruza bakoitzak corpusean halako proportzioa izango duela bermatzen da. Proportzio horiek geruzek 
			populazioan duten proportzio berberak izan daitezke, edo horiek ez bezalakoak. Izan ere, populazioaren izaeraren 
			arabera, gerta daiteke geruza batzuetako testu-produkzioa kuantitatiboki txikia izatea, baina linguistikoki interesgarria. 
			Laginketa proportzional batean, horrelakoak oso ezkutuan gera daitezke. Geruzen arteko 'oreka' handiagoa nahi 
			bada, geruza jakin bakoitzak corpusean izango duen proportzioa aldatzeko aukera dago, beraz. </p>
			
			<p>Horiek horrela, hauek dira gure laginketa-ereduaren ezaugarriak: </p>
			
			<ul>
				<li> Geruzak: geruzak edo 'sailak' eratzeko, parametro batzuk erabil daitezke, eta parametro horien balioen 
				konbinazioak dira geruzak. Guk bi parametro erabili ditugu: a) eremua; b) generoa. Hona hemen horien balioak: </li>
		
				<li> Eremua
					<ul> 
						<li> Zientzia zehatzak (Matematika eta Logika) </li>

						<li> Materiaren eta energiaren zientziak (Fisika eta Kimika) </li>
						<li> Lurraren zientziak (Geologia, Ozeanografia, Geografia...) </li>
						<li> Biziaren zientziak (Biologia, Medikuntza, Ingurumena...) </li>
						<li> Teknologia (Teknologia Mekanikoa, Teknologia Elektrikoa/Elektronikoa, Telekomunikazioak, Informatika, Aeronautika...) </li>
						<li> Bestelakoak (Ekonomia, Arte-teknologiak, Antropologia...) <a href="#notak" class="not_t"><sup>1</sup></a></li>

						<li> Orokorra </li>
					</ul>
				</li>
		
				<li> Generoa 
					<ul>
						<li> Oinarrizko hezkuntzako materiala </li>
						<li> Goi-mailako liburua (espezialistentzako liburua + goi-mailako hezkuntzako liburua) </li>

						<li> Artikulu espezializatua </li>
						<li> Dibulgazio-artikulua </li>
						<li> Dibulgazio-liburua </li>
						<li> Administrazio publikoko dokumentua </li>
					</ul>

				</li>
				
				<li> Geruza bakoitzaren tamaina, hasiera batean behintzat, geruzak populazioan duen proportzioaren araberakoa izatea 

				<p align="center">
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <msub>
    <mi>n</mi>
    <mi>i</mi>
  </msub>
  <mo>=</mo>
  <msub>
    <mi>N</mi>
    <mi>i</mi>
  </msub>
  <mfrac>
    <mi>n</mi>
    <mi>N</mi>
  </mfrac>
</math>
				</p>
					<p>Horretarako, <em>N</em> eta <em>N<sub>i</sub></em>
balioak jakin beharra dago. Horien kalkuluak gutxi gorabeherakoa behar
du izan, halabeharrez. Inbentarioak obra bakoitzaren tamainari
(hitz-kopuruari) buruz ematen dizkigun datuak hauek dira: a)
orrialde-kopurua; b) orrialdearen neurriak. Azterketa bat egin dugu bi
parametro horien eta hitz-kopuruaren arteko erlazioa zehaztu nahian.<a href="#notak" class="not_t"><sup>2</sup></a>

Hala ere, azterlan horren emaitzetatik ez da ondorio argirik atera, eta
batezbestekoarekiko desbiazioa handia da. Nolanahi ere den, orrialdeko
batez besteko hitz-kopurua (175) aski gertu dago UZEIk kalkulatu
zuenetik (180), eta hori da erabili dugun balioa inbentarioan obra
baten hitz-kopuruaren estimazioa egiteko. </p> 
					<p>Lehen esan dugun bezala, inbentarioa egindakoan <em>n<sub>i</sub></em>/ <em>N<sub>i</sub></em> balioa aldatzea komenigarria den azter daiteke; 
					hurrengo atalean azalduko ditugu horrekikoak. </p>
				</li>
				
				
				<li> Geruza bakoitzetik hautatu beharreko obra-kopurua. Geruzako obra-kopurua <em>o<sub>i</sub></em>
					bada, eta geruzatik hartzen den kopurua <em>m<sub>i</sub></em>
					bada, honakoa bete behar da: <p></p>                      
					<p align="center">
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <msub>
      <mi>m</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>o</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
  <mfrac>
    <msub>
      <mi>n</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>j</mi>
        <mo>)</mo>
      </mrow>
    </msub>
    <msub>
      <mi>N</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>j</mi>
        <mo>)</mo>
      </mrow>
    </msub>
  </mfrac>
  <mo>=</mo>
  <mfrac>
    <msub>
      <mi>n</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>N</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
</math>
					</p>
					<p>
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <msub>
      <mi>n</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>j</mi>
        <mo>)</mo>
      </mrow>
    </msub>
    <msub>
      <mi>N</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>j</mi>
        <mo>)</mo>
      </mrow>
    </msub>
  </mfrac>
</math>
					: geruzako obra batetik hartuko den proportzioa </p>
					<p><em>N<sub>i(j)</sub></em>
					aukeratutako obra bakoitzaren tamaina da, eta 
					<em>n<sub>i(j)</sub></em>

					aukeratutako obra bakoitzetik hartzen den testu-kantitatea. Muturreko aukerak hauek dira: </p>
					</li><li> Geruza bakoitzari dagokion hitz-kopurua obra osoak corpuseratuz betetzea: <p></p>
					
					<p align="center">
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <msub>
      <mi>m</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>o</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
  <mo>=</mo>
  <mfrac>
    <msub>
      <mi>n</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>N</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
</math>
					</p>
					
					</li><li> Geruza bakoitzari dagokion hitz-kopurua obra guztietatik lagin bana hartuz betetzea: 
					
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <msub>
      <mi>m</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>o</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
  <mo>=</mo>
  <mn>1</mn>
</math>					
					; obra bakoitzetik 
					
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <msub>
      <mi>n</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>N</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
</math>					proportzioa corpuseratuko litzateke <p></p>

					
						<div class="irudiak">
						<img src="/ler_i1.jpg" />
						<p class="oina">1. irudia. Lagindutako obra-ehunekoaren (<em>m<sub>i</sub></em>/<em>o<sub>i</sub></em>) eta obratik lagindutako proportzioaren (<em>n<sub>ij</sub></em>/<em>N<sub>ij</sub></em>) arteko erlazioa</p>

						</div>
					
					<p>Bi mutur horien arteko puntu bat interesatzen zaigu, hau da, obretako batzuk hartu eta horietako bakoitzetik zati bana. 
					Bi aldagaiak berdintzen diren puntua hobetsi dugu: </p>
					<p align="center">
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <msub>
      <mi>m</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>o</mi>
      <mi>i</mi>
    </msub>
  </mfrac>
  <mo>=</mo>
  <mfrac>
    <msub>
      <mi>n</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>j</mi>
        <mo>)</mo>
      </mrow>
    </msub>
    <msub>
      <mi>N</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>j</mi>
        <mo>)</mo>
      </mrow>
    </msub>
  </mfrac>
</math>					.
					</p>
					<p>Beraz: </p>
					<p align="center">
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <msub>
    <mi>m</mi>
    <mi>i</mi>
  </msub>
  <mo>=</mo>
  <msub>
    <mi>o</mi>
    <mi>i</mi>
  </msub>
  <msqrt>
    <mfrac>
      <msub>
        <mi>n</mi>
        <mi>i</mi>
      </msub>
      <msub>
        <mi>N</mi>
        <mi>i</mi>
      </msub>
    </mfrac>
  </msqrt>
</math>
					</p>
				</li>
		
			
				
				<li> Geruza bakoitzeko obren zozketa: denek probabilitate bera izatea </li>

				
				<li> Obra bakoitzetik hartuko den testu-masa: obraren tamainaren araberakoa izatea 
					<p align="center">
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <msub>
    <mi>n</mi>
    <mrow>
      <mi>i</mi>
      <mo>(</mo>
      <mi>j</mi>
      <mo>)</mo>
    </mrow>
  </msub>
  <mo>=</mo>
  <msub>
    <mi>N</mi>
    <mrow>
      <mi>i</mi>
      <mo>(</mo>
      <mi>j</mi>
      <mo>)</mo>
    </mrow>
  </msub>
  <mfrac>
    <mi>n</mi>
    <mi>N</mi>
  </mfrac>
  <mfrac>
    <msub>
      <mi>N</mi>
      <mi>i</mi>
    </msub>
    <msub>
      <mi>N</mi>
      <mrow>
        <mi>i</mi>
        <mo>(</mo>
        <mi>t</mi>
        <mo>)</mo>
      </mrow>
    </msub>
  </mfrac>
</math>
					</p>
				</li>
				
				<li>
				 Obra bakoitzetik hartu beharreko testu-masa jarraitua ez izatea, halako karaktere-kopuruko tartean behin (<em>p </em>) 
				  hartutako <em>k </em> karaktereko laginak izatea baizik. <em>k </em>-ren balioa 300 hitz izatea erabaki dugu (orrialde 
				  estandarraren inguruko balioa) <p></p>  
					<div class="irudiak">

					<img src="/ler_i2.gif" />
					<p class="oina">2. irudia. Obra baten lagin etenak antolatzeko prozedura </p>
					</div>
				</li>
				
				<li> Lagin-tamaina minimoa: obra baten tamaina lagin jarraituaren tamaina baino txikiagoa denean, 
				laginketan ez sartzea erabaki da </li>
			
			</ul> <!-- lista 1 -->

	        <a href="#hasiera" id="hasierara">Hasierara</a>  
			
			<div class="oharrak">
			<a class="not_o" name="notak" id="notak">1. 'Bestelako gaiak' eremuan, zientzia eta teknologiaren alorrean sartu ohi ez diren baina mugakotzat jo litezkeen 
			zenbait alorretako testuak sartu ditugu. Ez da batere samurra horrelakoetan erabaki argi eta zalantzagabea hartzea, 
			eta irizpideak zehaztea ere zaila da. </a>
			<a class="not_o">2. Elhuyarren liburutegitik 30 liburu aukeratu ditugu, zientzia eta teknikari buruzkoak eta tamaina eta genero askotakoak. </a>
			</div>
		
		</div><!-- end testuak -->
			
	</div> <!-- end emaitza -->

</div> 
<!-- end nagusia -->

<script src="http://www.google-analytics.com/urchin.js" type="text/javascript">
</script>
<script type="text/javascript">
_uacct = "UA-479977-5";
urchinTracker();
</script>

</body></html>