Previous |  Up |  Next

Article

Title: Generování vzorů pomocí knihovny PatLib a programu OPatGen (Czech)
Title: Pattern Generation using PatLib Library and Program OPatGen (English)
Author: Antoš, David
Author: Sojka, Petr
Language: Czech
Journal: Zpravodaj Československého sdružení uživatelů TeXu
ISSN: 1211-6661 (print)
ISSN: 1213-8185 (online)
Volume: 12
Issue: 1
Year: 2002
Pages: 3-12
Summary lang: Czech
.
Category: informatics
.
Summary: Článek popisuje techniku generování vzorů jako prostředek pro získávání informace z rozsáhlých dat. Typickou aplikací této techniky je vytvoření časově i prostorově velmi efektivního algoritmu dělení slov ze seznamu již rozdělených slov. Doposud chyběl generátor vzorů dělení pro UNICODE (pro systémΩ) a rozšíření dosud užívaného programu PatGen, omezeného osmibitovým ASCII, nebylo již nadále únosné. Proto vyvíjíme knihovnu PatLib pro obecnou manipulaci se vzory a na ní postavený generátor vzorů dělení slov OPatGen. Popíšeme architekturu tohoto systému. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s více typy dělicích bodů a o automatické potlačování ligatur na švech složených slov. (Czech)
Summary: Paper describes technique of competing patterns as a method for data mining and effective storage. Development of time- and space-effective hyphenation algorithm from already hyphenated word list is a typical application. The program PatGen, being nearly twenty years old, doesn't suit today's needs (limitation to eight-bit encodings, monolithic, hard to maintain code, etc.). A new pattern generator, OPatGen, suitable for system Ω, has been designed and implemented from scratch in object-oriented manner. An architecture of OPatGen is outlined. It is based on genericlibrary PatLib for pattern handling. Possible applications of the pattern technology are listed (multi-level and compound word hyphenation, Thai segmentation, optical character recognition . (English)
DOI: 10.5300/2002-1/3
.
Date available: 2022-04-13T09:38:40Z
Last updated: 2023-08-10
Stable URL: http://hdl.handle.net/10338.dmlcz/149876
.
Reference: [1] Câmpeanu, Cezar, Sânteau, Nicolae, Yu, Sheng: Minimal cover-automata for finite languages.In Champarnaud et al. [2], pages 43-46.
Reference: [2] : Automata Implementation, Third International Workshop on Implementing Automata, WIA '98.Berlin, Heidelberg, 1999. Springer-Verlag.
Reference: [3] Antoš, David, Sojka, Petr: Generování vzorů dělení slov v UNICODE.Str. 23-32, Brno, Czech Republic, Feb 2001. Konvoj.
Reference: [4] : The New Oxford Dictionary of English.Oxford University Press, Oxford, 1998.
Reference: [5] Haralambous, Yannis: A Small Tutorial on the Multilingual Features of PATGEN2.in electronic form, available from CTAN as info/patgen2.tutorial, January 1994.
Reference: [6] Haralambous, Yannis, Plaice, John: Methods for Processing Languages with Omega.1997. available as http://genepi.louis-jean.com/omega/tsukuba-methods97.pdf
Reference: [7] Hars, Florian: Typo-I email discussion list.4 January 1999.
Reference: [8] Hein, Piet: Grooks.MIT Press, Cambridge, Massachusetts, 1966.
Reference: [9] Hofstadter, Douglas R.: Gödel, Escher, Bach: An Eternal Golden Braid.Basic Books, 1979. MR 0530196
Reference: [10] Jiang, Tao, Salomaa, Arto, Salomaa, Kai, Yu, Sheng: Decision problems for patterns.Journal of Computer and Systems Sciences, 50(1):53-63, 1995. MR 1322633
Reference: [11] Karttunen, Lauri, Gaál, Tamás, Kempe, André: Xerox finite-state tool.Technical report, Xerox research Centre Europe, Grenoble, June 1997. http://www.xrce.xerox.com/research/mltt/fssoft/docs/fst-97/xfst97.html.
Reference: [12] Knuth, Donald E.: The TeXbook.Addison-Wesley, Reading, MA, USA, 1986.
Reference: [13] Kornai, András: Extended Finite State Models of Language.Cambridge University Press, 1999. MR 1739880
Reference: [14] Breitenlohner, Peter, Liang, Franklin M.: PATtern GENeration program for the TeX82 hyphenator.Electronic documentation of PATGEN programversion 2.3 fromweb2c distribution on CTAN, 1999.
Reference: [15] Mohri, Mehryar, Pereira, Fernando C. N., Riley, Michael D.: FSM Library - General-purpose finite-state machine software tools.FSM Library — General-purpose finite-state machine software tools, 1998. http://www.research.att.com/sw/tools/fsm/.
Reference: [16] Roche, Emmanuel, Schabes, Yves: Finite-State Language Processing.MIT Press, 1997.
Reference: [17] Sojka, Petr: Notes on Compound Word Hyphenation in TeX.TUGboat, 16(3):290–297, 1995.
Reference: [18] Sojka, Petr: Hyphenation on Demand.TUGboat, 20(3):241-247, 1999.
Reference: [19] Sojka, Petr: Competing Patterns for Language Engineering.Lecture Notes in Artificial Intelligence LNCS/LNAI 1902, pages 157–162, Brno, Czech Republic, Sep 2000. Springer-Verlag.
Reference: [20] Sojka, Petr, Ševeček, Pavel: Hyphenation in TeX - Quo Vadis?.TUGboat, 16(3):280–289, 1995.
Reference: [21] Turing, Alan: Computing machinery and intelligence.Mind, (59):433-460, 1950. MR 0037064
.

Files

Files Size Format View
ZpravodajCSTUG_012-2002-1_2.pdf 219.5Kb application/pdf View/Open
Back to standard record
Partner of
EuDML logo