Previous |  Up |  Next

Article

Summary:
Článek popisuje techniku generování vzorů jako prostředek pro získávání informace z rozsáhlých dat. Typickou aplikací této techniky je vytvoření časově i prostorově velmi efektivního algoritmu dělení slov ze seznamu již rozdělených slov. Doposud chyběl generátor vzorů dělení pro UNICODE (pro systémΩ) a rozšíření dosud užívaného programu PatGen, omezeného osmibitovým ASCII, nebylo již nadále únosné. Proto vyvíjíme knihovnu PatLib pro obecnou manipulaci se vzory a na ní postavený generátor vzorů dělení slov OPatGen. Popíšeme architekturu tohoto systému. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s více typy dělicích bodů a o automatické potlačování ligatur na švech složených slov.
Summary:
Paper describes technique of competing patterns as a method for data mining and effective storage. Development of time- and space-effective hyphenation algorithm from already hyphenated word list is a typical application. The program PatGen, being nearly twenty years old, doesn't suit today's needs (limitation to eight-bit encodings, monolithic, hard to maintain code, etc.). A new pattern generator, OPatGen, suitable for system Ω, has been designed and implemented from scratch in object-oriented manner. An architecture of OPatGen is outlined. It is based on genericlibrary PatLib for pattern handling. Possible applications of the pattern technology are listed (multi-level and compound word hyphenation, Thai segmentation, optical character recognition .
References:
[1] Câmpeanu, Cezar, Sânteau, Nicolae, Yu, Sheng: Minimal cover-automata for finite languages. In Champarnaud et al. [2], pages 43-46.
[2] Automata Implementation, Third International Workshop on Implementing Automata, WIA '98. Berlin, Heidelberg, 1999. Springer-Verlag.
[3] Antoš, David, Sojka, Petr: Generování vzorů dělení slov v UNICODE. Str. 23-32, Brno, Czech Republic, Feb 2001. Konvoj.
[4] The New Oxford Dictionary of English. Oxford University Press, Oxford, 1998.
[5] Haralambous, Yannis: A Small Tutorial on the Multilingual Features of PATGEN2. in electronic form, available from CTAN as info/patgen2.tutorial, January 1994.
[6] Haralambous, Yannis, Plaice, John: Methods for Processing Languages with Omega. 1997. available as http://genepi.louis-jean.com/omega/tsukuba-methods97.pdf
[7] Hars, Florian: Typo-I email discussion list. 4 January 1999.
[8] Hein, Piet: Grooks. MIT Press, Cambridge, Massachusetts, 1966.
[9] Hofstadter, Douglas R.: Gödel, Escher, Bach: An Eternal Golden Braid. Basic Books, 1979. MR 0530196
[10] Jiang, Tao, Salomaa, Arto, Salomaa, Kai, Yu, Sheng: Decision problems for patterns. Journal of Computer and Systems Sciences, 50(1):53-63, 1995. MR 1322633
[11] Karttunen, Lauri, Gaál, Tamás, Kempe, André: Xerox finite-state tool. Technical report, Xerox research Centre Europe, Grenoble, June 1997. http://www.xrce.xerox.com/research/mltt/fssoft/docs/fst-97/xfst97.html
[12] Knuth, Donald E.: The TeXbook. Addison-Wesley, Reading, MA, USA, 1986.
[13] Kornai, András: Extended Finite State Models of Language. Cambridge University Press, 1999. MR 1739880
[14] Breitenlohner, Peter, Liang, Franklin M.: PATtern GENeration program for the TeX82 hyphenator. Electronic documentation of PATGEN programversion 2.3 fromweb2c distribution on CTAN, 1999.
[15] Mohri, Mehryar, Pereira, Fernando C. N., Riley, Michael D.: FSM Library - General-purpose finite-state machine software tools. FSM Library — General-purpose finite-state machine software tools, 1998. http://www.research.att.com/sw/tools/fsm/
[16] Roche, Emmanuel, Schabes, Yves: Finite-State Language Processing. MIT Press, 1997.
[17] Sojka, Petr: Notes on Compound Word Hyphenation in TeX. TUGboat, 16(3):290–297, 1995.
[18] Sojka, Petr: Hyphenation on Demand. TUGboat, 20(3):241-247, 1999.
[19] Sojka, Petr: Competing Patterns for Language Engineering. Lecture Notes in Artificial Intelligence LNCS/LNAI 1902, pages 157–162, Brno, Czech Republic, Sep 2000. Springer-Verlag.
[20] Sojka, Petr, Ševeček, Pavel: Hyphenation in TeX - Quo Vadis?. TUGboat, 16(3):280–289, 1995.
[21] Turing, Alan: Computing machinery and intelligence. Mind, (59):433-460, 1950. MR 0037064
Partner of
EuDML logo