View Source on GitHub

maze_dataset.tokenization.maze_tokenizer

preserving legacy imports

View Source

 1"""preserving legacy imports"""
 2
 3from maze_dataset.tokenization.maze_tokenizer_legacy import (
 4	MazeTokenizer,
 5	TokenizationMode,
 6)
 7from maze_dataset.tokenization.modular.maze_tokenizer_modular import (
 8	MazeTokenizerModular,
 9)
10
11__all__ = [
12	"MazeTokenizer",
13	"TokenizationMode",
14	"MazeTokenizerModular",
15]

class TokenizationMode(enum.Enum):

View Source

View on GitHub

47class TokenizationMode(Enum):
48	"""legacy tokenization modes
49
50	> [!CAUTION]
51	> Legacy mode of tokenization. will still be around in future releases, but is no longer recommended for use.
52	> Use `MazeTokenizerModular` instead.
53
54	# Abbreviations:
55	- `AOTP`: Ajacency list, Origin, Target, Path
56	- `UT`: Unique Token (for each coordiate)
57	- `CTT`: Coordinate Tuple Tokens (each coordinate is tokenized as a tuple of integers)
58
59	# Modes:
60	- `AOTP_UT_rasterized`: the "classic" mode: assigning tokens to each coordinate is done via rasterization
61		example: for a 3x3 maze, token order is `(0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0), (2,1), (2,2)`
62	- `AOTP_UT_uniform`: new mode, where a 3x3 tokenization scheme and 5x5 tokenizations scheme are compatible
63		uses `corner_first_ndindex` function to order the tokens
64	- `AOTP_CTT_indexed`: each coordinate is a tuple of integers
65	"""
66
67	AOTP_UT_rasterized = "AOTP_UT_rasterized"
68	AOTP_UT_uniform = "AOTP_UT_uniform"
69	AOTP_CTT_indexed = "AOTP_CTT_indexed"
70
71	def to_legacy_tokenizer(self, max_grid_size: int | None = None) -> "MazeTokenizer":
72		"convert the mode to a legacy `MazeTokenizer` object given a `max_grid_size`"
73		return MazeTokenizer(tokenization_mode=self, max_grid_size=max_grid_size)

legacy tokenization modes

Caution

Legacy mode of tokenization. will still be around in future releases, but is no longer recommended for use. Use MazeTokenizerModular instead.

Abbreviations:

AOTP: Ajacency list, Origin, Target, Path
UT: Unique Token (for each coordiate)
CTT: Coordinate Tuple Tokens (each coordinate is tokenized as a tuple of integers)

Modes:

AOTP_UT_rasterized: the "classic" mode: assigning tokens to each coordinate is done via rasterization example: for a 3x3 maze, token order is (0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0), (2,1), (2,2)
AOTP_UT_uniform: new mode, where a 3x3 tokenization scheme and 5x5 tokenizations scheme are compatible uses corner_first_ndindex function to order the tokens
AOTP_CTT_indexed: each coordinate is a tuple of integers

AOTP_UT_rasterized = <TokenizationMode.AOTP_UT_rasterized: 'AOTP_UT_rasterized'>

AOTP_UT_uniform = <TokenizationMode.AOTP_UT_uniform: 'AOTP_UT_uniform'>

AOTP_CTT_indexed = <TokenizationMode.AOTP_CTT_indexed: 'AOTP_CTT_indexed'>

def to_legacy_tokenizer( self, max_grid_size: int | None = None) -> MazeTokenizer:

View Source

View on GitHub

71	def to_legacy_tokenizer(self, max_grid_size: int | None = None) -> "MazeTokenizer":
72		"convert the mode to a legacy `MazeTokenizer` object given a `max_grid_size`"
73		return MazeTokenizer(tokenization_mode=self, max_grid_size=max_grid_size)

convert the mode to a legacy MazeTokenizer object given a max_grid_size

Inherited Members

enum.Enum: name; value

maze_dataset.tokenization.maze_tokenizer

Parameters:

Properties

Conditional Properties

Methods

Inherited Members

Abbreviations:

Modes:

Inherited Members

Parameters

Development

Parameters

Parameters

Inherited Members