diff --git a/.github/workflows/main.yml b/.github/workflows/main.yml
index 1cf0e88cca..c7536c1f44 100644
--- a/.github/workflows/main.yml
+++ b/.github/workflows/main.yml
@@ -2,6 +2,11 @@ name: MetaGraph CI
 
 on: [push]
 
+env:
+  REGISTRY: ghcr.io
+  IMAGE_NAME: ${{ github.repository }}
+
+
 jobs:
 
   Linux:
@@ -173,6 +178,79 @@ jobs:
     - name: run integration tests
       run: cd metagraph/build && make check
 
+  Build-and-Push-Docker:
+    # adapted from https://docs.github.com/en/actions/guides/publishing-docker-images#publishing-images-to-github-packages
+    if: github.ref == 'refs/heads/master'
+    needs: [Linux]
+    runs-on: ubuntu-20.04
+    permissions:
+      contents: read
+      packages: write
+
+    steps:
+    - name: Checkout repository
+      uses: actions/checkout@v2
+
+    - name: checkout submodules
+      run: git submodule update --init --recursive
+
+    - name: Log in to the Container registry
+      uses: docker/login-action@f054a8b539a109f9f41c372932f1ae047eff08c9
+      with:
+          registry: ${{ env.REGISTRY }}
+          username: ${{ github.actor }}
+          password: ${{ secrets.GITHUB_TOKEN }}
+
+    - name: Extract metadata (tags, labels) for Docker
+      id: meta
+      uses: docker/metadata-action@v3
+      with:
+          images: ${{ env.REGISTRY }}/${{ env.IMAGE_NAME }}
+
+    - name: Build and push Docker image
+      uses: docker/build-push-action@v2
+      with:
+          context: .
+          push: true
+          tags: ${{ steps.meta.outputs.tags }}
+          labels: ${{ steps.meta.outputs.labels }}
+
+
+  Metagraph-Workflows:
+    name: Test metagraph workflows
+    runs-on: ubuntu-20.04
+    needs: [Linux]
+
+    steps:
+        - uses: actions/checkout@v2
+
+        - name: Set up Python 3.8
+          uses: actions/setup-python@v1
+          with:
+              python-version: 3.8
+
+        - name: fetch static binary
+          uses: actions/download-artifact@v2
+          with:
+              path: artifacts
+
+        - name: setup metagraph binary
+          run: |
+            sudo ln -s $(pwd)/artifacts/metagraph_DNA_linux_x86/metagraph_DNA /usr/local/bin/metagraph
+            sudo chmod +rx /usr/local/bin/metagraph
+            /usr/local/bin/metagraph --help
+            metagraph --help
+
+        - name: Install python dependencies
+          run: |
+              python -m pip install --upgrade pip
+              pip install pytest
+              pip install -r metagraph/workflows/requirements.txt
+        - name: Test metagraph-workflows pytest
+          run: |
+              cd metagraph/workflows
+              pytest
+
   Release:
     name: Create Release
     if: contains(github.ref, 'tags/v')
diff --git a/Dockerfile b/Dockerfile
index 9c399a0c1d..d94009c7f3 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -87,7 +87,7 @@ FROM ubuntu:20.04
 ARG CODE_BASE
 
 # the image used in production. It contains a basic runtime environment for metagraph without build tools along with
-# the metagraph binary and python API code. This image is published on dockerhub (`ratschlab/metagraph`).
+# the metagraph binary and python API code. This image is published on github's container registry (`ghcr.io/ratschlab/metagraph`).
 
 RUN apt-get update && apt-get install -y \
     libatomic1 \
diff --git a/README.md b/README.md
index 662812d1b5..0d1dd1df2f 100644
--- a/README.md
+++ b/README.md
@@ -22,7 +22,31 @@ At the same time, the provided workflows and their careful implementation, combi
 
 ## Install
 
-See [docs online](https://metagraph.ethz.ch/static/docs/index.html).
+### Conda
+
+Install the [latest release](https://github.com/ratschlab/metagraph/releases/latest) on Linux or Mac OS X with Anaconda:
+
+```
+conda install -c bioconda -c conda-forge metagraph
+```
+
+### Docker
+
+If docker is available on the system, immediately get started with
+
+```
+docker run -v ${HOME}:/mnt ghcr.io/ratschlab/metagraph:master build -v -k 10 \
+                            -o /mnt/transcripts_1000 \
+                            /mnt/transcripts_1000.fa
+```
+
+(Replace `${HOME}` with a directory on the host system to map it under `/mnt` in the container.)
+
+All different versions of the container are listed [here](https://github.com/ratschlab/metagraph/pkgs/container/metagraph).
+
+### Install From Sources
+
+To compile from source, see [documentation online](https://metagraph.ethz.ch/static/docs/installation.html#install-from-source) (e.g., for builds with custom configurations).
 
 
 ## Typical workflow
diff --git a/metagraph/api/python/README.rst b/metagraph/api/python/README.rst
index 529637dc9f..c8d55debbb 100644
--- a/metagraph/api/python/README.rst
+++ b/metagraph/api/python/README.rst
@@ -31,3 +31,4 @@ Usage
 
 For more examples, see `notebooks
 <./notebooks>`_.
+
diff --git a/metagraph/api/python/setup.py b/metagraph/api/python/setup.py
index 594a8d1c25..875c425988 100644
--- a/metagraph/api/python/setup.py
+++ b/metagraph/api/python/setup.py
@@ -31,10 +31,6 @@
         'Programming Language :: Python :: 3.6',
     ],
     description="Metagraph Toolkit",
-    entry_points={
-        'console_scripts': [
-        ],
-    },
     install_requires=requirements,
     license="MIT license",
     long_description=readme,
diff --git a/metagraph/api/python/tests/test_helpers.py b/metagraph/api/python/tests/test_helpers.py
index da51b6d636..770c53d00c 100644
--- a/metagraph/api/python/tests/test_helpers.py
+++ b/metagraph/api/python/tests/test_helpers.py
@@ -14,7 +14,7 @@ def _load_json_data(filename):
 
 @pytest.mark.parametrize("file_name,align,expected_shape", [
     ('search_response.json', False, (4, 15)),
-    ('search_with_align_response.json', True, (354, 18))
+    ('search_with_align_response.json', True, (354, 15))
 ])
 def test_df_from_search_result(file_name, align, expected_shape):
     json_obj = _load_json_data(file_name)
@@ -27,9 +27,6 @@ def test_df_from_search_result(file_name, align, expected_shape):
                           'metasub_name', 'num_reads', 'sample_type', 'station',
                           'surface_material', 'seq_description']
 
-    if align:
-        expected_cols = expected_cols + ['sequence', 'score', 'cigar']
-
     assert list(df.columns) == expected_cols
 
 
diff --git a/metagraph/docs/source/index.rst b/metagraph/docs/source/index.rst
index 1e25093e0b..6f33ad4e3e 100644
--- a/metagraph/docs/source/index.rst
+++ b/metagraph/docs/source/index.rst
@@ -12,9 +12,8 @@ framework, a software platform for indexing and analysis of very large sequence
 
    installation.rst
    quick_start.rst
+   workflows.rst
    api.rst
    sequence_search.rst
    sequence_assembly.rst
    resources.rst
-
-
diff --git a/metagraph/docs/source/installation.rst b/metagraph/docs/source/installation.rst
index bc23d57b6a..1b24642e5e 100644
--- a/metagraph/docs/source/installation.rst
+++ b/metagraph/docs/source/installation.rst
@@ -23,13 +23,15 @@ Docker container
 
 If docker is available on your system, you can immediately get started with::
 
-    docker run -v ${DATA_DIR_HOST}:/mnt ratschlab/metagraph \
+    docker run -v ${DATA_DIR_HOST}:/mnt ghcr.io/ratschlab/metagraph:latest \
         build -v -k 10 -o /mnt/transcripts_1000 /mnt/transcripts_1000.fa
 
 
 where you'd need to replace ``${DATA_DIR_HOST}`` with a directory on the host system to map it
 under ``/mnt`` in the container. This docker container uses the latest version of MetaGraph from
 the source `GitHub repository <https://github.com/ratschlab/metagraph>`_ (branch ``master``).
+See also the `image overview <https://github.com/ratschlab/metagraph/pkgs/container/metagraph>`_ for
+other versions of the metagraph image.
 
 
 Install from source
@@ -131,7 +133,7 @@ To compile MetaGraph, please follow these steps.
     git clone --recursive https://github.com/ratschlab/metagraph.git
 
 #. Change into the ``metagraph`` directory::
-    
+
     cd metagraph
 
 #. Make sure all submodules have been downloaded::
diff --git a/metagraph/docs/source/workflows.rst b/metagraph/docs/source/workflows.rst
new file mode 100644
index 0000000000..2a7b0564a8
--- /dev/null
+++ b/metagraph/docs/source/workflows.rst
@@ -0,0 +1,105 @@
+=========
+Workflows
+=========
+
+This package provides workflows for the `metagraph framework
+<https://metagraph.ethz.ch>`_
+
+
+Workflows for Creating Graphs and Annotations
+---------------------------------------------
+
+Since the creation of graph and indices comprises several steps, this package provides
+some support to simplify these tasks - in particular for standard cases.
+
+Given some raw sequence data and a few options like the kmer size (`k`) graphs and annotations
+are automatically built:
+
+.. code-block:: bash
+
+    metagraph-workflows build -k 5 transcript_paths.txt /tmp/mygraph
+
+
+If you prefer invoking the workflow from within a python script, the following is equivalent:
+
+.. code-block:: python
+
+    from metagraph_workflows import workflows
+    workflows.run_build_workflow('/tmp/mygraph', seqs_file_list_path='transcript_paths.txt', k=5)
+
+
+
+The workflow logic itself is expressed as a `Snakemake workflow
+<https://snakemake.readthedocs.io/>`_ . You can also directly invoke the workflows
+using the `snakemake` command line tool (see below).
+
+
+Installation and Set up
+~~~~~~~~~~~~~~~~~~~~~~~
+
+
+Set up a conda environment and install the necessary packages using:
+
+.. code-block:: bash
+
+   conda create -n metagraph-workflows python=3.8
+   conda activate metagraph-workflows
+   conda install -c bioconda -c conda-forge metagraph
+   pip install -U "git+https://github.com/ratschlab/metagraph.git#subdirectory=metagraph/workflows"
+
+
+
+
+Usage Example
+~~~~~~~~~~~~~
+
+Typically, the following steps would be performed:
+
+1. sequence file preparation: add your sequence files of interest into a directory.
+2. running workflow: you can invoke the workflow using ``metagraph-workflows build``. Important parameters you may consider tuning are:
+
+   * k
+   * primary vs non primary graph creation
+   * annotation label source: ``sequence_headers`` or ``sequence_file_names``
+
+   An example invocation:
+
+   .. code-block:: bash
+
+     metagraph-workflows build -k 31 \
+                               --seqs-dir-path [PATH_TO_SEQUENCES] \
+                               --annotation-labels-source sequence_headers \
+                               --build-primary-graph
+                               [OUTPUT_DIR]
+
+   see ``metagraph-workflows build --help`` for more help
+3. do queries: once you created the indices you can query either by using the command line
+   query tool or starting the metagraph server on your laptop or another suitable machine and access
+   do queries using e.g. the python :ref:`API` client.
+
+
+There is also a `jupyter notebook <https://github.com/ratschlab/metagraph/blob/master/metagraph/workflows/notebooks/workflow_end_to_end_example.ipynb>`_ walking you through an example from indexing to api querying.
+
+
+
+Workflow Management
+~~~~~~~~~~~~~~~~~~~
+
+The following snakemake options are exposed in the ``build`` subcommand
+
+   * ``--dryrun``: see what workflow steps would be done
+   * ``--force`` (corresponds to ``--forceall`` in snakemake): force run all steps
+
+
+Directly Invoking Snakemake Workflow
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+The above command is only a wrapper around a snakemake workflow. You can also
+directly invoke the snakemake workflow (assuming you checked out the `metagraph git repository <https://github.com/ratschlab/metagraph>`_):
+
+.. code-block:: bash
+
+    cd metagraph/workflows
+    snakemake --forceall --configfile default.yml \
+        --config k=5 seqs_file_list_path='transcript_paths.txt' output_directory=/tmp/mygraph \
+        annotation_labels_source=sequence_headers --cores 2
diff --git a/metagraph/integration_tests/base.py b/metagraph/integration_tests/base.py
index 84f3f5aafe..1f0037edd2 100644
--- a/metagraph/integration_tests/base.py
+++ b/metagraph/integration_tests/base.py
@@ -104,9 +104,16 @@ def _clean(graph, output, extra_params=''):
 
     @staticmethod
     def _annotate_graph(input, graph_path, output, anno_repr,
-                        separate=False, no_fork_opt=False, no_anchor_opt=False):
+                        separate=False, no_fork_opt=False, no_anchor_opt=False,
+                        anno_type='header'):
         target_anno = anno_repr
+
+        noswap = anno_repr.endswith('_noswap')
+        if noswap:
+            anno_repr = anno_repr[:-len('_noswap')]
+
         if (anno_repr in {'row_sparse', 'column_coord'} or
+                anno_repr.endswith('_coord') or
                 anno_repr.endswith('brwt') or
                 anno_repr.startswith('row_diff')):
             target_anno = anno_repr
@@ -115,7 +122,7 @@ def _annotate_graph(input, graph_path, output, anno_repr,
             target_anno = anno_repr
             anno_repr = 'row'
 
-        command = f'{METAGRAPH} annotate -p {NUM_THREADS} --anno-header \
+        command = f'{METAGRAPH} annotate -p {NUM_THREADS} --anno-{anno_type}\
                     -i {graph_path} --anno-type {anno_repr} \
                     -o {output} {input}'
 
@@ -141,6 +148,8 @@ def _annotate_graph(input, graph_path, output, anno_repr,
                     {output + anno_file_extension[anno_repr]}'
 
         other_args = ' --count-kmers' if with_counts else ''
+        other_args += ' --coordinates' if final_anno.endswith('_coord') else ''
+        other_args += ' --disk-swap \"\"' if noswap else ''
 
         if target_anno == 'row_diff':
             command += ' -i ' + graph_path
@@ -170,7 +179,7 @@ def _annotate_graph(input, graph_path, output, anno_repr,
             assert(res.returncode == 0)
 
             if final_anno != target_anno:
-                rd_type = 'column' if with_counts else 'row_diff'
+                rd_type = 'column' if with_counts or final_anno.endswith('_coord') else 'row_diff'
                 command = f'{METAGRAPH} transform_anno --anno-type {final_anno} --greedy -o {output} ' \
                                    f'-i {graph_path} -p {NUM_THREADS} {output}.{rd_type}.annodbg'
                 res = subprocess.run([command], shell=True)
@@ -178,3 +187,8 @@ def _annotate_graph(input, graph_path, output, anno_repr,
                 os.remove(output + anno_file_extension[rd_type])
             else:
                 os.remove(output + anno_file_extension[anno_repr])
+
+        if final_anno.endswith('brwt') or final_anno.endswith('brwt_coord'):
+            command = f'{METAGRAPH} relax_brwt -o {output} -p {NUM_THREADS} {output}.{final_anno}.annodbg'
+            res = subprocess.run([command], shell=True)
+            assert (res.returncode == 0)
diff --git a/metagraph/integration_tests/test_align.py b/metagraph/integration_tests/test_align.py
index b7fcb25522..6cfeee9d1f 100644
--- a/metagraph/integration_tests/test_align.py
+++ b/metagraph/integration_tests/test_align.py
@@ -41,7 +41,7 @@ def test_simple_align_all_graphs(self, representation):
         self.assertEqual('nodes (k): 16438', params_str[1])
         self.assertEqual('mode: basic', params_str[2])
 
-        stats_command = '{exe} align -i {graph} --align-min-exact-match 0.0 {reads}'.format(
+        stats_command = '{exe} align --align-only-forwards -i {graph} --align-min-exact-match 0.0 {reads}'.format(
             exe=METAGRAPH,
             graph=self.tempdir.name + '/genome.MT' + graph_file_extension[representation],
             reads=TEST_DATA_DIR + '/genome_MT1.fq',
@@ -49,13 +49,13 @@ def test_simple_align_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t+\tTAGAATCTTAG\t22\t11\t19S11=120S\t0')
         self.assertEqual(params_str[1], 'MT-8/1\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t+\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t300\t150\t150=\t0')
         self.assertEqual(params_str[2], 'MT-6/1\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t+\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t300\t150\t150=\t0')
         self.assertEqual(params_str[3], 'MT-4/1\tAGTATAGTAGTTCGCTTTGACTGGTGAAGTCTTAGCATGTACTGCTCGGAGGTTCGGTTCTGCTCCGAGGTCGCCCCAACCGAAATTTTTAATGCAGGTTTGGTAGTTTAGGACCTGTGGGTTTGTTAGGTACTGTTTGCATTAATAAAT\t*\t*\t0\t*\t*\t*')
         self.assertEqual(params_str[4], 'MT-2/1\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t+\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t300\t150\t150=\t0')
-        last_split = params_str[5].split("\t");
+        last_split = params_str[5].split("\t")
         self.assertEqual(last_split[0], "MT-11/1")
         self.assertEqual(last_split[1], "AACAGAGAATTGTTTAAATTACAATCTTAGCTATGGGTGCTAAAGGTGGAGTTATAGACTTTTTCACTGATTTGTCGTTGGAAAAAGCTTTTCATCTCGGGTTTACAAGTCTGGTGTATTTGTTTATACTAGAAGGACAGGCGCATTTGA")
         self.assertEqual(last_split[4], "22")
@@ -82,13 +82,14 @@ def test_simple_align_map_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\t1/140/1')
         self.assertEqual(params_str[1], 'MT-8/1\t140/140/140')
         self.assertEqual(params_str[2], 'MT-6/1\t140/140/140')
         self.assertEqual(params_str[3], 'MT-4/1\t0/140/0')
         self.assertEqual(params_str[4], 'MT-2/1\t140/140/140')
         self.assertEqual(params_str[5], 'MT-11/1\t1/140/1')
+        self.assertEqual(params_str[6], 'MT-11/1\t1/140/1')
 
     @parameterized.expand(GRAPH_TYPES)
     def test_simple_align_map_canonical_all_graphs(self, representation):
@@ -112,13 +113,14 @@ def test_simple_align_map_canonical_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\t140/140/140')
         self.assertEqual(params_str[1], 'MT-8/1\t140/140/140')
         self.assertEqual(params_str[2], 'MT-6/1\t140/140/140')
         self.assertEqual(params_str[3], 'MT-4/1\t129/140/129')
         self.assertEqual(params_str[4], 'MT-2/1\t140/140/139')
         self.assertEqual(params_str[5], 'MT-11/1\t2/140/2')
+        self.assertEqual(params_str[6], 'MT-11/1\t140/140/140')
 
     @parameterized.expand(['succinct'])
     def test_simple_align_json_all_graphs(self, representation):
@@ -134,7 +136,7 @@ def test_simple_align_json_all_graphs(self, representation):
         self.assertEqual('nodes (k): 16438', params_str[1])
         self.assertEqual('mode: basic', params_str[2])
 
-        stats_command = '{exe} align -i {graph} --align-min-exact-match 0.0 {reads}'.format(
+        stats_command = '{exe} align --align-only-forwards -i {graph} --align-min-exact-match 0.0 {reads}'.format(
             exe=METAGRAPH,
             graph=self.tempdir.name + '/genome.MT' + graph_file_extension[representation],
             reads=TEST_DATA_DIR + '/genome_MT1.fq',
@@ -142,7 +144,7 @@ def test_simple_align_json_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
 
     @parameterized.expand(GRAPH_TYPES)
     def test_simple_align_fwd_rev_comp_all_graphs(self, representation):
@@ -158,7 +160,7 @@ def test_simple_align_fwd_rev_comp_all_graphs(self, representation):
         self.assertEqual('nodes (k): 16438', params_str[1])
         self.assertEqual('mode: basic', params_str[2])
 
-        stats_command = '{exe} align --align-both-strands -i {graph} --align-min-exact-match 0.0 {reads}'.format(
+        stats_command = '{exe} align -i {graph} --align-min-exact-match 0.0 {reads}'.format(
             exe=METAGRAPH,
             graph=self.tempdir.name + '/genome.MT' + graph_file_extension[representation],
             reads=TEST_DATA_DIR + '/genome_MT1.fq',
@@ -166,13 +168,13 @@ def test_simple_align_fwd_rev_comp_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t-\tTCAAATGGGCCTGTCCTTGTAGTATAAACTAATACACCAGTCTTGTAAACCGGAGATGAAAACCTTTTTCCAAGGACAAATCAGAGAAAAAGTCTTTAACTCCACCATTAGCACCCAAAGCTAAGATTCTAATTTAAACTATTCTCTGTT\t300\t150\t150=\t0')
         self.assertEqual(params_str[1], 'MT-8/1\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t+\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t300\t150\t150=\t0')
         self.assertEqual(params_str[2], 'MT-6/1\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t+\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t300\t150\t150=\t0')
         self.assertEqual(params_str[3], 'MT-4/1\tAGTATAGTAGTTCGCTTTGACTGGTGAAGTCTTAGCATGTACTGCTCGGAGGTTCGGTTCTGCTCCGAGGTCGCCCCAACCGAAATTTTTAATGCAGGTTTGGTAGTTTAGGACCTGTGGGTTTGTTAGGTACTGTTTGCATTAATAAAT\t-\tATTTATTAATGCAAACAGTACCTAACAAACCCACAGGTCCTAAACTACCAAACCTGCATTAAAAATTTCGGTTGGGGCGACCTCGGAGCAGAACCCAACCTCCGAGCAGTACATGCTAAGACTTCACCAGTCAAAGCGAACTACTATACT\t295\t149\t95=1X54=\t0')
         self.assertEqual(params_str[4], 'MT-2/1\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t+\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t300\t150\t150=\t0')
-        last_split = params_str[5].split("\t");
+        last_split = params_str[5].split("\t")
         self.assertEqual(last_split[0], "MT-11/1")
         self.assertEqual(last_split[1], "AACAGAGAATTGTTTAAATTACAATCTTAGCTATGGGTGCTAAAGGTGGAGTTATAGACTTTTTCACTGATTTGTCGTTGGAAAAAGCTTTTCATCTCGGGTTTACAAGTCTGGTGTATTTGTTTATACTAGAAGGACAGGCGCATTTGA")
         self.assertEqual(last_split[4], "22")
@@ -180,7 +182,6 @@ def test_simple_align_fwd_rev_comp_all_graphs(self, representation):
     @parameterized.expand(GRAPH_TYPES)
     def test_simple_align_canonical_all_graphs(self, representation):
 
-
         self._build_graph(input=TEST_DATA_DIR + '/genome.MT.fa',
                           output=self.tempdir.name + '/genome.MT',
                           k=11, repr=representation, mode='canonical',
@@ -200,13 +201,14 @@ def test_simple_align_canonical_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.maxDiff = None
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t+\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t300\t150\t150=\t0')
         self.assertEqual(params_str[1], 'MT-8/1\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t+\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t300\t150\t150=\t0')
         self.assertEqual(params_str[2], 'MT-6/1\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t+\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t300\t150\t150=\t0')
         self.assertEqual(params_str[3], 'MT-4/1\tAGTATAGTAGTTCGCTTTGACTGGTGAAGTCTTAGCATGTACTGCTCGGAGGTTCGGTTCTGCTCCGAGGTCGCCCCAACCGAAATTTTTAATGCAGGTTTGGTAGTTTAGGACCTGTGGGTTTGTTAGGTACTGTTTGCATTAATAAAT\t+\tAGTATAGTAGTTCGCTTTGACTGGTGAAGTCTTAGCATGTACTGCTCGGAGGTTGGGTTCTGCTCCGAGGTCGCCCCAACCGAAATTTTTAATGCAGGTTTGGTAGTTTAGGACCTGTGGGTTTGTTAGGTACTGTTTGCATTAATAAAT\t295\t149\t54=1X95=\t0')
         self.assertEqual(params_str[4], 'MT-2/1\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t+\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t300\t150\t150=\t0')
-        last_split = params_str[5].split("\t");
+        last_split = params_str[5].split("\t")
         self.assertEqual(last_split[0], "MT-11/1")
         self.assertEqual(last_split[1], "AACAGAGAATTGTTTAAATTACAATCTTAGCTATGGGTGCTAAAGGTGGAGTTATAGACTTTTTCACTGATTTGTCGTTGGAAAAAGCTTTTCATCTCGGGTTTACAAGTCTGGTGTATTTGTTTATACTAGAAGGACAGGCGCATTTGA")
         self.assertEqual(last_split[4], "22")
@@ -233,7 +235,7 @@ def test_simple_align_canonical_subk_succinct(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t+\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t300\t150\t150=\t0')
         self.assertEqual(params_str[1], 'MT-8/1\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t+\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t300\t150\t150=\t0')
         self.assertEqual(params_str[2], 'MT-6/1\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t+\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t300\t150\t150=\t0')
@@ -263,13 +265,14 @@ def test_simple_align_primary_all_graphs(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t+\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t300\t150\t150=\t0')
         self.assertEqual(params_str[1], 'MT-8/1\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t+\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t300\t150\t150=\t0')
         self.assertEqual(params_str[2], 'MT-6/1\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t+\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t300\t150\t150=\t0')
         self.assertEqual(params_str[3], 'MT-4/1\tAGTATAGTAGTTCGCTTTGACTGGTGAAGTCTTAGCATGTACTGCTCGGAGGTTCGGTTCTGCTCCGAGGTCGCCCCAACCGAAATTTTTAATGCAGGTTTGGTAGTTTAGGACCTGTGGGTTTGTTAGGTACTGTTTGCATTAATAAAT\t+\tAGTATAGTAGTTCGCTTTGACTGGTGAAGTCTTAGCATGTACTGCTCGGAGGTTGGGTTCTGCTCCGAGGTCGCCCCAACCGAAATTTTTAATGCAGGTTTGGTAGTTTAGGACCTGTGGGTTTGTTAGGTACTGTTTGCATTAATAAAT\t295\t149\t54=1X95=\t0')
         self.assertEqual(params_str[4], 'MT-2/1\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t+\tTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCACTTTCCACACAGACATCATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAAC\t300\t150\t150=\t0')
-        last_split = params_str[5].split("\t");
+        self.assertEqual(params_str[6].split("\t")[4], "300")
+        last_split = params_str[5].split("\t")
         self.assertEqual(last_split[0], "MT-11/1")
         self.assertEqual(last_split[1], "AACAGAGAATTGTTTAAATTACAATCTTAGCTATGGGTGCTAAAGGTGGAGTTATAGACTTTTTCACTGATTTGTCGTTGGAAAAAGCTTTTCATCTCGGGTTTACAAGTCTGGTGTATTTGTTTATACTAGAAGGACAGGCGCATTTGA")
         self.assertEqual(last_split[4], "22")
@@ -296,7 +299,7 @@ def test_simple_align_primary_subk_succinct(self, representation):
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         params_str = res.stdout.decode().rstrip().split('\n')
-        self.assertEqual(len(params_str), 6)
+        self.assertEqual(len(params_str), 7)
         self.assertEqual(params_str[0], 'MT-10/1\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t+\tAACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA\t300\t150\t150=\t0')
         self.assertEqual(params_str[1], 'MT-8/1\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t+\tAAAACTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTAC\t300\t150\t150=\t0')
         self.assertEqual(params_str[2], 'MT-6/1\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t+\tATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTAAAACTAGGCGGCTATGGTATAATA\t300\t150\t150=\t0')
@@ -309,26 +312,24 @@ def test_simple_align_fwd_rev_comp_json_all_graphs(self, representation):
 
         self._build_graph(input=TEST_DATA_DIR + '/genome.MT.fa',
                           output=self.tempdir.name + '/genome.MT',
-                          k=11, repr=representation,
-                          extra_params="--mask-dummy")
+                          k=11, repr=representation)
 
         res = self._get_stats(self.tempdir.name + '/genome.MT' + graph_file_extension[representation])
         params_str = res.stdout.decode().split('\n')[2:]
         self.assertEqual('k: 11', params_str[0])
-        self.assertEqual('nodes (k): 16438', params_str[1])
+        self.assertEqual('nodes (k): 16461', params_str[1])
         self.assertEqual('mode: basic', params_str[2])
 
-        stats_command = '{exe} align -o {output} --json --align-both-strands -i {graph} --align-min-exact-match 0.0 {reads}'.format(
+        stats_command = '{exe} align --json -i {graph} --align-min-exact-match 0.0 {reads}'.format(
             exe=METAGRAPH,
             graph=self.tempdir.name + '/genome.MT' + graph_file_extension[representation],
             reads=TEST_DATA_DIR + '/genome_MT1.fq',
-            output=self.tempdir.name + '/genome.MT' + graph_file_extension[representation] + '.align.json',
         )
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
-        params_str = open(self.tempdir.name + '/genome.MT' + graph_file_extension[representation] + '.align.json', 'r').readlines()
-        self.assertEqual(len(params_str), 6)
-        ref_align_str = open(TEST_DATA_DIR + '/genome_MT1.align.json', 'r').readlines()
+        params_str = res.stdout.decode().rstrip().split('\n')
+        self.assertEqual(len(params_str), 7)
+        ref_align_str = [a.rstrip() for a in open(TEST_DATA_DIR + '/genome_MT1.align.json', 'r').readlines()]
         for [a, b] in zip(params_str, ref_align_str):
             self.assertEqual(a, b)
 
@@ -337,26 +338,24 @@ def test_simple_align_edit_distance_all_graphs(self, representation):
 
         self._build_graph(input=TEST_DATA_DIR + '/genome.MT.fa',
                           output=self.tempdir.name + '/genome.MT',
-                          k=11, repr=representation,
-                          extra_params="--mask-dummy")
+                          k=11, repr=representation)
 
         res = self._get_stats(self.tempdir.name + '/genome.MT' + graph_file_extension[representation])
         params_str = res.stdout.decode().split('\n')[2:]
         self.assertEqual('k: 11', params_str[0])
-        self.assertEqual('nodes (k): 16438', params_str[1])
+        self.assertEqual('nodes (k): 16461', params_str[1])
         self.assertEqual('mode: basic', params_str[2])
 
-        stats_command = '{exe} align -o {output} --json --align-both-strands --align-edit-distance -i {graph} --align-min-exact-match 0.0 {reads}'.format(
+        stats_command = '{exe} align --json --align-edit-distance -i {graph} --align-min-exact-match 0.0 {reads}'.format(
             exe=METAGRAPH,
             graph=self.tempdir.name + '/genome.MT' + graph_file_extension[representation],
             reads=TEST_DATA_DIR + '/genome_MT1.fq',
-            output=self.tempdir.name + '/genome.MT' + graph_file_extension[representation] + '.align.json',
         )
         res = subprocess.run(stats_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
-        params_str = open(self.tempdir.name + '/genome.MT' + graph_file_extension[representation] + '.align.json', 'r').readlines()
-        self.assertEqual(len(params_str), 6)
-        ref_align_str = open(TEST_DATA_DIR + '/genome_MT1.align.edit.json', 'r').readlines()
+        params_str = res.stdout.decode().rstrip().split('\n')
+        self.assertEqual(len(params_str), 7)
+        ref_align_str = [a.rstrip() for a in open(TEST_DATA_DIR + '/genome_MT1.align.edit.json', 'r').readlines()]
         for [a, b] in zip(params_str, ref_align_str):
             self.assertEqual(a, b)
 
diff --git a/metagraph/integration_tests/test_query.py b/metagraph/integration_tests/test_query.py
index 159cab88e3..db8292c280 100644
--- a/metagraph/integration_tests/test_query.py
+++ b/metagraph/integration_tests/test_query.py
@@ -9,6 +9,7 @@
 import numpy as np
 from helpers import get_test_class_name
 from base import TestingBase, METAGRAPH, TEST_DATA_DIR, graph_file_extension
+import hashlib
 
 
 """Test graph construction"""
@@ -18,11 +19,15 @@
 
 anno_file_extension = {'column': '.column.annodbg',
                        'column_coord': '.column_coord.annodbg',
+                       'brwt_coord': '.brwt_coord.annodbg',
+                       'row_diff_coord': '.row_diff_coord.annodbg',
+                       'row_diff_brwt_coord': '.row_diff_brwt_coord.annodbg',
                        'row': '.row.annodbg',
                        'row_diff': '.row_diff.annodbg',
                        'row_sparse': '.row_sparse.annodbg',
                        'row_diff_brwt': '.row_diff_brwt.annodbg',
                        'row_diff_sparse': '.row_diff_sparse.annodbg',
+                       'row_diff_sparse_noswap': '.row_diff_sparse.annodbg',
                        'rb_brwt': '.rb_brwt.annodbg',
                        'brwt': '.brwt.annodbg',
                        'int_brwt': '.int_brwt.annodbg',
@@ -134,6 +139,10 @@ def check_suffix(anno_repr, suffix):
         assert('labels:  100' == params_str[0])
         if cls.graph_repr != 'hashfast' and (cls.graph_repr != 'succinct' or cls.mask_dummy):
             assert('objects: 46960' == params_str[1])
+
+        if cls.anno_repr.endswith('_noswap'):
+            cls.anno_repr = cls.anno_repr[:-len('_noswap')]
+
         assert('representation: ' + cls.anno_repr == params_str[3])
 
     def test_query(self):
@@ -239,7 +248,7 @@ def test_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12241)
+            self.assertEqual(len(res.stdout), 12248)
         else:
             self.assertEqual(len(res.stdout), 12244)
 
@@ -252,7 +261,7 @@ def test_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12347)
+            self.assertEqual(len(res.stdout), 12354)
         else:
             self.assertEqual(len(res.stdout), 12350)
 
@@ -267,7 +276,7 @@ def test_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12241)
+            self.assertEqual(len(res.stdout), 12248)
         else:
             self.assertEqual(len(res.stdout), 12244)
 
@@ -281,7 +290,7 @@ def test_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12347)
+            self.assertEqual(len(res.stdout), 12354)
         else:
             self.assertEqual(len(res.stdout), 12350)
 
@@ -297,7 +306,7 @@ def test_query_with_align_both(self):
         )
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
-        self.assertEqual(len(res.stdout), 20522)
+        self.assertEqual(len(res.stdout), 24565)
 
         query_command = '{exe} query --fwd-and-reverse --align --count-labels -i {graph} -a {annotation} -p {num_theads} --discovery-fraction 0.0 --align-min-exact-match 0.0 {input}'.format(
             exe=METAGRAPH,
@@ -308,7 +317,7 @@ def test_query_with_align_both(self):
         )
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
-        self.assertEqual(len(res.stdout), 20636)
+        self.assertEqual(len(res.stdout), 24777)
 
     def test_batch_query(self):
         query_command = '{exe} query --fast -i {graph} -a {annotation} --discovery-fraction 1.0 {input}'.format(
@@ -413,7 +422,7 @@ def test_batch_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12241)
+            self.assertEqual(len(res.stdout), 12248)
         else:
             self.assertEqual(len(res.stdout), 12244)
 
@@ -426,7 +435,7 @@ def test_batch_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12347)
+            self.assertEqual(len(res.stdout), 12354)
         else:
             self.assertEqual(len(res.stdout), 12350)
 
@@ -441,7 +450,7 @@ def test_batch_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12241)
+            self.assertEqual(len(res.stdout), 12248)
         else:
             self.assertEqual(len(res.stdout), 12244)
 
@@ -455,7 +464,7 @@ def test_batch_query_with_align(self):
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
         if DNA_MODE:
-            self.assertEqual(len(res.stdout), 12347)
+            self.assertEqual(len(res.stdout), 12354)
         else:
             self.assertEqual(len(res.stdout), 12350)
 
@@ -471,7 +480,7 @@ def test_batch_query_with_align_both(self):
         )
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
-        self.assertEqual(len(res.stdout), 20522)
+        self.assertEqual(len(res.stdout), 24565)
 
         query_command = '{exe} query --fast --fwd-and-reverse --align --count-labels -i {graph} -a {annotation} -p {num_theads} --discovery-fraction 0.0 --align-min-exact-match 0.0 {input}'.format(
             exe=METAGRAPH,
@@ -482,7 +491,7 @@ def test_batch_query_with_align_both(self):
         )
         res = subprocess.run(query_command.split(), stdout=PIPE)
         self.assertEqual(res.returncode, 0)
-        self.assertEqual(len(res.stdout), 20636)
+        self.assertEqual(len(res.stdout), 24777)
 
     def test_batch_query_with_tiny_batch(self):
         query_command = '{exe} query --fast --batch-size 100 -i {graph} -a {annotation} --discovery-fraction 1.0 {input}'.format(
@@ -528,6 +537,123 @@ def test_query_coordinates(self):
         self.assertEqual(len(res.stdout), 687712)
 
 
+@parameterized_class(('graph_repr', 'anno_repr'),
+    input_values=product(
+        [repr for repr in GRAPH_TYPES if not (repr == 'bitmap' and PROTEIN_MODE)],
+        ANNO_TYPES + ['row_diff_brwt_separate',
+                      'row_diff_brwt_no_fork_opt',
+                      'row_diff_brwt_no_anchor_opt']
+    ) + product(['succinct_bloom', 'succinct_mask'], ['flat']),
+    class_name_func=get_test_class_name
+)
+class TestQuery1Column(TestingBase):
+    @classmethod
+    def setUpClass(cls):
+        cls.tempdir = TemporaryDirectory()
+
+        cls.with_bloom = False
+        if cls.graph_repr == 'succinct_bloom':
+            cls.graph_repr = 'succinct'
+            cls.with_bloom = True
+
+        cls.mask_dummy = False
+        if cls.graph_repr == 'succinct_mask':
+            cls.graph_repr = 'succinct'
+            cls.mask_dummy = True
+
+        construct_command = '{exe} build {mask_dummy} -p {num_threads} \
+                --graph {repr} -k 20 -o {outfile} {input}'.format(
+            exe=METAGRAPH,
+            mask_dummy='--mask-dummy' if cls.mask_dummy else '',
+            num_threads=NUM_THREADS,
+            repr=cls.graph_repr,
+            outfile=cls.tempdir.name + '/graph',
+            input=TEST_DATA_DIR + '/transcripts_100.fa'
+        )
+
+        res = subprocess.run([construct_command], shell=True)
+        assert(res.returncode == 0)
+
+        stats_command = '{exe} stats {graph}'.format(
+            exe=METAGRAPH,
+            graph=cls.tempdir.name + '/graph' + graph_file_extension[cls.graph_repr],
+        )
+        res = subprocess.run(stats_command.split(), stdout=PIPE)
+        assert(res.returncode == 0)
+        params_str = res.stdout.decode().split('\n')[2:]
+        assert('k: 20' == params_str[0])
+        if cls.graph_repr != 'succinct' or cls.mask_dummy:
+            assert('nodes (k): 46960' == params_str[1])
+        assert('mode: basic' == params_str[2])
+
+        if cls.with_bloom:
+            convert_command = '{exe} transform -o {outfile} --initialize-bloom {bloom_param} {input}'.format(
+                exe=METAGRAPH,
+                outfile=cls.tempdir.name + '/graph',
+                bloom_param='--bloom-fpp 0.1',
+                input=cls.tempdir.name + '/graph' + graph_file_extension[cls.graph_repr],
+            )
+            res = subprocess.run([convert_command], shell=True)
+            assert(res.returncode == 0)
+
+        def check_suffix(anno_repr, suffix):
+            match = anno_repr.endswith(suffix)
+            if match:
+                anno_repr = anno_repr[:-len(suffix)]
+            return anno_repr, match
+
+        cls.anno_repr, separate = check_suffix(cls.anno_repr, '_separate')
+        cls.anno_repr, no_fork_opt = check_suffix(cls.anno_repr, '_no_fork_opt')
+        cls.anno_repr, no_anchor_opt = check_suffix(cls.anno_repr, '_no_anchor_opt')
+
+        cls._annotate_graph(
+            TEST_DATA_DIR + '/transcripts_100.fa',
+            cls.tempdir.name + '/graph' + graph_file_extension[cls.graph_repr],
+            cls.tempdir.name + '/annotation',
+            cls.anno_repr,
+            separate,
+            no_fork_opt,
+            no_anchor_opt,
+            anno_type='label 1'
+        )
+
+        # check annotation
+        anno_stats_command = '{exe} stats -a {annotation}'.format(
+            exe=METAGRAPH,
+            annotation=cls.tempdir.name + '/annotation' + anno_file_extension[cls.anno_repr],
+        )
+        res = subprocess.run(anno_stats_command.split(), stdout=PIPE)
+        assert(res.returncode == 0)
+        params_str = res.stdout.decode().split('\n')[2:]
+        assert('labels:  1' == params_str[0])
+        if cls.graph_repr != 'hashfast' and (cls.graph_repr != 'succinct' or cls.mask_dummy):
+            assert('objects: 46960' == params_str[1])
+
+        if cls.anno_repr.endswith('_noswap'):
+            cls.anno_repr = cls.anno_repr[:-len('_noswap')]
+
+        assert('representation: ' + cls.anno_repr == params_str[3])
+
+    def test_query(self):
+        query_command = f'{METAGRAPH} query \
+                            -i {self.tempdir.name}/graph{graph_file_extension[self.graph_repr]} \
+                            -a {self.tempdir.name}/annotation{anno_file_extension[self.anno_repr]} \
+                            --discovery-fraction 1.0 \
+                            {TEST_DATA_DIR}/transcripts_1000.fa'
+        res = subprocess.run(query_command.split(), stdout=PIPE)
+        self.assertEqual(res.returncode, 0)
+        self.assertEqual(hashlib.sha224(res.stdout).hexdigest(), '254d173abb255a81a4ab8a685201a73de8dbad4546c378e0a645d454')
+
+        query_command = f'{METAGRAPH} query --count-labels \
+                            -i {self.tempdir.name}/graph{graph_file_extension[self.graph_repr]} \
+                            -a {self.tempdir.name}/annotation{anno_file_extension[self.anno_repr]} \
+                            --discovery-fraction 1.0 \
+                            {TEST_DATA_DIR}/transcripts_1000.fa'
+        res = subprocess.run(query_command.split(), stdout=PIPE)
+        self.assertEqual(res.returncode, 0)
+        self.assertEqual(hashlib.sha224(res.stdout).hexdigest(), '1bd6c24373812064c3e17e73533de7b1e30baa3cca3a64b460e83cb4')
+
+
 @parameterized_class(('graph_repr', 'anno_repr'),
     input_values=product(
         [repr for repr in GRAPH_TYPES if not (repr == 'bitmap' and PROTEIN_MODE)],
@@ -831,6 +957,10 @@ def setUpClass(cls):
         assert('labels:  100' == params_str[0])
         if cls.graph_repr != 'hashfast' and (cls.graph_repr != 'succinct' or cls.mask_dummy):
             assert('objects: 91584' == params_str[1])
+
+        if cls.anno_repr.endswith('_noswap'):
+            cls.anno_repr = cls.anno_repr[:-len('_noswap')]
+
         assert('representation: ' + cls.anno_repr == params_str[3])
 
     def test_query(self):
@@ -1037,6 +1167,10 @@ def setUpClass(cls):
         assert('labels:  100' == params_str[0])
         if cls.graph_repr != 'hashfast' and (cls.graph_repr != 'succinct' or cls.mask_dummy):
             assert('objects: 45792' == params_str[1])
+
+        if cls.anno_repr.endswith('_noswap'):
+            cls.anno_repr = cls.anno_repr[:-len('_noswap')]
+
         assert('representation: ' + cls.anno_repr == params_str[3])
 
     def test_query(self):
diff --git a/metagraph/src/annotation/binary_matrix/multi_brwt/brwt_builders.cpp b/metagraph/src/annotation/binary_matrix/multi_brwt/brwt_builders.cpp
index e60f30892e..9bc78e4f2b 100644
--- a/metagraph/src/annotation/binary_matrix/multi_brwt/brwt_builders.cpp
+++ b/metagraph/src/annotation/binary_matrix/multi_brwt/brwt_builders.cpp
@@ -18,7 +18,7 @@ using mtg::common::logger;
 
 BRWTBottomUpBuilder::Partitioner
 BRWTBottomUpBuilder::get_basic_partitioner(size_t arity) {
-    assert(arity > 1u);
+    assert(arity > 0u);
 
     return [arity](const VectorPtrs &vectors) {
         if (!vectors.size())
@@ -200,8 +200,35 @@ BRWT BRWTBottomUpBuilder::build(
         size_t num_nodes_parallel,
         size_t num_threads) {
 
-    if (!linkage.size())
-        return BRWT();
+    if (!linkage.size()) {
+        logger->warn("Passed no linkage rules. Assembling Multi-BRWT without internal nodes...");
+
+        std::vector<std::unique_ptr<bit_vector>> columns;
+
+        std::mutex mu;
+        uint64_t num_rows = 0;
+        get_columns([&](uint64_t i, std::unique_ptr<bit_vector>&& column) {
+            std::unique_lock<std::mutex> lock(mu);
+
+            uint64_t size = column->size();
+            if (!num_rows)
+                num_rows = size;
+
+            if (size != num_rows) {
+                logger->error("Can't merge columns of different size");
+                exit(1);
+            }
+
+            while (i >= columns.size()) {
+                columns.emplace_back();
+            }
+            assert(!columns[i]);
+            columns[i] = std::move(column);
+        });
+
+        return build(std::move(columns), get_basic_partitioner(columns.size()),
+                     num_nodes_parallel, num_threads);
+    }
 
     std::function<void(BRWT&& node, uint64_t id)> dump_node;
     std::function<BRWT(uint64_t id)> get_node;
diff --git a/metagraph/src/annotation/binary_matrix/row_diff/row_diff.hpp b/metagraph/src/annotation/binary_matrix/row_diff/row_diff.hpp
index bc320c03d0..ab4b69b741 100644
--- a/metagraph/src/annotation/binary_matrix/row_diff/row_diff.hpp
+++ b/metagraph/src/annotation/binary_matrix/row_diff/row_diff.hpp
@@ -173,6 +173,10 @@ RowDiff<BaseMatrix>::get_rows(const std::vector<Row> &row_ids) const {
     VectorMap<Row, size_t> node_to_rd;
     node_to_rd.reserve(row_ids.size() * RD_PATH_RESERVE_SIZE);
 
+    // keeps how many times rows in |rd_rows| will be queried
+    std::vector<size_t> times_traversed;
+    times_traversed.reserve(row_ids.size() * RD_PATH_RESERVE_SIZE);
+
     // Truncated row-diff paths, indexes to |rd_rows|.
     // The last index in each path points to an anchor or to a row which had
     // been reached before, and thus, will be reconstructed before this one.
@@ -189,10 +193,13 @@ RowDiff<BaseMatrix>::get_rows(const std::vector<Row> &row_ids) const {
             // The annotation for that node will have been reconstructed earlier
             // than for other nodes in this path as well. Thus, we will start
             // reconstruction from that node and don't need its successors.
-            if (!is_new)
+            if (!is_new) {
+                times_traversed[it.value()]++;
                 break;
+            }
 
             rd_ids.push_back(row);
+            times_traversed.push_back(1);
 
             if (anchor_[row])
                 break;
@@ -206,6 +213,7 @@ RowDiff<BaseMatrix>::get_rows(const std::vector<Row> &row_ids) const {
     node_to_rd = VectorMap<Row, size_t>();
 
     std::vector<SetBitPositions> rd_rows = diffs_.get_rows(rd_ids);
+    common::logger->trace("Queried batch of {} diffed rows", rd_ids.size());
 
     rd_ids = std::vector<Row>();
 
@@ -219,9 +227,16 @@ RowDiff<BaseMatrix>::get_rows(const std::vector<Row> &row_ids) const {
             std::sort(rd_rows[*it].begin(), rd_rows[*it].end());
             add_diff(rd_rows[*it], &result);
             // replace diff row with full reconstructed annotation
-            rd_rows[*it] = result;
+            if (--times_traversed[*it]) {
+                rd_rows[*it] = result;
+            } else {
+                // free memory
+                rd_rows[*it] = {};
+            }
         }
     }
+    common::logger->trace("Reconstructed annotations for {} rows", rows.size());
+    assert(times_traversed == std::vector<size_t>(rd_rows.size(), 0));
 
     return rows;
 }
diff --git a/metagraph/src/annotation/int_matrix/base/int_matrix.hpp b/metagraph/src/annotation/int_matrix/base/int_matrix.hpp
index 00beb51f6e..a0a4c7d36e 100644
--- a/metagraph/src/annotation/int_matrix/base/int_matrix.hpp
+++ b/metagraph/src/annotation/int_matrix/base/int_matrix.hpp
@@ -27,6 +27,8 @@ class IntMatrix : public binmat::BinaryMatrix {
     virtual RowValues
     sum_row_values(const std::vector<std::pair<Row, size_t>> &index_counts,
                    size_t min_count = 1) const;
+
+    virtual const binmat::BinaryMatrix& get_binary_matrix() const { return *this; }
 };
 
 
@@ -52,9 +54,6 @@ class MultiIntMatrix : public IntMatrix {
 
     virtual std::vector<RowTuples>
     get_row_tuples(const std::vector<Row> &rows) const = 0;
-
-    virtual bool load_tuples(std::istream &in) = 0;
-    virtual void serialize_tuples(std::ostream &out) const = 0;
 };
 
 } // namespace matrix
diff --git a/metagraph/src/annotation/int_matrix/rank_extended/tuple_csc_matrix.hpp b/metagraph/src/annotation/int_matrix/rank_extended/tuple_csc_matrix.hpp
index 08c5a78b11..d2aa546312 100644
--- a/metagraph/src/annotation/int_matrix/rank_extended/tuple_csc_matrix.hpp
+++ b/metagraph/src/annotation/int_matrix/rank_extended/tuple_csc_matrix.hpp
@@ -28,6 +28,13 @@ class TupleCSCMatrix : public MultiIntMatrix {
     TupleCSCMatrix(BaseMatrix&& index_matrix)
       : binary_matrix_(std::move(index_matrix)) {}
 
+    TupleCSCMatrix(BaseMatrix&& index_matrix,
+                   std::vector<Delims>&& delimiters,
+                   std::vector<Values>&& column_values)
+      : binary_matrix_(std::move(index_matrix)),
+        delimiters_(std::move(delimiters)),
+        column_values_(std::move(column_values)) {}
+
     // return tuple sizes (if not zero) at each entry
     RowValues get_row_values(Row row) const;
 
@@ -63,6 +70,8 @@ class TupleCSCMatrix : public MultiIntMatrix {
     bool load(std::istream &in);
     void serialize(std::ostream &out) const;
 
+    template <class Callback>
+    static void load_tuples(std::istream &in, uint64_t num_columns, const Callback &callback);
     bool load_tuples(std::istream &in);
     void serialize_tuples(std::ostream &out) const;
 
@@ -168,20 +177,33 @@ inline bool TupleCSCMatrix<BaseMatrix, Values, Delims>::load_tuples(std::istream
     delimiters_.clear();
     column_values_.clear();
 
-    delimiters_.resize(num_columns());
-    column_values_.resize(num_columns());
-    for (size_t j = 0; j < column_values_.size(); ++j) {
-        try {
-            delimiters_[j].load(in);
-            column_values_[j].load(in);
-        } catch (...) {
-            common::logger->error("Couldn't load tuple attributes for column {}", j);
-            return false;
-        }
+    delimiters_.reserve(num_columns());
+    column_values_.reserve(num_columns());
+    try {
+        load_tuples(in, num_columns(), [&](Delims&& delims, Values&& values) {
+            delimiters_.push_back(std::move(delims));
+            column_values_.push_back(std::move(values));
+        });
+    } catch (...) {
+        common::logger->error("Couldn't load tuple attributes");
+        return false;
     }
     return true;
 }
 
+template <class BaseMatrix, class Values, class Delims>
+template <class Callback>
+inline void TupleCSCMatrix<BaseMatrix, Values, Delims>
+::load_tuples(std::istream &in, uint64_t num_columns, const Callback &callback) {
+    for (size_t j = 0; j < num_columns; ++j) {
+        Delims delims;
+        delims.load(in);
+        Values column_values;
+        column_values.load(in);
+        callback(std::move(delims), std::move(column_values));
+    }
+}
+
 template <class BaseMatrix, class Values, class Delims>
 inline void TupleCSCMatrix<BaseMatrix, Values, Delims>::serialize(std::ostream &out) const {
     binary_matrix_.serialize(out);
diff --git a/metagraph/src/annotation/int_matrix/row_diff/int_row_diff.hpp b/metagraph/src/annotation/int_matrix/row_diff/int_row_diff.hpp
index 44726a8bef..b0329d4834 100644
--- a/metagraph/src/annotation/int_matrix/row_diff/int_row_diff.hpp
+++ b/metagraph/src/annotation/int_matrix/row_diff/int_row_diff.hpp
@@ -48,7 +48,7 @@ class IntRowDiff : public binmat::IRowDiff, public IntMatrix {
   public:
     using anchor_bv_type = bit_vector_small;
     using fork_succ_bv_type = bit_vector_small;
-    static_assert(std::is_convertible<IntRowDiff*, IntMatrix*>::value);
+    static_assert(std::is_convertible<BaseMatrix*, IntMatrix*>::value);
 
     IntRowDiff() {}
 
diff --git a/metagraph/src/annotation/int_matrix/row_diff/tuple_row_diff.hpp b/metagraph/src/annotation/int_matrix/row_diff/tuple_row_diff.hpp
new file mode 100644
index 0000000000..e324c7b45b
--- /dev/null
+++ b/metagraph/src/annotation/int_matrix/row_diff/tuple_row_diff.hpp
@@ -0,0 +1,316 @@
+#ifndef __TUPLE_ROW_DIFF_HPP__
+#define __TUPLE_ROW_DIFF_HPP__
+
+#include <algorithm>
+#include <iostream>
+#include <cassert>
+#include <string>
+#include <vector>
+
+#include "common/vectors/bit_vector_adaptive.hpp"
+#include "common/vector_map.hpp"
+#include "common/vector.hpp"
+#include "common/logger.hpp"
+#include "common/utils/template_utils.hpp"
+#include "graph/annotated_dbg.hpp"
+#include "graph/representation/succinct/dbg_succinct.hpp"
+#include "annotation/binary_matrix/row_diff/row_diff.hpp"
+#include "annotation/int_matrix/base/int_matrix.hpp"
+
+
+namespace mtg {
+namespace annot {
+namespace matrix {
+
+template <class BaseMatrix>
+class TupleRowDiff : public binmat::IRowDiff, public MultiIntMatrix {
+  public:
+    using anchor_bv_type = bit_vector_small;
+    using fork_succ_bv_type = bit_vector_small;
+    static_assert(std::is_convertible<BaseMatrix*, MultiIntMatrix*>::value);
+    static const int SHIFT = 1; // coordinates increase by 1 at each edge
+
+    TupleRowDiff() {}
+
+    TupleRowDiff(const graph::DBGSuccinct *graph, BaseMatrix&& diff)
+        : diffs_(std::move(diff)) { graph_ = graph; }
+
+    bool get(Row i, Column j) const override;
+    std::vector<Row> get_column(Column j) const override;
+    SetBitPositions get_row(Row i) const override;
+    std::vector<SetBitPositions> get_rows(const std::vector<Row> &rows) const override;
+    RowTuples get_row_tuples(Row i) const override;
+    std::vector<RowTuples> get_row_tuples(const std::vector<Row> &rows) const override;
+
+    uint64_t num_columns() const override { return diffs_.num_columns(); }
+    uint64_t num_relations() const override { return diffs_.num_relations(); }
+    uint64_t num_attributes() const override { return diffs_.num_attributes(); }
+    uint64_t num_rows() const override { return diffs_.num_rows(); }
+
+    bool load(std::istream &in) override;
+    void serialize(std::ostream &out) const override;
+
+    void load_fork_succ(const std::string &filename);
+    void load_anchor(const std::string &filename);
+
+    const anchor_bv_type& anchor() const { return anchor_; }
+    const BaseMatrix& diffs() const { return diffs_; }
+    BaseMatrix& diffs() { return diffs_; }
+
+  private:
+    static void decode_diffs(RowTuples *diffs);
+    static void add_diff(const RowTuples &diff, RowTuples *row);
+
+    BaseMatrix diffs_;
+    anchor_bv_type anchor_;
+    fork_succ_bv_type fork_succ_;
+};
+
+
+template <class BaseMatrix>
+bool TupleRowDiff<BaseMatrix>::get(Row i, Column j) const {
+    SetBitPositions set_bits = get_row(i);
+    auto v = std::lower_bound(set_bits.begin(), set_bits.end(), j);
+    return v != set_bits.end() && *v == j;
+}
+
+template <class BaseMatrix>
+std::vector<MultiIntMatrix::Row> TupleRowDiff<BaseMatrix>::get_column(Column j) const {
+    assert(graph_ && "graph must be loaded");
+    assert(anchor_.size() == diffs_.num_rows() && "anchors must be loaded");
+    assert(!fork_succ_.size() || fork_succ_.size() == graph_->num_nodes() + 1);
+
+    // TODO: implement a more efficient algorithm
+    std::vector<Row> result;
+    for (Row i = 0; i < num_rows(); ++i) {
+        if (get(i, j))
+            result.push_back(i);
+    }
+    return result;
+}
+
+template <class BaseMatrix>
+MultiIntMatrix::SetBitPositions TupleRowDiff<BaseMatrix>::get_row(Row i) const {
+    RowTuples row = get_row_tuples(i);
+    SetBitPositions result(row.size());
+    for (size_t k = 0; k < row.size(); ++k) {
+        result[k] = row[k].first;
+    }
+    return result;
+}
+
+template <class BaseMatrix>
+std::vector<MultiIntMatrix::SetBitPositions>
+TupleRowDiff<BaseMatrix>::get_rows(const std::vector<Row> &row_ids) const {
+    std::vector<SetBitPositions> result;
+    result.reserve(row_ids.size());
+
+    for (auto&& row : get_row_tuples(row_ids)) {
+        result.emplace_back(row.size());
+        for (size_t k = 0; k < row.size(); ++k) {
+            result.back()[k] = row[k].first;
+        }
+        row = RowTuples();
+    }
+
+    return result;
+}
+
+template <class BaseMatrix>
+MultiIntMatrix::RowTuples TupleRowDiff<BaseMatrix>::get_row_tuples(Row row) const {
+    return get_row_tuples(std::vector<Row>{ row })[0];
+}
+
+template <class BaseMatrix>
+std::vector<MultiIntMatrix::RowTuples>
+TupleRowDiff<BaseMatrix>::get_row_tuples(const std::vector<Row> &row_ids) const {
+    assert(graph_ && "graph must be loaded");
+    assert(anchor_.size() == diffs_.num_rows() && "anchors must be loaded");
+    assert(!fork_succ_.size() || fork_succ_.size() == graph_->num_nodes() + 1);
+
+    const size_t RD_PATH_RESERVE_SIZE = 2;
+
+    // diff rows annotating nodes along the row-diff paths
+    std::vector<Row> rd_ids;
+    rd_ids.reserve(row_ids.size() * RD_PATH_RESERVE_SIZE);
+
+    // map row index to its index in |rd_rows|
+    VectorMap<Row, size_t> node_to_rd;
+    node_to_rd.reserve(row_ids.size() * RD_PATH_RESERVE_SIZE);
+
+    // Truncated row-diff paths, indexes to |rd_rows|.
+    // The last index in each path points to an anchor or to a row which had
+    // been reached before, and thus, will be reconstructed before this one.
+    std::vector<std::vector<std::pair<size_t, size_t>>> rd_paths_trunc(row_ids.size());
+
+    for (size_t i = 0; i < row_ids.size(); ++i) {
+        std::vector<std::pair<size_t, size_t>> &rd_path = rd_paths_trunc[i];
+
+        std::vector<size_t> path;
+        Vector<std::pair<size_t, Row>> queue;
+        queue.emplace_back(0, row_ids[i]);
+
+        while (queue.size()) {
+            size_t depth = queue.back().first;
+            Row row = queue.back().second;
+            queue.pop_back();
+            while (depth < path.size()) {
+                assert(path.size() > 1);
+                rd_path.emplace_back(*(path.rbegin() + 1), *path.rbegin());
+                path.pop_back();
+            }
+            auto [it, is_new] = node_to_rd.try_emplace(row, rd_ids.size());
+            path.push_back(it.value());
+            // If a node had been reached before, we interrupt the diff path.
+            // The annotation for that node will have been reconstructed earlier
+            // than for other nodes in this path as well. Thus, we will start
+            // reconstruction from that node and don't need its successors.
+            if (!is_new)
+                continue;
+
+            rd_ids.push_back(row);
+
+            if (anchor_[row])
+                continue;
+
+            auto node = graph::AnnotatedSequenceGraph::anno_to_graph_index(row);
+            graph_->call_row_diff_successors(node, fork_succ_, [&](auto succ) {
+                queue.emplace_back(depth + 1, graph::AnnotatedSequenceGraph::graph_to_anno_index(succ));
+            });
+        }
+
+        while (path.size() > 1) {
+            rd_path.emplace_back(*(path.rbegin() + 1), *path.rbegin());
+            path.pop_back();
+        }
+        assert(path.size());
+        rd_path.emplace_back(-1, path[0]);
+    }
+
+    node_to_rd = VectorMap<Row, size_t>();
+
+    std::vector<RowTuples> rd_rows = diffs_.get_row_tuples(rd_ids);
+    for (auto &row : rd_rows) {
+        decode_diffs(&row);
+        std::sort(row.begin(), row.end());
+    }
+
+    rd_ids = std::vector<Row>();
+
+    // reconstruct annotation rows from row-diff
+    std::vector<RowTuples> rows(row_ids.size());
+
+    for (size_t i = 0; i < row_ids.size(); ++i) {
+        const auto &rd_path = rd_paths_trunc[i];
+        // propagate back and reconstruct full annotations for predecessors
+        for (size_t j = 0; j + 1 < rd_path.size(); ++j) {
+            auto [node, succ] = rd_path[j];
+            // reconstruct annotation by adding the diff (full succ + diff)
+            add_diff(rd_rows[succ], &rd_rows[node]);
+        }
+        rows[i] = rd_rows[rd_path.back().second];
+        assert(std::all_of(rows[i].begin(), rows[i].end(),
+                           [](auto &p) { return p.second.size(); }));
+    }
+
+    return rows;
+}
+
+template <class BaseMatrix>
+bool TupleRowDiff<BaseMatrix>::load(std::istream &in) {
+    std::string version(4, '\0');
+    in.read(version.data(), 4);
+    return anchor_.load(in) && fork_succ_.load(in) && diffs_.load(in);
+}
+
+template <class BaseMatrix>
+void TupleRowDiff<BaseMatrix>::serialize(std::ostream &out) const {
+    out.write("v2.0", 4);
+    anchor_.serialize(out);
+    fork_succ_.serialize(out);
+    diffs_.serialize(out);
+}
+
+template <class BaseMatrix>
+void TupleRowDiff<BaseMatrix>::decode_diffs(RowTuples *diffs) {
+    std::ignore = diffs;
+    // no encoding
+}
+
+template <class BaseMatrix>
+void TupleRowDiff<BaseMatrix>::add_diff(const RowTuples &diff, RowTuples *row) {
+    assert(std::is_sorted(row->begin(), row->end()));
+    assert(std::is_sorted(diff.begin(), diff.end()));
+
+    if (diff.size()) {
+        RowTuples result;
+        result.reserve(row->size() + diff.size());
+
+        auto it = row->begin();
+        auto it2 = diff.begin();
+        while (it != row->end() && it2 != diff.end()) {
+            if (it->first < it2->first) {
+                result.push_back(*it);
+                ++it;
+            } else if (it->first > it2->first) {
+                result.push_back(*it2);
+                ++it2;
+            } else {
+                if (it2->second.size()) {
+                    result.emplace_back(it->first, Tuple{});
+                    std::set_symmetric_difference(it->second.begin(), it->second.end(),
+                                                  it2->second.begin(), it2->second.end(),
+                                                  std::back_inserter(result.back().second));
+                }
+                ++it;
+                ++it2;
+            }
+        }
+        std::copy(it, row->end(), std::back_inserter(result));
+        std::copy(it2, diff.end(), std::back_inserter(result));
+
+        row->swap(result);
+    }
+
+    assert(std::is_sorted(row->begin(), row->end()));
+    for (auto &[j, tuple] : *row) {
+        assert(std::is_sorted(tuple.begin(), tuple.end()));
+        for (uint64_t &c : tuple) {
+            c -= SHIFT;
+        }
+    }
+}
+
+template <class BaseMatrix>
+void TupleRowDiff<BaseMatrix>::load_anchor(const std::string &filename) {
+    if (!std::filesystem::exists(filename)) {
+        common::logger->error("Can't read anchor file: {}", filename);
+        std::exit(1);
+    }
+    std::ifstream in(filename, ios::binary);
+    if (!in.good()) {
+        common::logger->error("Could not open anchor file {}", filename);
+        std::exit(1);
+    }
+    anchor_.load(in);
+}
+
+template <class BaseMatrix>
+void TupleRowDiff<BaseMatrix>::load_fork_succ(const std::string &filename) {
+    if (!std::filesystem::exists(filename)) {
+        common::logger->error("Can't read fork successor file: {}", filename);
+        std::exit(1);
+    }
+    std::ifstream in(filename, ios::binary);
+    if (!in.good()) {
+        common::logger->error("Could not open fork successor file {}", filename);
+        std::exit(1);
+    }
+    fork_succ_.load(in);
+}
+
+} // namespace matrix
+} // namespace annot
+} // namespace mtg
+
+#endif // __TUPLE_ROW_DIFF_HPP__
diff --git a/metagraph/src/annotation/representation/annotation_matrix/annotation_matrix.cpp b/metagraph/src/annotation/representation/annotation_matrix/annotation_matrix.cpp
index 32f06e4909..2bc4817c09 100644
--- a/metagraph/src/annotation/representation/annotation_matrix/annotation_matrix.cpp
+++ b/metagraph/src/annotation/representation/annotation_matrix/annotation_matrix.cpp
@@ -215,6 +215,10 @@ template class StaticBinRelAnnotator<matrix::IntRowDiff<matrix::CSCMatrix<binmat
 template class StaticBinRelAnnotator<matrix::CSRMatrix, std::string>;
 
 template class StaticBinRelAnnotator<matrix::TupleCSCMatrix<binmat::ColumnMajor>, std::string>;
+template class StaticBinRelAnnotator<matrix::TupleCSCMatrix<binmat::BRWT>, std::string>;
+
+template class StaticBinRelAnnotator<matrix::TupleRowDiff<matrix::TupleCSCMatrix<binmat::ColumnMajor>>, std::string>;
+template class StaticBinRelAnnotator<matrix::TupleRowDiff<matrix::TupleCSCMatrix<binmat::BRWT>>, std::string>;
 
 } // namespace annot
 } // namespace mtg
diff --git a/metagraph/src/annotation/representation/annotation_matrix/static_annotators_def.hpp b/metagraph/src/annotation/representation/annotation_matrix/static_annotators_def.hpp
index d1f53f31ac..cceafbea85 100644
--- a/metagraph/src/annotation/representation/annotation_matrix/static_annotators_def.hpp
+++ b/metagraph/src/annotation/representation/annotation_matrix/static_annotators_def.hpp
@@ -15,6 +15,7 @@
 #include "annotation/binary_matrix/row_vector/unique_row_binmat.hpp"
 #include "annotation/int_matrix/rank_extended/csc_matrix.hpp"
 #include "annotation/int_matrix/row_diff/int_row_diff.hpp"
+#include "annotation/int_matrix/row_diff/tuple_row_diff.hpp"
 #include "annotation/int_matrix/csr_matrix/csr_matrix.hpp"
 #include "annotation/int_matrix/rank_extended/tuple_csc_matrix.hpp"
 
@@ -54,6 +55,12 @@ typedef StaticBinRelAnnotator<matrix::CSRMatrix, std::string> IntRowAnnotator;
 
 typedef StaticBinRelAnnotator<matrix::TupleCSCMatrix<binmat::ColumnMajor>, std::string> ColumnCoordAnnotator;
 
+typedef StaticBinRelAnnotator<matrix::TupleCSCMatrix<binmat::BRWT>, std::string> MultiBRWTCoordAnnotator;
+
+typedef StaticBinRelAnnotator<matrix::TupleRowDiff<matrix::TupleCSCMatrix<binmat::ColumnMajor>>, std::string> RowDiffCoordAnnotator;
+
+typedef StaticBinRelAnnotator<matrix::TupleRowDiff<matrix::TupleCSCMatrix<binmat::BRWT>>, std::string> RowDiffBRWTCoordAnnotator;
+
 
 template <>
 inline const std::string RowFlatAnnotator::kExtension = ".flat.annodbg";
@@ -85,6 +92,12 @@ template <>
 inline const std::string IntRowAnnotator::kExtension = ".int_csr.annodbg";
 template <>
 inline const std::string ColumnCoordAnnotator::kExtension = ".column_coord.annodbg";
+template <>
+inline const std::string MultiBRWTCoordAnnotator::kExtension = ".brwt_coord.annodbg";
+template <>
+inline const std::string RowDiffCoordAnnotator::kExtension = ".row_diff_coord.annodbg";
+template <>
+inline const std::string RowDiffBRWTCoordAnnotator::kExtension = ".row_diff_brwt_coord.annodbg";
 
 } // namespace annot
 } // namespace mtg
diff --git a/metagraph/src/annotation/representation/base/annotation.cpp b/metagraph/src/annotation/representation/base/annotation.cpp
index 95659b8ee5..9fec93e3c1 100644
--- a/metagraph/src/annotation/representation/base/annotation.cpp
+++ b/metagraph/src/annotation/representation/base/annotation.cpp
@@ -130,6 +130,13 @@ ::add_label_coord(Index, const VLabels &, uint64_t) {
     exit(1);
 }
 
+template <typename IndexType, typename LabelType>
+void MultiLabelAnnotation<IndexType, LabelType>
+::add_label_coords(const std::vector<std::pair<Index, uint64_t>> &, const VLabels &) {
+    logger->error("Adding relation attributes is not implemented for this annotator");
+    exit(1);
+}
+
 template class MultiLabelEncoded<std::string>;
 
 template class LabelEncoder<std::string>;
diff --git a/metagraph/src/annotation/representation/base/annotation.hpp b/metagraph/src/annotation/representation/base/annotation.hpp
index 92e0f29aab..7b555c4d16 100644
--- a/metagraph/src/annotation/representation/base/annotation.hpp
+++ b/metagraph/src/annotation/representation/base/annotation.hpp
@@ -56,6 +56,9 @@ class MultiLabelAnnotation
                                   const std::vector<uint64_t> &counts);
     // for each label and index 'i' add numeric attribute 'coord'
     virtual void add_label_coord(Index i, const VLabels &labels, uint64_t coord);
+    // for each label and index 'i' add numeric attribute 'coord'
+    virtual void add_label_coords(const std::vector<std::pair<Index, uint64_t>> &coords,
+                                  const VLabels &labels);
 
     virtual bool has_label(Index i, const Label &label) const = 0;
     virtual bool has_labels(Index i, const VLabels &labels) const = 0;
diff --git a/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.cpp b/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.cpp
index 8cdf19f6ce..cfbea2725d 100644
--- a/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.cpp
+++ b/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.cpp
@@ -161,6 +161,18 @@ void ColumnCompressed<Label>::add_label_coord(Index i, const VLabels &labels, ui
     }
 }
 
+// for each label and index 'i' add numeric attribute 'coord'
+template <typename Label>
+void ColumnCompressed<Label>::add_label_coords(const std::vector<std::pair<Index, uint64_t>> &coords,
+                                               const VLabels &labels) {
+    coords_.resize(num_labels());
+
+    for (const auto &label : labels) {
+        const size_t j = label_encoder_.encode(label);
+        coords_[j].insert(coords_[j].end(), coords.begin(), coords.end());
+    }
+}
+
 template <typename Label>
 bool ColumnCompressed<Label>::has_label(Index i, const Label &label) const {
     try {
@@ -415,6 +427,23 @@ bool ColumnCompressed<Label>::merge_load(const std::vector<std::string> &filenam
     }
 }
 
+template <typename Label>
+size_t ColumnCompressed<Label>::read_num_labels(const std::string &filename) {
+    return load_label_encoder(filename).size();
+}
+
+template <typename Label>
+LabelEncoder<Label>
+ColumnCompressed<Label>::load_label_encoder(const std::string &filename) {
+    auto fname = make_suffix(filename, kExtension);
+    std::ifstream in(filename, std::ios::binary);
+    std::ignore = load_number(in); // read num_rows
+    LabelEncoder<Label> label_encoder;
+    if (!label_encoder.load(in))
+        throw std::ofstream::failure("Can't load label encoder from " + fname);
+    return label_encoder;
+}
+
 template <typename Label>
 bool ColumnCompressed<Label>::merge_load(const std::vector<std::string> &filenames,
                                          const ColumnCallback &callback,
@@ -426,22 +455,13 @@ bool ColumnCompressed<Label>::merge_load(const std::vector<std::string> &filenam
     // load labels
     #pragma omp parallel for num_threads(num_threads) schedule(dynamic)
     for (size_t i = 1; i < filenames.size(); ++i) {
-        auto filename = make_suffix(filenames[i - 1], kExtension);
-
-        std::ifstream in(filename, std::ios::binary);
-        if (!in.good()) {
-            logger->error("Can't read from {}", filename);
-            error_occurred = true;
-        }
-        std::ignore = load_number(in);
-
-        LabelEncoder<Label> label_encoder;
-        if (!label_encoder.load(in)) {
-            logger->error("Can't load label encoder from {}", filename);
+        auto fname = make_suffix(filenames[i - 1], kExtension);
+        try {
+            offsets[i] = read_num_labels(fname);
+        } catch (...) {
+            logger->error("Can't load label encoder from {}", fname);
             error_occurred = true;
         }
-
-        offsets[i] = label_encoder.size();
     }
 
     if (error_occurred)
@@ -507,22 +527,13 @@ ::load_column_values(const std::vector<std::string> &filenames,
     // load labels
     #pragma omp parallel for num_threads(num_threads) schedule(dynamic)
     for (size_t i = 1; i < filenames.size(); ++i) {
-        auto filename = make_suffix(filenames[i - 1], kExtension);
-
-        std::ifstream in(filename, std::ios::binary);
-        if (!in) {
-            logger->error("Can't read from {}", filename);
-            error_occurred = true;
-        }
-        std::ignore = load_number(in);
-
-        LabelEncoder<Label> label_encoder;
-        if (!label_encoder.load(in)) {
-            logger->error("Can't load label encoder from {}", filename);
+        auto fname = make_suffix(filenames[i - 1], kExtension);
+        try {
+            offsets[i] = read_num_labels(fname);
+        } catch (...) {
+            logger->error("Can't load label encoder from {}", fname);
             error_occurred = true;
         }
-
-        offsets[i] = label_encoder.size();
     }
 
     if (error_occurred)
@@ -537,15 +548,7 @@ ::load_column_values(const std::vector<std::string> &filenames,
         const auto &filename = make_suffix(filenames[i], kExtension);
         logger->trace("Loading labels from {}", filename);
         try {
-            std::ifstream in(filename, std::ios::binary);
-            if (!in)
-                throw std::ifstream::failure("can't open file");
-
-            std::ignore = load_number(in);
-
-            LabelEncoder<Label> label_encoder_load;
-            if (!label_encoder_load.load(in))
-                throw std::ifstream::failure("can't load label encoder");
+            LabelEncoder<Label> label_encoder_load = load_label_encoder(filename);
 
             if (!label_encoder_load.size()) {
                 logger->warn("No columns in {}", filename);
@@ -844,10 +847,10 @@ const binmat::ColumnMajor& ColumnCompressed<Label>::get_matrix() const {
 }
 
 template <typename Label>
-binmat::ColumnMajor ColumnCompressed<Label>::release_matrix() {
+std::unique_ptr<binmat::ColumnMajor> ColumnCompressed<Label>::release_matrix() {
     flush();
     label_encoder_.clear();
-    return std::move(matrix_);
+    return std::make_unique<binmat::ColumnMajor>(std::move(matrix_));
 }
 
 template <typename Label>
diff --git a/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.hpp b/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.hpp
index d80419fc2e..c4713acc0a 100644
--- a/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.hpp
+++ b/metagraph/src/annotation/representation/column_compressed/annotate_column_compressed.hpp
@@ -23,6 +23,7 @@ namespace annot {
 template <typename Label = std::string>
 class ColumnCompressed : public MultiLabelEncoded<Label> {
   public:
+    typedef binmat::ColumnMajor binary_matrix_type;
     using Index = typename MultiLabelEncoded<Label>::Index;
     using VLabels = typename MultiLabelEncoded<Label>::VLabels;
 
@@ -65,12 +66,15 @@ class ColumnCompressed : public MultiLabelEncoded<Label> {
                           const std::vector<uint64_t> &counts) override;
     // for each label and index 'i' add numeric attribute 'coord'
     void add_label_coord(Index i, const VLabels &labels, uint64_t coord) override;
+    void add_label_coords(const std::vector<std::pair<Index, uint64_t>> &coords,
+                          const VLabels &labels) override;
 
     bool has_label(Index i, const Label &label) const override;
     bool has_labels(Index i, const VLabels &labels) const override;
 
     void serialize(const std::string &filename) const override;
     bool load(const std::string &filename) override;
+    // the order of the columns may be changed when merging multiple annotators
     bool merge_load(const std::vector<std::string> &filenames);
     using ColumnCallback = std::function<void(uint64_t offset,
                                               const Label &,
@@ -78,6 +82,8 @@ class ColumnCompressed : public MultiLabelEncoded<Label> {
     static bool merge_load(const std::vector<std::string> &filenames,
                            const ColumnCallback &callback,
                            size_t num_threads = 1);
+    static size_t read_num_labels(const std::string &filename);
+    static LabelEncoder<Label> load_label_encoder(const std::string &filename);
 
     using ValuesCallback = std::function<void(uint64_t offset,
                                               const Label &,
@@ -115,7 +121,7 @@ class ColumnCompressed : public MultiLabelEncoded<Label> {
      * Returns the current annotation matrix. The data is moved into the return value,
      * which leaves the current object empty.
      */
-    binmat::ColumnMajor release_matrix();
+    std::unique_ptr<binmat::ColumnMajor> release_matrix();
 
     std::string file_extension() const override { return kExtension; }
 
diff --git a/metagraph/src/annotation/row_diff_builder.cpp b/metagraph/src/annotation/row_diff_builder.cpp
index d846b1c5e0..148cf33dc9 100644
--- a/metagraph/src/annotation/row_diff_builder.cpp
+++ b/metagraph/src/annotation/row_diff_builder.cpp
@@ -16,6 +16,7 @@ const uint64_t BLOCK_SIZE = 1 << 25;
 const uint64_t BUFFER_SIZE = 1024 * 1024; // 1 MiB
 const uint64_t ROW_REDUCTION_WIDTH = 32;
 const uint32_t MAX_NUM_FILES_OPEN = 2000;
+const uint64_t MAX_COLUMNS_IN_BATCH = 1'000'000;
 
 
 namespace mtg {
@@ -86,8 +87,8 @@ void load_coordinates(const std::vector<std::string> &source_files,
         bit_vector_smart delims;
         for (size_t j = 0; j < sources[i].num_labels(); ++j) {
             try {
-                coords.load(in);
                 delims.load(in);
+                coords.load(in);
             } catch (...) {
                 logger->error("Couldn't read coordinates from {}", coords_fname);
                 exit(1);
@@ -820,7 +821,8 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
         }
     }
 
-    const fs::path tmp_path = utils::create_temp_dir(swap_dir, "col");
+    const bool swap_disk = !swap_dir.empty();
+    fs::path tmp_path;
 
     // stores the row indices that were set because of differences to incoming/outgoing
     // edges, for each of the sources, per chunk. set_rows_fwd is already sorted
@@ -833,13 +835,92 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
     auto tmp_file = [&](size_t s, size_t j, size_t chunk) {
         return tmp_path/fmt::format("{}/col_{}_{}/chunk_{}", s / 100, s, j, chunk);
     };
-    auto dump_chunk_to_disk = [&](const std::vector<T> &v,
-                                  size_t s, size_t j, size_t chunk) {
-        assert(std::is_sorted(v.begin(), v.end()) && "all bits in chunks must be sorted");
+    auto dump_chunk_to_disk = [&](std::vector<T> &v, size_t s, size_t j, size_t chunk) {
+        if (!swap_disk)
+            return; // no swap -> nothing to dump
+
+        if (chunk == 0) {
+            assert(std::is_sorted(v.begin(), v.end()));
+        } else {
+            std::sort(v.begin(), v.end());
+        }
         Encoder<T>::append_block(v, tmp_file(s, j, chunk));
         row_diff_bits[s][j] += v.size();
+        v.resize(0);
     };
 
+    std::function<std::function<void(const std::function<void(uint64_t)> &)>(size_t, size_t)> call_diffs;
+    if (swap_disk) {
+        uint64_t total_num_labels = 0;
+        for (size_t s = 0; s < sources.size(); ++s) {
+            total_num_labels += sources[s].num_labels();
+        }
+
+        if (total_num_labels > MAX_COLUMNS_IN_BATCH) {
+            logger->error("Too many columns to transform with disk swap: {} (> MAX {})."
+                          " Disable disk swap (pass --disk-swap \"\").",
+                          total_num_labels, MAX_COLUMNS_IN_BATCH);
+            exit(1);
+        } else if (total_num_labels > MAX_COLUMNS_IN_BATCH / 2) {
+            logger->warn("The number of columns in batch is large: {}."
+                         " Consider disabling disk swap (pass --disk-swap \"\").",
+                         total_num_labels);
+        }
+        tmp_path = utils::create_temp_dir(swap_dir, "col");
+
+        const uint32_t chunks_open_per_thread
+                = MAX_NUM_FILES_OPEN / std::max((uint32_t)1, num_threads) / (2 + with_values);
+        if (chunks_open_per_thread < 3) {
+            logger->error("Can't merge with less than 3 open chunks per thread. "
+                          "Max num files open: {}. Current number of threads: {}. "
+                          "Please reduce the number of threads.",
+                          MAX_NUM_FILES_OPEN, num_threads);
+            exit(1);
+        }
+
+        call_diffs = [&,chunks_open_per_thread](size_t s, size_t j) {
+            return [&,s,j](const std::function<void(uint64_t)> &call) {
+                std::vector<std::string> filenames;
+                // for stage 1, fwd bits are already counted, so we skip that chunk
+                for (uint32_t chunk = compute_row_reduction ? 1 : 0;
+                                    chunk < num_chunks[s][j]; ++chunk) {
+                    filenames.push_back(tmp_file(s, j, chunk));
+                }
+
+                const bool remove_chunks = true;
+                uint64_t r = 0;
+                elias_fano::merge_files<T>(filenames, [&](T v) {
+                    call(utils::get_first(v));
+                    if constexpr(with_values) {
+                        assert(v.second && "zero diffs must have been skipped");
+                        values[s][j][r++] = matrix::encode_diff(v.second);
+                    }
+                }, remove_chunks, chunks_open_per_thread);
+            };
+        };
+    } else {
+        logger->info("Diff-transform in memory without disk swap");
+
+        call_diffs = [&](size_t s, size_t j) {
+            return [&,s,j](const std::function<void(uint64_t)> &call) {
+                auto &v = set_rows_fwd[s][j];
+                v.insert(v.end(), set_rows_bwd[s][j].begin(), set_rows_bwd[s][j].end());
+                set_rows_bwd[s][j] = {};
+
+                std::sort(v.begin(), v.end());
+
+                uint64_t r = 0;
+                for (size_t i = 0; i < v.size(); ++i) {
+                    call(utils::get_first(v[i]));
+                    if constexpr(with_values) {
+                        assert(v[i].second && "zero diffs must have been skipped");
+                        values[s][j][r++] = matrix::encode_diff(v[i].second);
+                    }
+                }
+            };
+        };
+    }
+
     // In the first stage, only one buffer is created per column (`bwd`).
     // In the last stage, two buffers (`fwd` and `bwd`) are created per column.
     const uint64_t buf_size = compute_row_reduction
@@ -856,6 +937,9 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
         // The other ones (added later) will contain chunks of sorted pred bits.
         num_chunks[s].assign(sources[s].num_labels(), 1);
 
+        if (!swap_disk)
+            continue;
+
         for (size_t j = 0; j < sources[s].num_labels(); ++j) {
             fs::create_directories(tmp_file(s, j, 0).parent_path());
             uint64_t original_nbits = sources[s].get_matrix().data()[j]->num_set_bits();
@@ -863,7 +947,8 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
 
             if (!compute_row_reduction) {
                 // make sure the first chunk exists even if empty
-                dump_chunk_to_disk({}, s, j, 0);
+                std::vector<T> empty;
+                dump_chunk_to_disk(empty, s, j, 0);
                 set_rows_fwd[s][j].reserve(std::min(buf_size, original_nbits));
             }
         }
@@ -965,11 +1050,8 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
                         if (is_anchor)
                             num_relations_anchored[source_idx][j]++;
 
-                        if (v.size() == v.capacity()) {
-                            // dump chunk to disk
+                        if (v.size() == v.capacity())
                             dump_chunk_to_disk(v, source_idx, j, 0);
-                            v.resize(0);
-                        }
                     }
                 }
 
@@ -986,11 +1068,8 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
                             v.push_back(*pred_p);
                         }
 
-                        if (v.size() == v.capacity()) {
-                            std::sort(v.begin(), v.end());
+                        if (v.size() == v.capacity())
                             dump_chunk_to_disk(v, source_idx, j, num_chunks[source_idx][j]++);
-                            v.resize(0);
-                        }
                     }
                 }
             },
@@ -1018,15 +1097,16 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
     for (size_t s = 0; s < sources.size(); ++s) {
         for (size_t j = 0; j < sources[s].num_labels(); ++j) {
             auto &fwd = set_rows_fwd[s][j];
-            assert(fwd.empty() || !compute_row_reduction);
+            assert(!swap_disk || fwd.empty() || !compute_row_reduction);
             if (fwd.size())
                 dump_chunk_to_disk(fwd, s, j, 0);
 
             auto &bwd = set_rows_bwd[s][j];
-            if (bwd.size()) {
-                std::sort(bwd.begin(), bwd.end());
+            if (bwd.size())
                 dump_chunk_to_disk(bwd, s, j, num_chunks[s][j]++);
-            }
+
+            if (!swap_disk)
+                row_diff_bits[s][j] = fwd.size() + bwd.size();
 
             logger->trace("Number of relations for column {} reduced from {}"
                           " to {}, of them stored in anchors: {}",
@@ -1038,8 +1118,13 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
 
     async_writer.join();
 
-    set_rows_fwd.clear(); // free up memory
-    set_rows_bwd.clear();
+    // For transforms with disk swap, the diffs are dumped to temp chunks, so the
+    // fwd and bwd buffers can be removed. Otherwise, the diffs are stored there
+    // and hence must be kept (they are extracted in `call_diffs` invoked below).
+    if (swap_disk) {
+        set_rows_fwd.clear(); // free up memory
+        set_rows_bwd.clear();
+    }
     anchor = anchor_bv_type();
 
     std::vector<LabelEncoder<std::string>> label_encoders;
@@ -1052,15 +1137,6 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
 
     std::vector<std::vector<std::unique_ptr<bit_vector>>> diff_columns(label_encoders.size());
 
-    const uint32_t chunks_open_per_thread
-            = MAX_NUM_FILES_OPEN / std::max((uint32_t)1, num_threads) / (2 + with_values);
-    if (chunks_open_per_thread < 3) {
-        logger->error("Can't merge with less than 3 chunks per thread open. "
-                      "Max num files open: {}. Current number of threads: {}.",
-                      MAX_NUM_FILES_OPEN, num_threads);
-        exit(1);
-    }
-
     logger->trace("Generating row_diff columns...");
     #pragma omp parallel for num_threads(num_threads) schedule(dynamic)
     for (uint32_t l_idx = 0; l_idx < label_encoders.size(); ++l_idx) {
@@ -1073,46 +1149,8 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
                                                       std::min(values[l_idx][j].width() + 1, 64));
             }
 
-            std::vector<std::string> filenames;
-            // skip chunk with fwd bits which have already been counted if stage 1
-            for (uint32_t chunk = compute_row_reduction ? 1 : 0;
-                                chunk < num_chunks[l_idx][j]; ++chunk) {
-                filenames.push_back(tmp_file(l_idx, j, chunk));
-            }
-
-            const bool remove_chunks = true;
-            uint64_t r = 0;
-            // TODO: use int_vector_buffer
-            std::vector<uint64_t> ids;
-            ids.reserve(row_diff_bits[l_idx][j]);
-            int64_t value = 0;
-            // merge_files<T> with a single template parameter (not pair)
-            // can't extract and add counts, so we do this manually.
-            elias_fano::merge_files<T>(filenames, [&](T v) {
-                if constexpr(with_values) {
-                    assert(v.second && "zero diffs must have been skipped");
-                    if (ids.empty() || v.first != ids.back()) {
-                        if (!ids.empty())
-                            values[l_idx][j][r++] = matrix::encode_diff(value);
-                        value = 0;
-                        ids.push_back(v.first);
-                    }
-                    value += v.second;
-                } else {
-                    if (ids.empty() || v != ids.back())
-                        ids.push_back(v);
-                }
-            }, remove_chunks, chunks_open_per_thread, false);
-            if (with_values && ids.size()) {
-                values[l_idx][j][r++] = matrix::encode_diff(value);
-                values[l_idx][j].resize(r);
-                assert(r == ids.size());
-            }
-            assert(row_diff_bits[l_idx][j] >= ids.size());
-
-            columns[j] = std::make_unique<bit_vector_smart>(
-                [&](const auto &callback) { std::for_each(ids.begin(), ids.end(), callback); },
-                num_rows, ids.size());
+            columns[j] = std::make_unique<bit_vector_smart>(call_diffs(l_idx, j), num_rows,
+                                                            row_diff_bits[l_idx][j]);
         }
 
         if (compute_row_reduction) {
@@ -1146,7 +1184,8 @@ void convert_batch_to_row_diff(const std::string &pred_succ_fprefix,
         }
     }
 
-    utils::remove_temp_dir(tmp_path);
+    if (swap_disk)
+        utils::remove_temp_dir(tmp_path);
 
     if (!compute_row_reduction)
         return;
@@ -1436,14 +1475,6 @@ void convert_batch_to_row_diff_coord(const std::string &pred_succ_fprefix,
                     // must write the coordinates/diff
                     auto &v = set_rows_fwd[s][j];
 
-                    if (is_anchor) {
-                        logger->trace("anchor: {}", curr_value.size());
-                    } else {
-                        auto next = get_value(source_col, s, j, succ_begin, succ_end);
-                        logger->trace("diff: {}{}: {} -> {}",
-                            curr_value.size() <= next.size() ? "\t\t\t + " : "\t - ",
-                            diff.size(), curr_value.size(), next.size());
-                    }
                     for (uint64_t coord : diff) {
                         assert((!v.size() || v.back() != std::make_pair(row_idx, coord))
                                && "coordinates must be unique and can't repeat");
diff --git a/metagraph/src/annotation/taxonomy/tax_classifier.cpp b/metagraph/src/annotation/taxonomy/tax_classifier.cpp
new file mode 100644
index 0000000000..aac99b25a2
--- /dev/null
+++ b/metagraph/src/annotation/taxonomy/tax_classifier.cpp
@@ -0,0 +1,268 @@
+#include "tax_classifier.hpp"
+
+#include <string>
+#include <vector>
+
+#include "annotation/representation/annotation_matrix/annotation_matrix.hpp"
+#include "common/unix_tools.hpp"
+#include "common/utils/string_utils.hpp"
+#include "common/logger.hpp"
+
+namespace mtg {
+namespace annot {
+
+using mtg::common::logger;
+
+std::string TaxonomyBase::get_accession_version_from_label(const std::string &label) const {
+    switch (label_type_) {
+        case TAXID:
+            return utils::split_string(utils::split_string(label, "|")[2], " ")[0];
+        case GEN_BANK:
+            return utils::split_string(label, "|")[3];
+    }
+
+    logger->error("Error: Could not get the accession version for label {}", label);
+    exit(1);
+}
+
+// TODO improve this by parsing the compressed ".gz" version (or use https://github.com/pmenzel/taxonomy-tools)
+void TaxonomyBase::read_accversion_to_taxid_map(const std::string &filepath,
+                                                const graph::AnnotatedDBG *anno_matrix) {
+    std::ifstream f(filepath);
+    if (!f.good()) {
+        logger->error("Error: Failed to open accession to taxid map table {}. \n"
+                      "In the cases when the taxid is not specified in the label string, "
+                      "the acc_version to taxid lookup table filepath must be given as a flag.", filepath);
+        exit(1);
+    }
+
+    std::string line;
+    getline(f, line);
+    if (!utils::starts_with(line, "accession\taccession.version\ttaxid\t")) {
+        logger->error("Error: The accession to taxid map table is not in the standard (*.accession2taxid) format {}",
+                      filepath);
+        exit(1);
+    }
+
+    tsl::hopscotch_set<std::string> input_accessions;
+    if (anno_matrix != NULL) {
+        for (const std::string &label : anno_matrix->get_annotation().get_all_labels()) {
+            input_accessions.insert(get_accession_version_from_label(label));
+        }
+    }
+
+    while (getline(f, line)) {
+        if (line == "") {
+            logger->error("Error: The accession to taxid map table contains empty lines. "
+                          "Please make sure that this file was not manually modified {}", filepath);
+            exit(1);
+        }
+        std::vector<std::string> parts = utils::split_string(line, "\t");
+        if (parts.size() <= 2) {
+            logger->error("Error: The accession to taxid map table contains incomplete lines. "
+                          "Please make sure that this file was not manually modified {}", filepath);
+            exit(1);
+        }
+        if (input_accessions.size() == 0 || input_accessions.count(parts[1])) {
+            // e.g. of nucl.accession2taxid file:
+            //
+            // A00001	A00001.1	10641	58418
+            //
+            // Thus, parts[1] represents the accession version and parts[2] the corresponding taxid.
+            accversion_to_taxid_map_[parts[1]] = std::stoul(parts[2]);
+        }
+    }
+}
+
+TaxonomyClsAnno::TaxonomyClsAnno(const graph::AnnotatedDBG &anno,
+                                 const std::string &tax_tree_filepath,
+                                 double lca_coverage_rate,
+                                 double kmers_discovery_rate,
+                                 const std::string &label_taxid_map_filepath)
+             : TaxonomyBase(lca_coverage_rate, kmers_discovery_rate),
+               anno_matrix_(&anno) {
+    if (!std::filesystem::exists(tax_tree_filepath)) {
+        logger->error("Error: Can't open taxonomic tree file {}", tax_tree_filepath);
+        exit(1);
+    }
+
+    // Take one sample label and find the label type.
+    std::string sample_label = anno_matrix_->get_annotation().get_all_labels()[0];
+
+    if (utils::starts_with(sample_label, "gi|")) {
+        // e.g.   >gi|1070643132|ref|NC_031224.1| Arthrobacter phage Mudcat, complete genome
+        label_type_ = GEN_BANK;
+    } else if (utils::starts_with(utils::split_string(sample_label, ":")[1], "taxid|")) {
+        // e.g.   >kraken:taxid|2016032|NC_047834.1 Alteromonas virus vB_AspP-H4/4, complete genome
+        label_type_ = TAXID;
+    } else {
+        logger->error("Error: Can't determine the type of the given label {}. "
+                      "Make sure the labels are in a recognized format.", sample_label);
+        exit(1);
+    }
+
+    Timer timer;
+    if (label_type_ == GEN_BANK) {
+        logger->trace("Parsing label_taxid_map file...");
+        read_accversion_to_taxid_map(label_taxid_map_filepath, anno_matrix_);
+        logger->trace("Finished label_taxid_map file in {} sec", timer.elapsed());
+    }
+
+    timer.reset();
+    logger->trace("Parsing taxonomic tree...");
+    ChildrenList tree;
+    read_tree(tax_tree_filepath, &tree);
+    logger->trace("Finished taxonomic tree read in {} sec.", timer.elapsed());
+
+    timer.reset();
+    logger->trace("Calculating tree statistics...");
+    std::vector<TaxId> tree_linearization;
+    dfs_statistics(root_node_, tree, &tree_linearization);
+    logger->trace("Finished tree statistics calculation in {} sec.", timer.elapsed());
+
+    timer.reset();
+    logger->trace("Starting rmq preprocessing...");
+    rmq_preprocessing(tree_linearization);
+    logger->trace("Finished rmq preprocessing in {} sec.", timer.elapsed());
+}
+
+void TaxonomyClsAnno::read_tree(const std::string &tax_tree_filepath, ChildrenList *tree) {
+    std::ifstream f(tax_tree_filepath);
+    if (!f.good()) {
+        logger->error("Error: Failed to open Taxonomic Tree file {}", tax_tree_filepath);
+        exit(1);
+    }
+
+    std::string line;
+    while (getline(f, line)) {
+        if (line == "") {
+            logger->error("Error: The Taxonomic Tree file contains empty lines. "
+                          "Please make sure that this file was not manually modified: {}",
+                          tax_tree_filepath);
+            exit(1);
+        }
+        std::vector<std::string> parts = utils::split_string(line, "\t");
+        if (parts.size() <= 2) {
+            logger->error("Error: The Taxonomic tree filepath contains incomplete lines. "
+                          "Please make sure that this file was not manually modified: {}",
+                          tax_tree_filepath);
+            exit(1);
+        }
+        // e.g. of nodes.dmp file:
+        //
+        // 2	|	131567	|	superkingdom	|		|	0	|	0
+        //
+        // Thus, parts[0] represents the child taxid and parts[2] the parent taxid.
+        node_parent_[std::stoul(parts[0])] = std::stoul(parts[2]);
+    }
+
+    std::vector<TaxId> relevant_taxids;
+    // 'considered_relevant_taxids' is used to make sure that there are no duplications in 'relevant_taxids'.
+    tsl::hopscotch_set<TaxId> considered_relevant_taxids;
+
+    if (accversion_to_taxid_map_.size()) {
+        // Store only the taxonomic nodes that exists in the annotation matrix.
+        for (const auto &[_, taxid] : accversion_to_taxid_map_) {
+            relevant_taxids.push_back(taxid);
+            considered_relevant_taxids.insert(taxid);
+        }
+    } else {
+        // If 'this->accversion_to_taxid_map' is empty, store the entire taxonomic tree.
+        for (const auto &[child, _] : node_parent_) {
+            relevant_taxids.push_back(child);
+            considered_relevant_taxids.insert(child);
+        }
+    }
+    assert(relevant_taxids.size());
+
+    uint64_t num_taxid_failed = 0; // num_taxid_failed is used for logging only.
+    for (uint32_t i = 0; i < relevant_taxids.size(); ++i) {
+        TaxId taxid = relevant_taxids[i];
+        auto it_taxid_parent = node_parent_.find(taxid);
+        if (it_taxid_parent == node_parent_.end()) {
+            num_taxid_failed += 1;
+            continue;
+        }
+        TaxId taxid_parent = it_taxid_parent->second;
+
+        if (not considered_relevant_taxids.count(taxid_parent)) {
+            relevant_taxids.push_back(taxid_parent);
+            considered_relevant_taxids.insert(taxid_parent);
+        }
+
+        // Check if the current taxid is the root.
+        if (taxid == taxid_parent) {
+            root_node_ = taxid;
+        }
+    }
+    if (num_taxid_failed) {
+        logger->warn("During the tax_tree_filepath {} parsing, {} taxids were not found out of {} total evaluations",
+                     tax_tree_filepath, num_taxid_failed, relevant_taxids.size());
+    }
+
+    // Construct the output tree.
+    for (const TaxId &taxid : relevant_taxids) {
+        if (taxid == root_node_)
+            continue;
+        auto it_taxid_parent = node_parent_.find(taxid);
+        if (it_taxid_parent != node_parent_.end()) {
+            (*tree)[it_taxid_parent->second].push_back(taxid);
+        }
+    }
+}
+
+void TaxonomyClsAnno::dfs_statistics(TaxId node,
+                                     const ChildrenList &tree,
+                                     std::vector<TaxId> *tree_linearization) {
+    node_to_linearization_idx_[node] = tree_linearization->size();
+    tree_linearization->push_back(node);
+    uint32_t depth = 0;
+
+    auto it = tree.find(node);
+    if (it != tree.end()) {
+        for (const TaxId &child : it->second) {
+            dfs_statistics(child, tree, tree_linearization);
+            tree_linearization->push_back(node);
+            if (node_depth_[child] > depth) {
+                depth = node_depth_[child];
+            }
+        }
+    }
+    node_depth_[node] = depth + 1;
+}
+
+void TaxonomyClsAnno::rmq_preprocessing(const std::vector<TaxId> &tree_linearization) {
+    uint32_t num_rmq_rows = sdsl::bits::hi(tree_linearization.size()) + 1;
+
+    rmq_data_.resize(num_rmq_rows);
+    for (uint32_t i = 0; i < num_rmq_rows; ++i) {
+        rmq_data_[i].resize(tree_linearization.size());
+    }
+
+    // Copy tree_linearization to rmq[0].
+    for (uint32_t i = 0; i < tree_linearization.size(); ++i) {
+        rmq_data_[0][i] = tree_linearization[i];
+    }
+
+    // Delta represents the size of the RMQ's sliding window (always a power of 2).
+    uint32_t delta = 1;
+    for (uint32_t row = 1; row < num_rmq_rows; ++row) {
+        for (uint32_t i = 0; i + delta < tree_linearization.size(); ++i) {
+            // rmq_data[row][i] covers an interval of size delta=2^row and returns the node with the maximal depth
+            // among positions [i, i+2^row-1] in the linearization.
+            // According to 'this->dfs_statistics()':
+            //     node_depth[leaf] = 1 and node_depth[root] = maximum distance to a leaf.
+
+            if (node_depth_[rmq_data_[row - 1][i]] >
+                node_depth_[rmq_data_[row - 1][i + delta]]) {
+                rmq_data_[row][i] = rmq_data_[row - 1][i];
+            } else {
+                rmq_data_[row][i] = rmq_data_[row - 1][i + delta];
+            }
+        }
+        delta *= 2;
+    }
+}
+
+} // namespace annot
+} // namespace mtg
diff --git a/metagraph/src/annotation/taxonomy/tax_classifier.hpp b/metagraph/src/annotation/taxonomy/tax_classifier.hpp
new file mode 100644
index 0000000000..669e39ddd6
--- /dev/null
+++ b/metagraph/src/annotation/taxonomy/tax_classifier.hpp
@@ -0,0 +1,134 @@
+#ifndef __TAX_CLASSIFIER_HPP__
+#define __TAX_CLASSIFIER_HPP__
+
+#include <tsl/hopscotch_set.h>
+#include <tsl/hopscotch_map.h>
+
+#include "graph/annotated_dbg.hpp"
+
+namespace mtg {
+namespace annot {
+
+using TaxId = std::uint32_t;
+using ChildrenList = tsl::hopscotch_map<TaxId, std::vector<TaxId>>;
+
+class TaxonomyBase {
+  public:
+    using KmerId = annot::MultiLabelEncoded<std::string>::Index;
+    using node_index = graph::SequenceGraph::node_index;
+
+    enum LabelType {
+        GEN_BANK, // e.g. ">gi|1070643132|ref|NC_031224.1| Arthrobacter phage Mudcat, complete genome"
+        TAXID, // e.g. ">kraken:taxid|2016032|NC_047834.1 Alteromonas virus vB_AspP-H4/4, complete genome"
+    };
+
+    TaxonomyBase() {}
+    TaxonomyBase(double lca_coverage_rate, double kmers_discovery_rate)
+        : lca_coverage_rate_(lca_coverage_rate),
+          kmers_discovery_rate_(kmers_discovery_rate) {}
+    virtual ~TaxonomyBase() {}
+
+  protected:
+    std::string get_accession_version_from_label(const std::string &label) const;
+
+    /** Reads the accession version to taxid lookup table.
+     * If 'anno_matrix' is not NULL, only the labels that exist in the given annotation matrix will be stored.
+     * If 'anno_matrix' is NULL, the entire content of 'filepath' will be read and stored.
+     *
+     * @param [input] filepath -> a ".accession2taxid" file.
+     * @param [optional input] anno_matrix -> pointer to the annotation matrix.
+     */
+    void read_accversion_to_taxid_map(const std::string &filepath, const graph::AnnotatedDBG *anno_matrix = NULL);
+
+    LabelType label_type_;
+
+    /**
+     * node_depth_ returns the depth for each node in the taxonomic tree.
+     * The root is the unique node with maximal depth and all the leaves have depth equal to 1.
+     */
+    tsl::hopscotch_map<TaxId, uint32_t> node_depth_;
+
+    TaxId root_node_;
+
+    /**
+     *  node_parent_ stores a taxonomic tree representation as a taxid to taxid parent list.
+     */
+    tsl::hopscotch_map<TaxId, TaxId> node_parent_;
+
+    tsl::hopscotch_map<std::string, TaxId> accversion_to_taxid_map_;
+
+    double lca_coverage_rate_;
+    double kmers_discovery_rate_;
+};
+
+class TaxonomyClsAnno : public TaxonomyBase {
+  public:
+    /**
+     * TaxonomyCls constructor
+     *
+     * @param [input] anno -> the annotation matrix
+     * @param [input] lca_coverage_rate -> threshold used for taxonomic classification.
+     * @param [input] kmers_discovery_rate -> threshold used for taxonomic classification.
+     * @param [input] tax_tree_filepath ->  path to a taxonomic tree ("nodes.dmp" file).
+     * @param [optional input] label_taxid_map_filepath ->  path to the acc_version to taxid lookup table (".accession2taxid").
+     *                                                      Mandatory if the taxid is not mentioned in the label string.
+     */
+    TaxonomyClsAnno(const graph::AnnotatedDBG &anno,
+                    const std::string &tax_tree_filepath,
+                    double lca_coverage_rate = 0,
+                    double kmers_discovery_rate = 0,
+                    const std::string &label_taxid_map_filepath = "");
+    TaxonomyClsAnno() {}
+
+  private:
+    /**
+     * Reads and returns the taxonomic tree as a list of children.
+     *
+     * @param [input] tax_tree_filepath -> path to a "nodes.dmp" file.
+     * @param [output] tree -> tree stored as a list of children.
+     */
+    void read_tree(const std::string &tax_tree_filepath,
+                   ChildrenList *tree);
+
+    /**
+     * rmq_preprocessing computes 'this->rmq_data' field.
+     *
+     * @param [input] tree_linearization -> the linearization of the taxonomic tree.
+     */
+    void rmq_preprocessing(const std::vector<TaxId> &tree_linearization);
+
+    /**
+     * dfs_statistics method calculates the following fields:
+     *      + tree_linearization;
+     *      + this->node_depth;
+     *      + this->node_to_linearization_idx.
+     *
+     * @param [input] node -> the node that is currently processed.
+     * @param [input] tree -> the taxonomic tree stored as a list of children.
+     * @param [output] tree_linearization -> the linearization of the received tree.
+     */
+    void dfs_statistics(TaxId node,
+                        const ChildrenList &tree,
+                        std::vector<TaxId> *tree_linearization);
+
+    /**
+     * rmq_data_[0] contains the taxonomic tree linearization
+     *          (e.g. for root 1 and edges={1-2; 1-3}, the linearization is "1 2 1 3 1").
+     * rmq_data_[l][x] returns the node with the maximal depth among positions [x, x+2^l-1] in the linearization
+     *          (e.g. rmq_data_[3][6] return the node with max depth in [6, 13]).
+     */
+    std::vector<std::vector<TaxId>> rmq_data_;
+
+    /**
+     * node_to_linearization_idx_[node] returns the index of the first occurrence of node
+     * in the tree linearization order. This array will be further used inside a RMQ query.
+     */
+    tsl::hopscotch_map<TaxId, uint32_t> node_to_linearization_idx_;
+
+    const graph::AnnotatedDBG *anno_matrix_ = NULL;
+};
+
+} // namespace annot
+} // namespace mtg
+
+#endif // __TAX_CLASSIFIER_HPP__
diff --git a/metagraph/src/cli/align.cpp b/metagraph/src/cli/align.cpp
index ef25a15b0d..125758d134 100644
--- a/metagraph/src/cli/align.cpp
+++ b/metagraph/src/cli/align.cpp
@@ -1,19 +1,17 @@
 #include "align.hpp"
 
+#include <tsl/ordered_set.h>
+
 #include "common/logger.hpp"
 #include "common/unix_tools.hpp"
 #include "common/threads/threading.hpp"
 #include "graph/representation/succinct/dbg_succinct.hpp"
 #include "graph/representation/canonical_dbg.hpp"
 #include "graph/alignment/dbg_aligner.hpp"
-#include "graph/alignment/aligner_seeder_methods.hpp"
-#include "graph/alignment/aligner_extender_methods.hpp"
 #include "seq_io/sequence_io.hpp"
 #include "config/config.hpp"
 #include "load/load_graph.hpp"
 
-#include <tsl/ordered_set.h>
-
 namespace mtg {
 namespace cli {
 
@@ -24,7 +22,7 @@ using mtg::seq_io::kseq_t;
 using mtg::common::logger;
 
 
-DBGAlignerConfig initialize_aligner_config(size_t k, const Config &config) {
+DBGAlignerConfig initialize_aligner_config(const Config &config) {
     assert(config.alignment_num_alternative_paths);
 
     DBGAlignerConfig aligner_config;
@@ -35,23 +33,18 @@ DBGAlignerConfig initialize_aligner_config(size_t k, const Config &config) {
     aligner_config.max_num_seeds_per_locus = config.alignment_max_num_seeds_per_locus;
     aligner_config.max_nodes_per_seq_char = config.alignment_max_nodes_per_seq_char;
     aligner_config.max_ram_per_alignment = config.alignment_max_ram;
-    aligner_config.min_cell_score = config.alignment_min_cell_score;
     aligner_config.min_path_score = config.alignment_min_path_score;
     aligner_config.xdrop = config.alignment_xdrop;
     aligner_config.min_exact_match = config.alignment_min_exact_match;
     aligner_config.gap_opening_penalty = -config.alignment_gap_opening_penalty;
     aligner_config.gap_extension_penalty = -config.alignment_gap_extension_penalty;
-    aligner_config.forward_and_reverse_complement = config.align_both_strands;
+    aligner_config.forward_and_reverse_complement = !config.align_only_forwards;
     aligner_config.alignment_edit_distance = config.alignment_edit_distance;
     aligner_config.alignment_match_score = config.alignment_match_score;
     aligner_config.alignment_mm_transition_score = config.alignment_mm_transition_score;
     aligner_config.alignment_mm_transversion_score = config.alignment_mm_transversion_score;
-
-    if (!aligner_config.min_seed_length)
-        aligner_config.min_seed_length = k;
-
-    if (!aligner_config.max_seed_length)
-        aligner_config.max_seed_length = k;
+    aligner_config.rel_score_cutoff = config.alignment_rel_score_cutoff;
+    aligner_config.chain_alignments = config.alignment_chain;
 
     logger->trace("Alignment settings:");
     logger->trace("\t Alignments to report: {}", aligner_config.num_alternative_paths);
@@ -62,10 +55,10 @@ DBGAlignerConfig initialize_aligner_config(size_t k, const Config &config) {
     logger->trace("\t Max RAM per alignment: {}", aligner_config.max_ram_per_alignment);
     logger->trace("\t Gap opening penalty: {}", int64_t(aligner_config.gap_opening_penalty));
     logger->trace("\t Gap extension penalty: {}", int64_t(aligner_config.gap_extension_penalty));
-    logger->trace("\t Min DP table cell score: {}", int64_t(aligner_config.min_cell_score));
     logger->trace("\t Min alignment score: {}", aligner_config.min_path_score);
     logger->trace("\t X drop-off: {}", aligner_config.xdrop);
     logger->trace("\t Exact nucleotide match threshold: {}", aligner_config.min_exact_match);
+    logger->trace("\t Chain alignments: {}", aligner_config.chain_alignments);
 
     logger->trace("\t Scoring matrix: {}", config.alignment_edit_distance ? "unit costs" : "matrix");
     if (!config.alignment_edit_distance) {
@@ -81,55 +74,17 @@ DBGAlignerConfig initialize_aligner_config(size_t k, const Config &config) {
     return aligner_config;
 }
 
-std::unique_ptr<IDBGAligner> build_aligner(const DeBruijnGraph &graph, const Config &config) {
-    assert(graph.get_mode() != DeBruijnGraph::PRIMARY
-            && "primary graphs must be wrapped into canonical");
-
-    return build_aligner(graph, initialize_aligner_config(graph.get_k(), config));
+template <class Graph>
+std::unique_ptr<graph::align::IDBGAligner>
+build_aligner(const Graph &graph, const DBGAlignerConfig &aligner_config) {
+    return std::make_unique<DBGAligner<>>(graph, aligner_config);
 }
 
-std::unique_ptr<IDBGAligner> build_aligner(const DeBruijnGraph &graph,
-                                           const DBGAlignerConfig &aligner_config) {
-    assert(aligner_config.min_seed_length <= aligner_config.max_seed_length);
-
-    size_t k = graph.get_k();
-
-    if (aligner_config.min_seed_length < k) {
-        // seeds are ranges of nodes matching a suffix
-        if (!dynamic_cast<const DBGSuccinct*>(&graph)) {
-            const auto *canonical = dynamic_cast<const CanonicalDBG*>(&graph);
-            if (!canonical || !dynamic_cast<const DBGSuccinct*>(&canonical->get_graph())) {
-                logger->error("SuffixSeeder can be used only with succinct graph representation");
-                exit(1);
-            }
-        }
-
-        // Use the seeder that seeds to node suffixes
-        if (aligner_config.max_seed_length == k) {
-            return std::make_unique<DBGAligner<SuffixSeeder<ExactSeeder<>>>>(
-                graph, aligner_config
-            );
-        } else {
-            return std::make_unique<DBGAligner<SuffixSeeder<UniMEMSeeder<>>>>(
-                graph, aligner_config
-            );
-        }
-
-    } else if (aligner_config.max_seed_length == k) {
-        assert(aligner_config.min_seed_length == k);
-
-        // seeds are single k-mers
-        return std::make_unique<DBGAligner<>>(graph, aligner_config);
-
-    } else {
-        // seeds are maximal matches within unitigs (uni-MEMs)
-        return std::make_unique<DBGAligner<UniMEMSeeder<>>>(graph, aligner_config);
-    }
-}
+template std::unique_ptr<IDBGAligner> build_aligner<DeBruijnGraph>(const DeBruijnGraph &, const DBGAlignerConfig &);
 
 void map_sequences_in_file(const std::string &file,
                            const DeBruijnGraph &graph,
-                           std::shared_ptr<DBGSuccinct> dbg,
+                           const DBGSuccinct *dbg,
                            const Config &config,
                            const Timer &timer,
                            ThreadPool *thread_pool = nullptr,
@@ -176,7 +131,7 @@ void map_sequences_in_file(const std::string &file,
         } else if (config.query_presence || config.count_kmers) {
             // TODO: make more efficient
             // TODO: canonicalization
-            if (dbg->get_mode() == CanonicalDBG::PRIMARY)
+            if (dbg->get_mode() == DeBruijnGraph::PRIMARY)
                 logger->warn("Sub-k-mers will be mapped to unwrapped primary graph");
 
             for (size_t i = 0; i + graph.get_k() <= read_stream->seq.l; ++i) {
@@ -328,7 +283,7 @@ void gfa_map_files(const Config *config,
 }
 
 std::string format_alignment(std::string_view header,
-                             const DBGAligner<>::DBGQueryAlignment &paths,
+                             const QueryAlignment &paths,
                              const DeBruijnGraph &graph,
                              const Config &config) {
     std::string sout;
@@ -337,7 +292,7 @@ std::string format_alignment(std::string_view header,
         if (paths.empty()) {
             sout += fmt::format("\t*\t*\t{}\t*\t*\t*", config.alignment_min_path_score);
         } else {
-            for (const auto &path : paths) {
+            for (const auto &path : paths.data()) {
                 sout += fmt::format("\t{}", path);
             }
         }
@@ -348,7 +303,9 @@ std::string format_alignment(std::string_view header,
         builder["indentation"] = "";
 
         bool secondary = false;
-        for (const auto &path : paths) {
+        for (size_t i = 0; i < paths.size(); ++i) {
+            const auto &path = paths[i];
+
             Json::Value json_line = path.to_json(paths.get_query(path.get_orientation()),
                                                  graph, secondary, header);
 
@@ -357,9 +314,8 @@ std::string format_alignment(std::string_view header,
         }
 
         if (paths.empty()) {
-            Json::Value json_line = DBGAligner<>::DBGAlignment().to_json(
-                paths.get_query(), graph, secondary, header
-            );
+            Json::Value json_line
+                    = Alignment().to_json(paths.get_query(), graph, secondary, header);
 
             sout += fmt::format("{}\n", Json::writeString(builder, json_line));
         }
@@ -383,11 +339,11 @@ int align_to_graph(Config *config) {
         return 0;
     }
 
-    auto dbg = std::dynamic_pointer_cast<DBGSuccinct>(graph);
-
-    // This speeds up mapping, and allows for node suffix matching
-    if (dbg)
-        dbg->reset_mask();
+    // For graphs which still feature a mask, this speeds up mapping and allows
+    // for dummy nodes to be matched by suffix seeding
+    auto *dbg_succ = dynamic_cast<DBGSuccinct*>(graph.get());
+    if (dbg_succ)
+        dbg_succ->reset_mask();
 
     Timer timer;
     ThreadPool thread_pool(get_num_threads());
@@ -404,7 +360,7 @@ int align_to_graph(Config *config) {
         } else if (config->alignment_length > graph->get_k()) {
             logger->warn("Mapping to k-mers longer than k is not supported");
             config->alignment_length = graph->get_k();
-        } else if (config->alignment_length != graph->get_k() && !dbg) {
+        } else if (config->alignment_length != graph->get_k() && !dbg_succ) {
             logger->error("Matching k-mers shorter than k only supported for succinct graphs");
             exit(1);
         }
@@ -416,7 +372,7 @@ int align_to_graph(Config *config) {
         for (const auto &file : files) {
             logger->trace("Map sequences from file {}", file);
 
-            map_sequences_in_file(file, *graph, dbg, *config, timer,
+            map_sequences_in_file(file, *graph, dbg_succ, *config, timer,
                                   &thread_pool, &print_mutex);
         }
 
@@ -425,17 +381,20 @@ int align_to_graph(Config *config) {
         return 0;
     }
 
-    DBGAlignerConfig aligner_config = initialize_aligner_config(graph->get_k(), *config);
+    DBGAlignerConfig aligner_config = initialize_aligner_config(*config);
 
     for (const auto &file : files) {
         logger->trace("Align sequences from file {}", file);
         seq_io::FastaParser fasta_parser(file, config->forward_and_reverse);
+        bool is_reverse_complement = false;
 
         Timer data_reading_timer;
 
-        std::ostream *out = config->outfbase.size()
-            ? new std::ofstream(config->outfbase)
-            : &std::cout;
+        std::unique_ptr<std::ofstream> ofile;
+        if (config->outfbase.size())
+            ofile = std::make_unique<std::ofstream>(config->outfbase);
+
+        std::ostream *out = ofile ? ofile.get() : &std::cout;
 
         const uint64_t batch_size = config->query_batch_size_in_bytes;
 
@@ -448,7 +407,7 @@ int align_to_graph(Config *config) {
             uint64_t num_bytes_read = 0;
 
             // Read a batch to pass on to a thread
-            typedef std::vector<std::pair<std::string, std::string>> SeqBatch;
+            typedef std::vector<IDBGAligner::Query> SeqBatch;
             SeqBatch seq_batch;
             num_bytes_read = 0;
             for ( ; it != end && num_bytes_read <= batch_size; ++it) {
@@ -459,22 +418,26 @@ int align_to_graph(Config *config) {
                                                   config->fasta_anno_comment_delim,
                                                   true)
                             : std::string(it->name.s);
-                seq_batch.emplace_back(std::move(header), it->seq.s);
+                seq_batch.emplace_back(std::move(header), it->seq.s, is_reverse_complement);
+                is_reverse_complement ^= config->forward_and_reverse;
                 num_bytes_read += it->seq.l;
             }
 
-            auto process_batch = [&](SeqBatch batch) {
-                auto aln_graph = graph;
-                if (auto *canonical = dynamic_cast<CanonicalDBG*>(graph.get()))
+            auto process_batch = [&,graph](SeqBatch batch) {
+                // make a shared_ptr in a thread-safe way
+                std::shared_ptr<DeBruijnGraph> aln_graph(
+                    std::shared_ptr<DeBruijnGraph>{}, graph.get()
+                );
+
+                if (auto *canonical = dynamic_cast<CanonicalDBG*>(aln_graph.get()))
                     aln_graph = std::make_shared<CanonicalDBG>(*canonical);
 
                 auto aligner = build_aligner(*aln_graph, aligner_config);
 
                 aligner->align_batch(batch, [&](std::string_view header, auto&& paths) {
-                    std::string sout = format_alignment(header, paths, *aln_graph, *config);
-
+                    std::string res = format_alignment(header, paths, *aln_graph, *config);
                     std::lock_guard<std::mutex> lock(print_mutex);
-                    *out << sout;
+                    *out << res;
                 });
             };
 
@@ -496,7 +459,7 @@ int align_to_graph(Config *config) {
                     uint64_t cur_minibatch_read = 0;
                     auto last_mv_it = std::make_move_iterator(it);
                     for ( ; it != b_end && cur_minibatch_read < mbatch_size; ++it) {
-                        cur_minibatch_read += it->second.size();
+                        cur_minibatch_read += std::get<1>(*it).size();
                     }
 
                     thread_pool.enqueue(process_batch,
@@ -518,9 +481,6 @@ int align_to_graph(Config *config) {
                       "current mem usage: {} MB, total time {} sec",
                       file, data_reading_timer.elapsed(), num_batches, batch_size / 1e3,
                       get_curr_RSS() / 1e6, timer.elapsed());
-
-        if (config->outfbase.size())
-            delete out;
     }
 
     return 0;
diff --git a/metagraph/src/cli/align.hpp b/metagraph/src/cli/align.hpp
index e01cb78436..bbf8141757 100644
--- a/metagraph/src/cli/align.hpp
+++ b/metagraph/src/cli/align.hpp
@@ -17,14 +17,11 @@ namespace cli {
 
 class Config;
 
-graph::align::DBGAlignerConfig
-initialize_aligner_config(size_t k, const Config &config);
+graph::align::DBGAlignerConfig initialize_aligner_config(const Config &config);
 
+template <class Graph = graph::DeBruijnGraph>
 std::unique_ptr<graph::align::IDBGAligner>
-build_aligner(const graph::DeBruijnGraph &graph, const Config &config);
-
-std::unique_ptr<graph::align::IDBGAligner>
-build_aligner(const graph::DeBruijnGraph &graph, const graph::align::DBGAlignerConfig &aligner_config);
+build_aligner(const Graph &graph, const graph::align::DBGAlignerConfig &aligner_config);
 
 int align_to_graph(Config *config);
 
diff --git a/metagraph/src/cli/annotate.cpp b/metagraph/src/cli/annotate.cpp
index 39cc9c9042..db0ab60c17 100644
--- a/metagraph/src/cli/annotate.cpp
+++ b/metagraph/src/cli/annotate.cpp
@@ -222,6 +222,63 @@ void annotate_data(std::shared_ptr<graph::DeBruijnGraph> graph,
     const size_t batch_size = 1'000;
     const size_t batch_length = 100'000;
 
+    if (config.coordinates) {
+        for (const auto &file : files) {
+            BatchAccumulator<std::tuple<std::string, std::vector<std::string>, uint64_t>> batcher(
+                [&](auto&& data) {
+                    thread_pool.enqueue([&](auto &data) {
+                        anno_graph->annotate_kmer_coords(std::move(data));
+                    }, std::move(data));
+                },
+                batch_size, batch_length, batch_size
+            );
+
+            logger->trace("Annotating k-mer coordinates for file {}", file);
+
+            if (file_format(file) != "FASTA"
+                    && file_format(file) != "FASTQ") {
+                logger->error("Currently only FASTA or FASTQ format is supported"
+                              " for annotating k-mer coordinates");
+                exit(1);
+            }
+
+            uint64_t coord = 0;
+            call_annotations(
+                file,
+                config.refpath,
+                anno_graph->get_graph(),
+                forward_and_reverse,
+                config.min_count,
+                config.max_count,
+                config.filename_anno,
+                config.annotate_sequence_headers,
+                config.fasta_anno_comment_delim,
+                config.fasta_header_delimiter,
+                config.anno_labels,
+                [&](std::string sequence, auto labels) {
+                    if (config.num_kmers_in_seq
+                            && config.num_kmers_in_seq + k - 1 != sequence.size()) {
+                        logger->error("All input sequences must have the same"
+                                      " length when flag --const-length is on");
+                        exit(1);
+                    }
+                    if (sequence.size() >= k) {
+                        uint64_t num_kmers = sequence.size() - k + 1;
+                        batcher.push_and_pay(sequence.size(),
+                                             std::move(sequence), std::move(labels), coord);
+                        coord += num_kmers;
+                    }
+                }
+            );
+        }
+
+        thread_pool.join();
+
+        anno_graph->get_annotation().serialize(annotator_filename);
+
+        return;
+    }
+
     // iterate over input files
     for (const auto &file : files) {
         BatchAccumulator<std::pair<std::string, std::vector<std::string>>> batcher(
@@ -256,26 +313,26 @@ void annotate_data(std::shared_ptr<graph::DeBruijnGraph> graph,
     thread_pool.join();
 
     if (config.count_kmers) {
-        // add k-mer counts
-        BatchAccumulator<std::tuple<std::string,
-                                    std::vector<std::string>,
-                                    std::vector<uint64_t>>> batcher(
-            [&](auto&& data) {
-                using Batch = std::vector<std::tuple<std::string,
-                                                     std::vector<std::string>,
-                                                     std::vector<uint64_t>>>;
-                thread_pool.enqueue([&](Batch &data) {
-                    for (auto &[seq, labels, kmer_counts] : data) {
-                        anno_graph->add_kmer_counts(seq, labels, std::move(kmer_counts));
-                    }
-                }, std::move(data));
-            },
-            batch_size, batch_length, batch_size
-        );
-
+        // add k-mer counts to existing binary annotations
         for (const auto &file : files) {
             logger->trace("Annotating k-mer counts for file {}", file);
 
+            BatchAccumulator<std::tuple<std::string,
+                                        std::vector<std::string>,
+                                        std::vector<uint64_t>>> batcher(
+                [&](auto&& data) {
+                    using Batch = std::vector<std::tuple<std::string,
+                                                         std::vector<std::string>,
+                                                         std::vector<uint64_t>>>;
+                    thread_pool.enqueue([&](Batch &data) {
+                        for (auto &[seq, labels, kmer_counts] : data) {
+                            anno_graph->add_kmer_counts(seq, labels, std::move(kmer_counts));
+                        }
+                    }, std::move(data));
+                },
+                batch_size, batch_length, batch_size
+            );
+
             const std::string &counts_fname
                     = utils::remove_suffix(file, ".gz", ".fasta") + ".kmer_counts.gz";
 
@@ -324,55 +381,6 @@ void annotate_data(std::shared_ptr<graph::DeBruijnGraph> graph,
                 );
             }
         }
-    } else if (config.coordinates) {
-        BatchAccumulator<std::tuple<std::string, std::vector<std::string>, uint64_t>> batcher(
-            [&](auto&& data) {
-                thread_pool.enqueue([&](auto &data) {
-                    anno_graph->add_kmer_coords(std::move(data));
-                }, std::move(data));
-            },
-            batch_size, batch_length, batch_size
-        );
-
-        for (const auto &file : files) {
-            logger->trace("Annotating k-mer coordinates for file {}", file);
-
-            if (file_format(file) != "FASTA"
-                    && file_format(file) != "FASTQ") {
-                logger->error("Currently only FASTA or FASTQ format is supported"
-                              " for annotating k-mer coordinates");
-                exit(1);
-            }
-
-            uint64_t coord = 0;
-            call_annotations(
-                file,
-                config.refpath,
-                anno_graph->get_graph(),
-                forward_and_reverse,
-                config.min_count,
-                config.max_count,
-                config.filename_anno,
-                config.annotate_sequence_headers,
-                config.fasta_anno_comment_delim,
-                config.fasta_header_delimiter,
-                config.anno_labels,
-                [&](std::string sequence, auto labels) {
-                    if (config.num_kmers_in_seq
-                            && config.num_kmers_in_seq + k - 1 != sequence.size()) {
-                        logger->error("All input sequences must have the same"
-                                      " length when flag --const-length is on");
-                        exit(1);
-                    }
-                    if (sequence.size() >= k) {
-                        uint64_t num_kmers = sequence.size() - k + 1;
-                        batcher.push_and_pay(sequence.size(),
-                                             std::move(sequence), std::move(labels), coord);
-                        coord += num_kmers;
-                    }
-                }
-            );
-        }
     }
 
     thread_pool.join();
@@ -481,12 +489,9 @@ int annotate_graph(Config *config) {
     } else {
         // |config->separately| is true
 
-        size_t num_threads = 1;
-        if (!config->files_sequentially) {
-            // annotate multiple files in parallel, each in a single thread
-            num_threads = get_num_threads();
-            set_num_threads(1);
-        }
+        // annotate multiple files in parallel, each with |parallel_each| threads
+        size_t num_threads = get_num_threads();
+        set_num_threads(std::max(1u, config->parallel_each));
 
         if (!config->outfbase.empty()) {
             try {
diff --git a/metagraph/src/cli/config/config.cpp b/metagraph/src/cli/config/config.cpp
index d5c2536db4..70342519bb 100644
--- a/metagraph/src/cli/config/config.cpp
+++ b/metagraph/src/cli/config/config.cpp
@@ -113,6 +113,8 @@ Config::Config(int argc, char *argv[]) {
             print_column_names = true;
         } else if (!strcmp(argv[i], "--print-internal")) {
             print_graph_internal_repr = true;
+        } else if (!strcmp(argv[i], "--print-counts-hist")) {
+            print_counts_hist = true;
         } else if (!strcmp(argv[i], "--coordinates")) {
             coordinates = true;
         } else if (!strcmp(argv[i], "--num-kmers-in-seq")) {
@@ -158,6 +160,8 @@ Config::Config(int argc, char *argv[]) {
             set_num_threads(atoi(get_value(i++)));
         } else if (!strcmp(argv[i], "--parallel-nodes")) {
             parallel_nodes = atoi(get_value(i++));
+        } else if (!strcmp(argv[i], "--threads-each")) {
+            parallel_each = atoi(get_value(i++));
         } else if (!strcmp(argv[i], "--max-path-length")) {
             max_path_length = atoi(get_value(i++));
         } else if (!strcmp(argv[i], "--parts-total")) {
@@ -198,6 +202,10 @@ Config::Config(int argc, char *argv[]) {
             dump_text_anno = true;
         } else if (!strcmp(argv[i], "--discovery-fraction")) {
             discovery_fraction = std::stof(get_value(i++));
+        } else if (!strcmp(argv[i], "--align-rel-score-cutoff")) {
+            alignment_rel_score_cutoff = std::stof(get_value(i++));
+        } else if (!strcmp(argv[i], "--presence-fraction")) {
+            presence_fraction = std::stof(get_value(i++));
         } else if (!strcmp(argv[i], "--query-presence")) {
             query_presence = true;
         } else if (!strcmp(argv[i], "--query-coords")) {
@@ -212,10 +220,12 @@ Config::Config(int argc, char *argv[]) {
             map_sequences = true;
         } else if (!strcmp(argv[i], "--align")) {
             align_sequences = true;
-        } else if (!strcmp(argv[i], "--align-both-strands")) {
-            align_both_strands = true;
+        } else if (!strcmp(argv[i], "--align-only-forwards")) {
+            align_only_forwards = true;
         } else if (!strcmp(argv[i], "--align-edit-distance")) {
             alignment_edit_distance = true;
+        } else if (!strcmp(argv[i], "--align-chain")) {
+            alignment_chain = true;
         } else if (!strcmp(argv[i], "--max-hull-depth")) {
             max_hull_depth = atoll(get_value(i++));
         } else if (!strcmp(argv[i], "--batch-align")) {
@@ -234,8 +244,6 @@ Config::Config(int argc, char *argv[]) {
             alignment_gap_extension_penalty = atoi(get_value(i++));
         } else if (!strcmp(argv[i], "--align-alternative-alignments")) {
             alignment_num_alternative_paths = atoi(get_value(i++));
-        } else if (!strcmp(argv[i], "--align-min-cell-score")) {
-            alignment_min_cell_score = atol(get_value(i++));
         } else if (!strcmp(argv[i], "--align-min-path-score")) {
             alignment_min_path_score = atoi(get_value(i++));
         } else if (!strcmp(argv[i], "--align-xdrop")) {
@@ -268,8 +276,6 @@ Config::Config(int argc, char *argv[]) {
             anno_labels_delimiter = std::string(get_value(i++));
         } else if (!strcmp(argv[i], "--separately")) {
             separately = true;
-        } else if (!strcmp(argv[i], "--sequentially")) {
-            files_sequentially = true;
         } else if (!strcmp(argv[i], "--num-top-labels")) {
             num_top_labels = atoi(get_value(i++));
         } else if (!strcmp(argv[i], "--port")) {
@@ -486,11 +492,6 @@ Config::Config(int argc, char *argv[]) {
         print_usage_and_exit = true;
     }
 
-    // No need to align in the both strands mode if we align
-    // both forward and reverse complement sequences anyway.
-    if (forward_and_reverse)
-        align_both_strands = false;
-
     if (alignment_min_seed_length > alignment_max_seed_length) {
         std::cerr << "Error: min_seed_length must be <= max_seed_length" << std::endl;
         print_usage_and_exit = true;
@@ -542,7 +543,7 @@ Config::Config(int argc, char *argv[]) {
 
     if (identity == ANNOTATE
             && !filename_anno && !annotate_sequence_headers && !anno_labels.size()) {
-        std::cerr << "Error: No annotation to add" << std::endl;
+        std::cerr << "Error: no annotation labels passed (see flags --anno-filename --anno-header --anno-label)" << std::endl;
         print_usage_and_exit = true;
     }
 
@@ -583,7 +584,9 @@ Config::Config(int argc, char *argv[]) {
         const bool to_row_diff = anno_type == RowDiff
                                     || anno_type == RowDiffBRWT
                                     || anno_type == IntRowDiffBRWT
-                                    || anno_type == RowDiffRowSparse;
+                                    || anno_type == RowDiffRowSparse
+                                    || anno_type == RowDiffBRWTCoord
+                                    || anno_type == RowDiffCoord;
         if (to_row_diff && !infbase.size()) {
             std::cerr << "Path to graph must be passed with '-i <GRAPH>'" << std::endl;
             print_usage_and_exit = true;
@@ -602,6 +605,9 @@ Config::Config(int argc, char *argv[]) {
     if (discovery_fraction < 0 || discovery_fraction > 1)
         print_usage_and_exit = true;
 
+    if (presence_fraction < 0 || presence_fraction > 1)
+        print_usage_and_exit = true;
+
     if (min_count >= max_count) {
         std::cerr << "Error: max-count must be greater than min-count" << std::endl;
         print_usage(argv[0], identity);
@@ -704,6 +710,12 @@ std::string Config::annotype_to_string(AnnotationType state) {
             return "row_diff_int_brwt";
         case ColumnCoord:
             return "column_coord";
+        case BRWTCoord:
+            return "brwt_coord";
+        case RowDiffCoord:
+            return "row_diff_coord";
+        case RowDiffBRWTCoord:
+            return "row_diff_brwt_coord";
     }
     throw std::runtime_error("Never happens");
 }
@@ -739,6 +751,12 @@ Config::AnnotationType Config::string_to_annotype(const std::string &string) {
         return AnnotationType::IntRowDiffBRWT;
     } else if (string == "column_coord") {
         return AnnotationType::ColumnCoord;
+    } else if (string == "brwt_coord") {
+        return AnnotationType::BRWTCoord;
+    } else if (string == "row_diff_coord") {
+        return AnnotationType::RowDiffCoord;
+    } else if (string == "row_diff_brwt_coord") {
+        return AnnotationType::RowDiffBRWTCoord;
     } else {
         std::cerr << "Error: unknown annotation representation" << std::endl;
         exit(1);
@@ -801,7 +819,7 @@ DeBruijnGraph::Mode Config::string_to_graphmode(const std::string &string) {
 
 void Config::print_usage(const std::string &prog_name, IdentityType identity) {
     const char annotation_list[] = "\t\t( column, brwt, rb_brwt, int_brwt,\n"
-                                   "\t\t  column_coord,\n"
+                                   "\t\t  column_coord, brwt_coord, row_diff_coord, row_diff_brwt_coord,\n"
                                    "\t\t  row_diff, row_diff_brwt, row_diff_sparse, row_diff_int_brwt,\n"
                                    "\t\t  row, flat, row_sparse, rbfish, bin_rel_wt, bin_rel_wt_sdsl )";
 
@@ -949,12 +967,17 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "Available options for alignment:\n");
             fprintf(stderr, "\t-o --outfile-base [STR]\t\t\t\tbasename of output file []\n");
             fprintf(stderr, "\t   --json \t\t\t\t\toutput alignment in JSON format [off]\n");
-            fprintf(stderr, "\t   --align-both-strands \t\t\treturn best alignments for either input sequence or its reverse complement [off]\n");
+            fprintf(stderr, "\t   --align-only-forwards \t\t\tdo not align backwards from a seed on basic-mode graphs [off]\n");
             fprintf(stderr, "\t   --align-alternative-alignments \t\tthe number of alternative paths to report per seed [1]\n");
+            fprintf(stderr, "\t   --align-chain \t\t\t\tperform multiple local alignments and chain them together into a single alignment. Useful for long error-prone reads. [off]\n");
+            fprintf(stderr, "\t         \t\t\t\t\t\tA '$' inserted into the reference sequence indicates a jump in the graph.\n");
+            fprintf(stderr, "\t         \t\t\t\t\t\tA 'G' in the reported CIGAR string indicates inserted graph nodes.\n");
             fprintf(stderr, "\t   --align-min-path-score [INT]\t\t\tthe minimum score that a reported path can have [0]\n");
-            fprintf(stderr, "\t   --align-edit-distance \t\t\tuse unit costs for scoring matrix [off]\n");
             fprintf(stderr, "\t   --align-max-nodes-per-seq-char [FLOAT]\tmaximum number of nodes to consider per sequence character [12.0]\n");
             fprintf(stderr, "\t   --align-max-ram [FLOAT]\t\t\tmaximum amount of RAM used per alignment in MB [200.0]\n");
+            fprintf(stderr, "\t   --align-xdrop [INT]\t\t\t\tthe maximum difference between the current score and the best alignment score [27]\n");
+            fprintf(stderr, "\t   \t\t\t\t\t\t\tNote that this parameter should be scaled accordingly when changing the default scoring parameters.\n");
+            fprintf(stderr, "\t   --align-rel-score-cutoff [FLOAT]\t\tmin score relative to the current best alignment to use as a lower bound for subsequent extensions [0.8]\n");
             fprintf(stderr, "\n");
             fprintf(stderr, "Advanced options for scoring:\n");
             fprintf(stderr, "\t   --align-match-score [INT]\t\t\tpositive match score [2]\n");
@@ -962,13 +985,12 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "\t   --align-mm-transversion-penalty [INT]\tpositive transversion penalty (DNA only) [3]\n");
             fprintf(stderr, "\t   --align-gap-open-penalty [INT]\t\tpositive gap opening penalty [5]\n");
             fprintf(stderr, "\t   --align-gap-extension-penalty [INT]\t\tpositive gap extension penalty [2]\n");
-            fprintf(stderr, "\t   --align-min-cell-score [INT]\t\t\tthe minimum value that a cell in the alignment table can hold [0]\n");
-            fprintf(stderr, "\t   --align-xdrop [INT]\t\t\t\tthe maximum difference between the current and the best alignment [27]\n");
+            fprintf(stderr, "\t   --align-edit-distance \t\t\tuse unit costs for scoring matrix [off]\n");
             fprintf(stderr, "\n");
             fprintf(stderr, "Advanced options for seeding:\n");
             fprintf(stderr, "\t   --align-min-seed-length [INT]\t\tthe minimum length of a seed [graph k]\n");
             fprintf(stderr, "\t   --align-max-seed-length [INT]\t\tthe maximum length of a seed [graph k]\n");
-            fprintf(stderr, "\t   --align-min-exact-match [FLOAT] \t\tfraction of matching nucleotides required to align sequence [0.7]\n");
+            fprintf(stderr, "\t   --align-min-exact-match [FLOAT] \t\tfraction of matching nucleotides required to align sequence [0.0]\n");
             fprintf(stderr, "\t   --align-max-num-seeds-per-locus [INT]\tthe maximum number of allowed inexact seeds per locus [inf]\n");
         } break;
         case COMPARE: {
@@ -1056,6 +1078,7 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "Available options for stats:\n");
             fprintf(stderr, "\t   --print \t\tprint graph table to the screen [off]\n");
             fprintf(stderr, "\t   --print-internal \tprint internal graph representation to screen [off]\n");
+            fprintf(stderr, "\t   --print-counts-hist \tprint histogram of k-mer weights as pairs (weight: num_kmers) [off]\n");
             fprintf(stderr, "\t   --count-dummy \tshow number of dummy source and sink edges [off]\n");
             fprintf(stderr, "\t-a --annotator [STR] \tannotation []\n");
             fprintf(stderr, "\t   --print-col-names \tprint names of the columns in annotation to screen [off]\n");
@@ -1082,7 +1105,7 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "\t   --mem-cap-gb [FLOAT]\tbuffer size in GB (per column in construction) [1]\n");
             fprintf(stderr, "\t-o --outfile-base [STR] basename of output file (or directory, for --separately) []\n");
             fprintf(stderr, "\t   --separately \tannotate each file independently and dump to the same directory [off]\n");
-            fprintf(stderr, "\t   --sequentially \tannotate files sequentially (each may use multiple threads) [off]\n");
+            fprintf(stderr, "\t   --threads-each [INT]\tnumber of threads to use when annotating each file with --separately [1]\n");
             fprintf(stderr, "\n");
             fprintf(stderr, "\t   --anno-filename \t\tinclude filenames as annotation labels [off]\n");
             fprintf(stderr, "\t   --anno-header \t\textract annotation labels from headers of sequences in files [off]\n");
@@ -1168,7 +1191,8 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
         } break;
         case QUERY: {
             fprintf(stderr, "Usage: %s query -i <GRAPH> -a <ANNOTATION> [options] FILE1 [[FILE2] ...]\n"
-                            "\tEach input file is given in FASTA or FASTQ format.\n\n", prog_name.c_str());
+                            "\tEach input file is given in FASTA or FASTQ format.\n"
+                            "\tOutput format: tsv with rows '<query id>\t<query name>\t<results ...>'.\n\n", prog_name.c_str());
 
             fprintf(stderr, "Available options for query:\n");
 #if ! _PROTEIN_GRAPH
@@ -1186,6 +1210,7 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "\t   --print-signature \t\tprint vectors indicating present/absent k-mers [off]\n");
             fprintf(stderr, "\t   --num-top-labels \t\tmaximum number of frequent labels to print [off]\n");
             fprintf(stderr, "\t   --discovery-fraction [FLOAT] fraction of labeled k-mers required for annotation [0.7]\n");
+            fprintf(stderr, "\t   --presence-fraction [FLOAT] \tfraction of k-mers required to be present in the graph [0.0]\n");
             fprintf(stderr, "\t   --labels-delimiter [STR]\tdelimiter for annotation labels [\":\"]\n");
             fprintf(stderr, "\t   --suppress-unlabeled \tdo not show results for sequences missing in graph [off]\n");
             // fprintf(stderr, "\t-d --distance [INT] \tmax allowed alignment distance [0]\n");
@@ -1196,12 +1221,13 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "\t   --batch-size \tquery batch size (number of base pairs) [100000000]\n");
             fprintf(stderr, "\n");
             fprintf(stderr, "Available options for --align:\n");
-            fprintf(stderr, "\t   --align-both-strands \t\t\treturn best alignments for either input sequence or its reverse complement [off]\n");
+            fprintf(stderr, "\t   --align-only-forwards \t\t\tdo not align backwards from a seed on basic-mode graphs [off]\n");
             // fprintf(stderr, "\t   --align-alternative-alignments \tthe number of alternative paths to report per seed [1]\n");
             fprintf(stderr, "\t   --align-min-path-score [INT]\t\t\tthe minimum score that a reported path can have [0]\n");
-            fprintf(stderr, "\t   --align-edit-distance \t\t\tuse unit costs for scoring matrix [off]\n");
             fprintf(stderr, "\t   --align-max-nodes-per-seq-char [FLOAT]\tmaximum number of nodes to consider per sequence character [12.0]\n");
             fprintf(stderr, "\t   --align-max-ram [FLOAT]\t\t\tmaximum amount of RAM used per alignment in MB [200.0]\n");
+            fprintf(stderr, "\t   --align-xdrop [INT]\t\t\t\tthe maximum difference between the current score and the best alignment score [27]\n");
+            fprintf(stderr, "\t   \t\t\t\t\t\t\tNote that this parameter should be scaled accordingly when changing the default scoring parameters.\n");
             fprintf(stderr, "\n");
             fprintf(stderr, "\t   --batch-align \t\talign against query graph [off]\n");
             fprintf(stderr, "\t   --max-hull-forks [INT]\tmaximum number of forks to take when expanding query graph [4]\n");
@@ -1213,13 +1239,12 @@ void Config::print_usage(const std::string &prog_name, IdentityType identity) {
             fprintf(stderr, "\t   --align-mm-transversion-penalty [INT]\tpositive transversion penalty (DNA only) [3]\n");
             fprintf(stderr, "\t   --align-gap-open-penalty [INT]\t\tpositive gap opening penalty [5]\n");
             fprintf(stderr, "\t   --align-gap-extension-penalty [INT]\t\tpositive gap extension penalty [2]\n");
-            fprintf(stderr, "\t   --align-min-cell-score [INT]\t\t\tthe minimum value that a cell in the alignment table can hold [0]\n");
-            fprintf(stderr, "\t   --align-xdrop [INT]\t\t\t\tthe maximum difference between the current and the best alignment [27]\n");
+            fprintf(stderr, "\t   --align-edit-distance \t\t\tuse unit costs for scoring matrix [off]\n");
             fprintf(stderr, "\n");
             fprintf(stderr, "Advanced options for seeding:\n");
             fprintf(stderr, "\t   --align-min-seed-length [INT]\t\tthe minimum length of a seed [graph k]\n");
             fprintf(stderr, "\t   --align-max-seed-length [INT]\t\tthe maximum length of a seed [graph k]\n");
-            fprintf(stderr, "\t   --align-min-exact-match [FLOAT] fraction of matching nucleotides required to align sequence [0.7]\n");
+            fprintf(stderr, "\t   --align-min-exact-match [FLOAT] fraction of matching nucleotides required to align sequence [0.0]\n");
             fprintf(stderr, "\t   --align-max-num-seeds-per-locus [INT]\tthe maximum number of allowed inexact seeds per locus [inf]\n");
         } break;
         case SERVER_QUERY: {
diff --git a/metagraph/src/cli/config/config.hpp b/metagraph/src/cli/config/config.hpp
index 4a19a3ab32..801e63390d 100644
--- a/metagraph/src/cli/config/config.hpp
+++ b/metagraph/src/cli/config/config.hpp
@@ -22,6 +22,7 @@ class Config {
     bool print_graph = false;
     bool print_graph_internal_repr = false;
     bool print_column_names = false;
+    bool print_counts_hist = false;
     bool forward_and_reverse = false;
     bool complete = false;
     bool dynamic = false;
@@ -52,10 +53,9 @@ class Config {
     bool greedy_brwt = false;
     bool cluster_linkage = false;
     bool separately = false;
-    bool files_sequentially = false;
     bool map_sequences = false;
     bool align_sequences = false;
-    bool align_both_strands = false;
+    bool align_only_forwards = false;
     bool filter_by_kmer = false;
     bool output_json = false;
     bool aggregate_columns = false;
@@ -69,6 +69,7 @@ class Config {
     static const size_t kDefaultIndexSuffixLen;
     unsigned int node_suffix_length = kDefaultIndexSuffixLen;
     unsigned int distance = 0;
+    unsigned int parallel_each = 1;
     unsigned int parallel_nodes = -1;  // if not set, redefined by |parallel|
     unsigned int num_bins_per_thread = 1;
     unsigned int parts_total = 1;
@@ -104,6 +105,7 @@ class Config {
 
     // Alignment options
     bool alignment_edit_distance = false;
+    bool alignment_chain = false;
 
     int8_t alignment_match_score = 2;
     int8_t alignment_mm_transition_score = 3;
@@ -111,7 +113,6 @@ class Config {
     int8_t alignment_gap_opening_penalty = 5;
     int8_t alignment_gap_extension_penalty = 2;
 
-    int32_t alignment_min_cell_score = 0;
     int32_t alignment_min_path_score = 0;
     int32_t alignment_xdrop = 27;
 
@@ -120,7 +121,10 @@ class Config {
     size_t alignment_max_seed_length = std::numeric_limits<size_t>::max();
     size_t alignment_max_num_seeds_per_locus = std::numeric_limits<size_t>::max();
 
+    double alignment_rel_score_cutoff = 0.8;
+
     double discovery_fraction = 0.7;
+    double presence_fraction = 0.0;
     double label_mask_in_fraction = 1.0;
     double label_mask_out_fraction = 0.0;
     double label_other_fraction = 1.0;
@@ -130,7 +134,7 @@ class Config {
     double bloom_bpk = 4.0;
     double alignment_max_nodes_per_seq_char = 12.0;
     double alignment_max_ram = 200;
-    double alignment_min_exact_match = 0.7;
+    double alignment_min_exact_match = 0.0;
     double min_fraction = 0.0;
     double max_fraction = 1.0;
     std::vector<double> count_slice_quantiles;
@@ -201,6 +205,9 @@ class Config {
         IntBRWT,
         IntRowDiffBRWT,
         ColumnCoord,
+        BRWTCoord,
+        RowDiffCoord,
+        RowDiffBRWTCoord,
     };
 
     enum GraphType {
diff --git a/metagraph/src/cli/load/load_annotated_graph.cpp b/metagraph/src/cli/load/load_annotated_graph.cpp
index 3c9e0ec90c..f5753ed409 100644
--- a/metagraph/src/cli/load/load_annotated_graph.cpp
+++ b/metagraph/src/cli/load/load_annotated_graph.cpp
@@ -22,15 +22,16 @@ using mtg::common::logger;
 
 std::unique_ptr<AnnotatedDBG> initialize_annotated_dbg(std::shared_ptr<DeBruijnGraph> graph,
                                                        const Config &config) {
+    assert(graph.get() == &graph->get_base_graph());
+
+    uint64_t max_index = graph->max_index();
+    const auto *dbg_graph = dynamic_cast<const DBGSuccinct*>(graph.get());
+
     if (graph->get_mode() == DeBruijnGraph::PRIMARY) {
         graph = std::make_shared<CanonicalDBG>(graph);
         logger->trace("Primary graph was wrapped into canonical");
     }
 
-    uint64_t max_index = graph->max_index();
-    if (const auto *canonical = dynamic_cast<const CanonicalDBG*>(graph.get()))
-        max_index = canonical->get_graph().max_index();
-
     auto annotation_temp = config.infbase_annotators.size()
             ? initialize_annotation(config.infbase_annotators.at(0), config, 0)
             : initialize_annotation(config.anno_type, config, max_index);
@@ -56,12 +57,6 @@ std::unique_ptr<AnnotatedDBG> initialize_annotated_dbg(std::shared_ptr<DeBruijnG
         using namespace annot::binmat;
         BinaryMatrix &matrix = const_cast<BinaryMatrix &>(annotation_temp->get_matrix());
         if (IRowDiff *row_diff = dynamic_cast<IRowDiff*>(&matrix)) {
-            const DBGSuccinct *dbg_graph;
-            if (auto *canonical = dynamic_cast<CanonicalDBG *>(graph.get())) {
-                dbg_graph = dynamic_cast<const DBGSuccinct *>(&canonical->get_graph());
-            } else {
-                dbg_graph = dynamic_cast<const DBGSuccinct *>(graph.get());
-            }
             if (!dbg_graph) {
                 logger->error("Only succinct de Bruijn graph representations"
                               " are supported for row-diff annotations");
diff --git a/metagraph/src/cli/load/load_annotation.cpp b/metagraph/src/cli/load/load_annotation.cpp
index d9865ad60a..35334083c1 100644
--- a/metagraph/src/cli/load/load_annotation.cpp
+++ b/metagraph/src/cli/load/load_annotation.cpp
@@ -24,6 +24,15 @@ Config::AnnotationType parse_annotation_type(const std::string &filename) {
     } else if (utils::ends_with(filename, annot::ColumnCoordAnnotator::kExtension)) {
         return Config::AnnotationType::ColumnCoord;
 
+    } else if (utils::ends_with(filename, annot::MultiBRWTCoordAnnotator::kExtension)) {
+        return Config::AnnotationType::BRWTCoord;
+
+    } else if (utils::ends_with(filename, annot::RowDiffCoordAnnotator::kExtension)) {
+        return Config::AnnotationType::RowDiffCoord;
+
+    } else if (utils::ends_with(filename, annot::RowDiffBRWTCoordAnnotator::kExtension)) {
+        return Config::AnnotationType::RowDiffBRWTCoord;
+
     } else if (utils::ends_with(filename, annot::RowDiffColumnAnnotator::kExtension)) {
         return Config::AnnotationType::RowDiff;
 
@@ -144,6 +153,18 @@ initialize_annotation(Config::AnnotationType anno_type,
             annotation.reset(new annot::ColumnCoordAnnotator());
             break;
         }
+        case Config::BRWTCoord: {
+            annotation.reset(new annot::MultiBRWTCoordAnnotator());
+            break;
+        }
+        case Config::RowDiffCoord: {
+            annotation.reset(new annot::RowDiffCoordAnnotator());
+            break;
+        }
+        case Config::RowDiffBRWTCoord: {
+            annotation.reset(new annot::RowDiffBRWTCoordAnnotator());
+            break;
+        }
     }
 
     return annotation;
diff --git a/metagraph/src/cli/query.cpp b/metagraph/src/cli/query.cpp
index 13322d0f7d..1aeebfdffc 100644
--- a/metagraph/src/cli/query.cpp
+++ b/metagraph/src/cli/query.cpp
@@ -46,10 +46,7 @@ QueryExecutor::QueryExecutor(const Config &config,
       : config_(config),
         anno_graph_(anno_graph),
         aligner_config_(std::move(aligner_config)),
-        thread_pool_(thread_pool) {
-    if (aligner_config_ && aligner_config_->forward_and_reverse_complement)
-        throw std::runtime_error("Error: align_both_strands must be off when querying");
-}
+        thread_pool_(thread_pool) { }
 
 std::string QueryExecutor::execute_query(const std::string &seq_name,
                                          const std::string &sequence,
@@ -58,6 +55,7 @@ std::string QueryExecutor::execute_query(const std::string &seq_name,
                                          bool suppress_unlabeled,
                                          size_t num_top_labels,
                                          double discovery_fraction,
+                                         double presence_fraction,
                                          std::string anno_labels_delimiter,
                                          const AnnotatedDBG &anno_graph,
                                          bool with_kmer_counts,
@@ -70,7 +68,8 @@ std::string QueryExecutor::execute_query(const std::string &seq_name,
         auto top_labels
             = anno_graph.get_top_label_signatures(sequence,
                                                   num_top_labels,
-                                                  discovery_fraction);
+                                                  discovery_fraction,
+                                                  presence_fraction);
 
         if (!top_labels.size() && suppress_unlabeled)
             return "";
@@ -89,7 +88,8 @@ std::string QueryExecutor::execute_query(const std::string &seq_name,
     } else if (query_coords) {
         auto result = anno_graph.get_kmer_coordinates(sequence,
                                                       num_top_labels,
-                                                      discovery_fraction);
+                                                      discovery_fraction,
+                                                      presence_fraction);
 
         if (!result.size() && suppress_unlabeled)
             return "";
@@ -109,6 +109,7 @@ std::string QueryExecutor::execute_query(const std::string &seq_name,
         auto result = anno_graph.get_label_count_quantiles(sequence,
                                                            num_top_labels,
                                                            discovery_fraction,
+                                                           presence_fraction,
                                                            count_quantiles);
 
         if (!result.size() && suppress_unlabeled)
@@ -126,6 +127,7 @@ std::string QueryExecutor::execute_query(const std::string &seq_name,
         auto top_labels = anno_graph.get_top_labels(sequence,
                                                     num_top_labels,
                                                     discovery_fraction,
+                                                    presence_fraction,
                                                     with_kmer_counts);
 
         if (!top_labels.size() && suppress_unlabeled)
@@ -140,7 +142,8 @@ std::string QueryExecutor::execute_query(const std::string &seq_name,
         output += '\n';
 
     } else {
-        auto labels_discovered = anno_graph.get_labels(sequence, discovery_fraction);
+        auto labels_discovered = anno_graph.get_labels(sequence, discovery_fraction,
+                                                                 presence_fraction);
 
         if (!labels_discovered.size() && suppress_unlabeled)
             return "";
@@ -295,6 +298,26 @@ void call_hull_sequences(const DeBruijnGraph &full_dbg,
     }
 }
 
+template <typename T>
+annot::LabelEncoder<> reencode_labels(const annot::LabelEncoder<> &encoder,
+                                      std::vector<T> *rows) {
+    assert(rows);
+    annot::LabelEncoder<std::string> new_encoder;
+    tsl::hopscotch_map<size_t, size_t> old_to_new;
+    for (auto &row : *rows) {
+        for (auto &v : row) {
+            auto &j = utils::get_first(v);
+            auto [it, inserted] = old_to_new.emplace(j, new_encoder.size());
+            if (inserted)
+                new_encoder.insert_and_encode(encoder.decode(j));
+
+            assert(encoder.decode(j) == new_encoder.decode(it->second));
+            j = it->second;
+        }
+    }
+    return new_encoder;
+}
+
 /**
  * @brief      Construct annotation submatrix with a subset of rows extracted
  *             from the full annotation matrix
@@ -334,12 +357,14 @@ slice_annotation(const AnnotatedDBG::Annotator &full_annotation,
             row_ids[full_to_small[i].second] = row_indexes[i];
         }
 
+        auto label_encoder = reencode_labels(full_annotation.get_label_encoder(), &unique_rows);
+
         // copy annotations from the full graph to the query graph
         return std::make_unique<annot::UniqueRowAnnotator>(
             std::make_unique<UniqueRowBinmat>(std::move(unique_rows),
                                               std::move(row_ids),
-                                              full_annotation.num_labels()),
-            full_annotation.get_label_encoder()
+                                              label_encoder.size()),
+            std::move(label_encoder)
         );
     }
 
@@ -359,6 +384,8 @@ slice_annotation(const AnnotatedDBG::Annotator &full_annotation,
 
         auto slice = mat->get_row_values(row_indexes);
 
+        auto label_encoder = reencode_labels(full_annotation.get_label_encoder(), &slice);
+
         Vector<CSRMatrix::RowValues> rows(num_rows);
 
         for (uint64_t i = 0; i < slice.size(); ++i) {
@@ -367,8 +394,8 @@ slice_annotation(const AnnotatedDBG::Annotator &full_annotation,
 
         // copy annotations from the full graph to the query graph
         return std::make_unique<annot::IntRowAnnotator>(
-            std::make_unique<CSRMatrix>(std::move(rows), full_annotation.num_labels()),
-            full_annotation.get_label_encoder()
+            std::make_unique<CSRMatrix>(std::move(rows), label_encoder.size()),
+            std::move(label_encoder)
         );
     }
 
@@ -418,12 +445,14 @@ slice_annotation(const AnnotatedDBG::Annotator &full_annotation,
         unique_rows.values_container()
     );
 
+    auto label_encoder = reencode_labels(full_annotation.get_label_encoder(), &annotation_rows);
+
     // copy annotations from the full graph to the query graph
     return std::make_unique<annot::UniqueRowAnnotator>(
         std::make_unique<UniqueRowBinmat>(std::move(annotation_rows),
                                           std::move(row_rank),
-                                          full_annotation.num_labels()),
-        full_annotation.get_label_encoder()
+                                          label_encoder.size()),
+        std::move(label_encoder)
     );
 }
 
@@ -869,7 +898,7 @@ int query_graph(Config *config) {
                 && "only the best alignment is used in query");
 
         aligner_config.reset(new align::DBGAlignerConfig(
-            initialize_aligner_config(graph->get_k(), *config)
+            initialize_aligner_config(*config)
         ));
     }
 
@@ -888,10 +917,10 @@ int query_graph(Config *config) {
 }
 
 void align_sequence(std::string &name, std::string &seq,
-                    const DeBruijnGraph &graph,
+                    const AnnotatedDBG &anno_graph,
                     const align::DBGAlignerConfig &aligner_config) {
-    auto alignments
-        = build_aligner(graph, aligner_config)->align(seq);
+    const DeBruijnGraph &graph = anno_graph.get_graph();
+    auto alignments = build_aligner(graph, aligner_config)->align(seq);
 
     assert(alignments.size() <= 1 && "Only the best alignment is needed");
 
@@ -899,7 +928,7 @@ void align_sequence(std::string &name, std::string &seq,
         auto &match = alignments[0];
         // sequence for querying -- the best alignment
         if (match.get_offset()) {
-            seq = graph.get_node_sequence(match[0]).substr(0, match.get_offset())
+            seq = graph.get_node_sequence(match.get_nodes()[0]).substr(0, match.get_offset())
                     + match.get_sequence();
         } else {
             seq = const_cast<std::string&&>(match.get_sequence());
@@ -920,14 +949,14 @@ std::string query_sequence(size_t id, std::string name, std::string seq,
                            const AnnotatedDBG &anno_graph,
                            const Config &config,
                            const align::DBGAlignerConfig *aligner_config) {
-    if (aligner_config) {
-        align_sequence(name, seq, anno_graph.get_graph(), *aligner_config);
-    }
+    if (aligner_config)
+        align_sequence(name, seq, anno_graph, *aligner_config);
 
     return QueryExecutor::execute_query(fmt::format_int(id).str() + '\t' + name, seq,
                                         config.count_labels, config.print_signature,
                                         config.suppress_unlabeled, config.num_top_labels,
-                                        config.discovery_fraction, config.anno_labels_delimiter,
+                                        config.discovery_fraction, config.presence_fraction,
+                                        config.anno_labels_delimiter,
                                         anno_graph, config.count_kmers, config.count_quantiles,
                                         config.query_coords);
 }
@@ -971,7 +1000,7 @@ ::batched_query_fasta(seq_io::FastaParser &fasta_parser,
 
     const uint64_t batch_size = config_.query_batch_size_in_bytes;
 
-    std::atomic<size_t> seq_count = 0;
+    size_t seq_count = 0;
 
     while (it != end) {
         Timer batch_timer;
@@ -993,7 +1022,7 @@ ::batched_query_fasta(seq_io::FastaParser &fasta_parser,
             #pragma omp parallel for num_threads(get_num_threads()) schedule(dynamic)
             for (size_t i = 0; i < seq_batch.size(); ++i) {
                 align_sequence(seq_batch[i].first, seq_batch[i].second,
-                               anno_graph_.get_graph(), *aligner_config_);
+                               anno_graph_, *aligner_config_);
             }
             logger->trace("Sequences alignment took {} sec", batch_timer.elapsed());
             batch_timer.reset();
@@ -1017,11 +1046,13 @@ ::batched_query_fasta(seq_io::FastaParser &fasta_parser,
 
         #pragma omp parallel for num_threads(get_num_threads()) schedule(dynamic)
         for (size_t i = 0; i < seq_batch.size(); ++i) {
-            callback(query_sequence(seq_count++, seq_batch[i].first, seq_batch[i].second,
+            callback(query_sequence(seq_count + i, seq_batch[i].first, seq_batch[i].second,
                                     *query_graph, config_,
                                     config_.batch_align ? aligner_config_.get() : NULL));
         }
 
+        seq_count += seq_batch.size();
+
         logger->trace("Batch of {} bytes from '{}' queried in {} sec", num_bytes_read,
                       fasta_parser.get_filename(), batch_timer.elapsed());
     }
diff --git a/metagraph/src/cli/query.hpp b/metagraph/src/cli/query.hpp
index f39b16feaa..0b1351e0e9 100644
--- a/metagraph/src/cli/query.hpp
+++ b/metagraph/src/cli/query.hpp
@@ -62,6 +62,7 @@ class QueryExecutor {
                                      bool suppress_unlabeled,
                                      size_t num_top_labels,
                                      double discovery_fraction,
+                                     double presence_fraction,
                                      std::string anno_labels_delimiter,
                                      const graph::AnnotatedDBG &anno_graph,
                                      bool with_kmer_counts = false,
diff --git a/metagraph/src/cli/server.cpp b/metagraph/src/cli/server.cpp
index bc89b0f4b6..e2de1c00ac 100644
--- a/metagraph/src/cli/server.cpp
+++ b/metagraph/src/cli/server.cpp
@@ -163,7 +163,7 @@ std::string process_search_request(const std::string &received_message,
     std::unique_ptr<graph::align::DBGAlignerConfig> aligner_config;
     if (json.get("align", false).asBool()) {
         aligner_config.reset(new graph::align::DBGAlignerConfig(
-            initialize_aligner_config(anno_graph.get_graph().get_k(), config)
+            initialize_aligner_config(config)
         ));
     }
 
@@ -229,7 +229,8 @@ std::string process_align_request(const std::string &received_message,
         "max_num_nodes_per_seq_char",
         config.alignment_max_nodes_per_seq_char).asDouble();
 
-    std::unique_ptr<graph::align::IDBGAligner> aligner = build_aligner(graph, config);
+    graph::align::DBGAlignerConfig aligner_config = initialize_aligner_config(config);
+    std::unique_ptr<graph::align::IDBGAligner> aligner = build_aligner(graph, aligner_config);
 
     // TODO: make parallel?
     seq_io::read_fasta_from_string(fasta.asString(),
@@ -242,7 +243,7 @@ std::string process_align_request(const std::string &received_message,
         // not supporting reverse complement yet
         Json::Value alignments = Json::Value(Json::arrayValue);
 
-        for (const auto &path : paths) {
+        for (const auto &path : paths.data()) {
             Json::Value a;
             a[SCORE_JSON_FIELD] = path.get_score();
             a[SEQUENCE_JSON_FIELD] = path.get_sequence();
diff --git a/metagraph/src/cli/stats.cpp b/metagraph/src/cli/stats.cpp
index c9961a49b1..b25cc82e5a 100644
--- a/metagraph/src/cli/stats.cpp
+++ b/metagraph/src/cli/stats.cpp
@@ -69,7 +69,7 @@ void print_boss_stats(const graph::boss::BOSS &boss_graph,
     std::cout << "========================================================" << std::endl;
 }
 
-void print_stats(const graph::DeBruijnGraph &graph) {
+void print_stats(const graph::DeBruijnGraph &graph, bool print_counts_hist) {
     std::cout << "====================== GRAPH STATS =====================" << std::endl;
     std::cout << "k: " << graph.get_k() << std::endl;
     std::cout << "nodes (k): " << graph.num_nodes() << std::endl;
@@ -78,6 +78,14 @@ void print_stats(const graph::DeBruijnGraph &graph) {
     if (auto weights = graph.get_extension<graph::NodeWeights>()) {
         double sum_weights = 0;
         uint64_t num_non_zero_weights = 0;
+        std::vector<uint64_t> hist;
+        auto add_to_hist = [&](uint64_t c) {
+            assert(c && "All k-mers in graph must have non-zero weights");
+            while (c >= hist.size()) {
+                hist.push_back(0);
+            }
+            hist[c]++;
+        };
         if (const auto *dbg_succ = dynamic_cast<const graph::DBGSuccinct*>(&graph)) {
             // In DBGSuccinct some of the nodes may be masked out
             // TODO: Fix this by using non-contiguous indexing in graph
@@ -86,6 +94,8 @@ void print_stats(const graph::DeBruijnGraph &graph) {
                 if (uint64_t weight = (*weights)[i]) {
                     sum_weights += weight;
                     num_non_zero_weights++;
+                    if (print_counts_hist)
+                        add_to_hist(weight);
                 }
             }
         } else {
@@ -97,11 +107,23 @@ void print_stats(const graph::DeBruijnGraph &graph) {
                 if (uint64_t weight = (*weights)[i]) {
                     sum_weights += weight;
                     num_non_zero_weights++;
+                    if (print_counts_hist)
+                        add_to_hist(weight);
                 }
             });
         }
         std::cout << "nnz weights: " << num_non_zero_weights << std::endl;
         std::cout << "avg weight: " << static_cast<double>(sum_weights) / num_non_zero_weights << std::endl;
+        if (print_counts_hist) {
+            std::cout << "weights histogram:\n";
+            if (hist.size() > 1u && hist[1])
+                std::cout << fmt::format("{}:{}", 1, hist[1]);
+            for (size_t i = 2; i < hist.size(); i++) {
+                if (hist[i])
+                    std::cout << fmt::format(",{}:{}", i, hist[i]);
+            }
+            std::cout << std::endl;
+        }
 
         if (get_verbose()) {
             if (const auto *dbg_succ = dynamic_cast<const graph::DBGSuccinct*>(&graph)) {
@@ -135,7 +157,6 @@ void print_bloom_filter_stats(const kmer::KmerBloomFilter<KmerHasher> *kmer_bloo
 
 template <class Matrix>
 void print_anchor_stats(const Matrix& m) {
-    std::cout << "=================== Anchor STATS ===================" << std::endl;
     uint64_t num_anchors = m.anchor().num_set_bits();
     if (num_anchors != 0) {
         std::cout << "num anchors: " << m.anchor().num_set_bits() << std::endl;
@@ -167,37 +188,44 @@ void print_stats(const Annotator &annotation) {
               << utils::split_string(annotation.file_extension(), ".").at(0) << std::endl;
 
     using namespace annot::binmat;
-    using mtg::annot::matrix::MultiIntMatrix;
 
-    if (const auto *mat_coord = dynamic_cast<const MultiIntMatrix *>(&annotation.get_matrix())) {
+    const BinaryMatrix *mat = &annotation.get_matrix();
+
+#define CHECK_IF_DIFFED_AND_PRINT_STATS(RD_TYPE, NAME) \
+    if (const auto *rd = dynamic_cast<const RD_TYPE *>(mat)) { \
+        std::cout << "=================== DIFF ANNOTATION ====================" << std::endl; \
+        print_anchor_stats(*rd); \
+        std::cout << "underlying matrix: " NAME << std::endl; \
+        mat = &rd->diffs(); \
+    }
+
+    CHECK_IF_DIFFED_AND_PRINT_STATS(RowDiff<ColumnMajor>, "ColumnMajor");
+    CHECK_IF_DIFFED_AND_PRINT_STATS(RowDiff<RowSparse>, "RowSparse");
+    CHECK_IF_DIFFED_AND_PRINT_STATS(RowDiff<BRWT>, "Multi-BRWT");
+
+    CHECK_IF_DIFFED_AND_PRINT_STATS(typename annot::IntRowDiffBRWTAnnotator::binary_matrix_type, "Multi-BRWT");
+
+    CHECK_IF_DIFFED_AND_PRINT_STATS(typename annot::RowDiffCoordAnnotator::binary_matrix_type, "ColumnMajor");
+    CHECK_IF_DIFFED_AND_PRINT_STATS(typename annot::RowDiffBRWTCoordAnnotator::binary_matrix_type, "Multi-BRWT");
+
+    if (const auto *mat_coord = dynamic_cast<const annot::matrix::MultiIntMatrix *>(mat)) {
         std::cout << "================== COORDINATES STATS ===================" << std::endl;
         std::cout << "coordinates: " << mat_coord->num_attributes() << std::endl;
+        mat = &mat_coord->get_binary_matrix();
+    } else if (const auto *int_mat = dynamic_cast<const annot::matrix::IntMatrix *>(mat)) {
+        mat = &int_mat->get_binary_matrix();
     }
 
-    if (const auto *rbmat = dynamic_cast<const RainbowMatrix *>(&annotation.get_matrix())) {
+    if (const auto *rbmat = dynamic_cast<const RainbowMatrix *>(mat)) {
         std::cout << "================= RAINBOW MATRIX STATS =================" << std::endl;
         std::cout << "distinct rows: " << rbmat->num_distinct_rows() << std::endl;
+        if (const auto *rb_brwt = dynamic_cast<const Rainbow<BRWT> *>(mat))
+            mat = &rb_brwt->get_reduced_matrix();
+    }
 
-    } else if (const auto *brwt = dynamic_cast<const BRWT *>(&annotation.get_matrix())) {
+    if (const auto *brwt = dynamic_cast<const BRWT *>(mat))
         print_brwt_stats(*brwt);
 
-    } else if (const auto *brwt_rd
-               = dynamic_cast<const RowDiff<BRWT> *>(&annotation.get_matrix())) {
-        std::cout << "underlying matrix: BRWT" << std::endl;
-        print_brwt_stats(brwt_rd->diffs());
-        print_anchor_stats(*brwt_rd);
-
-    } else if (const auto *rd
-               = dynamic_cast<const RowDiff<ColumnMajor> *>(&annotation.get_matrix())) {
-        std::cout << "underlying matrix: ColumnMajor" << std::endl;
-        print_anchor_stats(*rd);
-
-    } else if (const auto *rs
-               = dynamic_cast<const RowDiff<RowSparse> *>(&annotation.get_matrix())) {
-        std::cout << "underlying matrix: RowSparse" << std::endl;
-        print_anchor_stats(*rs);
-    }
-
     std::cout << "========================================================" << std::endl;
 }
 
@@ -214,7 +242,7 @@ int print_stats(Config *config) {
 
         logger->info("Statistics for graph '{}'", file);
 
-        print_stats(*graph);
+        print_stats(*graph, config->print_counts_hist);
 
         if (auto dbg_succ = dynamic_cast<graph::DBGSuccinct*>(graph.get())) {
             const auto &boss_graph = dbg_succ->get_boss();
diff --git a/metagraph/src/cli/stats.hpp b/metagraph/src/cli/stats.hpp
index 8765d88d27..be7dbf265f 100644
--- a/metagraph/src/cli/stats.hpp
+++ b/metagraph/src/cli/stats.hpp
@@ -17,7 +17,7 @@ namespace cli {
 class Config;
 
 
-void print_stats(const graph::DeBruijnGraph &graph);
+void print_stats(const graph::DeBruijnGraph &graph, bool print_counts_hist = false);
 
 void print_boss_stats(const graph::boss::BOSS &boss_graph,
                       bool count_dummy = false,
diff --git a/metagraph/src/cli/transform_annotation.cpp b/metagraph/src/cli/transform_annotation.cpp
index 402cd744e3..e01978110f 100644
--- a/metagraph/src/cli/transform_annotation.cpp
+++ b/metagraph/src/cli/transform_annotation.cpp
@@ -24,6 +24,9 @@ using mtg::common::get_verbose;
 
 typedef MultiLabelEncoded<std::string> Annotator;
 
+typedef matrix::TupleCSCMatrix<binmat::ColumnMajor> TupleCSC;
+typedef matrix::TupleCSCMatrix<binmat::BRWT> TupleBRWT;
+
 static const Eigen::IOFormat CSVFormat(Eigen::StreamPrecision,
                                        Eigen::DontAlignCols, " ", "\n");
 
@@ -293,6 +296,59 @@ convert_to_IntMultiBRWT(const std::vector<std::string> &files,
                 brwt_annotator->get_label_encoder());
 }
 
+template <class Annotator>
+StaticBinRelAnnotator<matrix::TupleCSCMatrix<typename Annotator::binary_matrix_type>, std::string>
+load_coords(Annotator&& anno, const std::vector<std::string> &files) {
+    std::vector<bit_vector_smart> delimiters(anno.num_labels());
+    std::vector<sdsl::int_vector<>> column_values(anno.num_labels());
+
+    #pragma omp parallel for num_threads(get_num_threads()) schedule(dynamic)
+    for (size_t i = 0; i < files.size(); ++i) {
+        auto label_encoder = ColumnCompressed<>::load_label_encoder(files[i]);
+
+        auto coords_fname = utils::remove_suffix(files[i], ColumnCompressed<>::kExtension)
+                                                        + ColumnCompressed<>::kCoordExtension;
+        std::ifstream in(coords_fname, std::ios::binary);
+        size_t j = 0;
+        try {
+            TupleCSC::load_tuples(in, label_encoder.size(), [&](auto&& delims, auto&& values) {
+                size_t idx;
+                try {
+                    idx = anno.get_label_encoder().encode(label_encoder.decode(j));
+                } catch (...) {
+                    logger->error("Label '{}' from {} is missing in the target annotator",
+                                  label_encoder.decode(j), files[i]);
+                    exit(1);
+                }
+                if (delimiters[idx].size()) {
+                    logger->error("Merging coordinate annotations with overlapping"
+                                  " labels is not implemented");
+                    exit(1);
+                }
+                delimiters[idx] = std::move(delims);
+                column_values[idx] = std::move(values);
+                j++;
+            });
+        } catch (const std::exception &e) {
+            logger->error("Couldn't load coordinates from {}\nException: {}", coords_fname, e.what());
+            exit(1);
+        } catch (...) {
+            logger->error("Couldn't load coordinates from {}", coords_fname);
+            exit(1);
+        }
+        assert(j == label_encoder.size());
+    }
+
+    auto label_encoder = anno.get_label_encoder();
+
+    return StaticBinRelAnnotator<matrix::TupleCSCMatrix<typename Annotator::binary_matrix_type>, std::string>(
+            std::make_unique<matrix::TupleCSCMatrix<typename Annotator::binary_matrix_type>>(
+                    std::move(*anno.release_matrix()),
+                    std::move(delimiters),
+                    std::move(column_values)),
+            std::move(label_encoder));
+}
+
 
 int transform_annotation(Config *config) {
     assert(config);
@@ -637,6 +693,8 @@ int transform_annotation(Config *config) {
         if (config->anno_type != Config::BRWT
                 && config->anno_type != Config::RbBRWT
                 && config->anno_type != Config::IntBRWT
+                && config->anno_type != Config::BRWTCoord
+                && config->anno_type != Config::RowDiffBRWTCoord
                 && config->anno_type != Config::RowDiff) {
             annotator = std::make_unique<ColumnCompressed<>>(0);
             logger->trace("Loading annotation from disk...");
@@ -653,23 +711,82 @@ int transform_annotation(Config *config) {
                 break;
             }
             case Config::ColumnCoord: {
-                auto label_encoder = annotator->get_label_encoder();
-                auto tuple_matrix = std::make_unique<matrix::TupleCSCMatrix<binmat::ColumnMajor>>(
-                                            annotator->release_matrix());
-                if (files.size() > 1) {
-                    logger->error("Merging coordinates from multiple columns is not supported");
-                    exit(1);
+                ColumnCoordAnnotator column_coord = load_coords(std::move(*annotator), files);
+                logger->trace("Annotation converted in {} sec", timer.elapsed());
+                column_coord.serialize(config->outfbase);
+                logger->trace("Serialized to {}", config->outfbase);
+                break;
+            }
+            case Config::BRWTCoord: {
+                auto brwt_coord = load_coords(std::move(*convert_to_MultiBRWT(files, *config)), files);
+                logger->trace("Annotation converted in {} sec", timer.elapsed());
+                brwt_coord.serialize(config->outfbase);
+                logger->trace("Serialized to {}", config->outfbase);
+                break;
+            }
+            case Config::RowDiffCoord: {
+                assert(config->infbase.size());
+                const std::string anchors_file = config->infbase + annot::binmat::kRowDiffAnchorExt;
+                if (!std::filesystem::exists(anchors_file)) {
+                    logger->error("Anchor bitmap {} does not exist. Run the row_diff"
+                                  " transform followed by anchor optimization.", anchors_file);
+                    std::exit(1);
+                }
+                const std::string fork_succ_file = config->infbase + annot::binmat::kRowDiffForkSuccExt;
+                if (!std::filesystem::exists(fork_succ_file)) {
+                    logger->error("Fork successor bitmap {} does not exist", fork_succ_file);
+                    std::exit(1);
+                }
+
+                ColumnCoordAnnotator column_coord = load_coords(std::move(*annotator), files);
+
+                auto label_encoder = column_coord.get_label_encoder();
+
+                auto diff_matrix = std::make_unique<matrix::TupleRowDiff<TupleCSC>>(nullptr,
+                            std::move(*column_coord.release_matrix()));
+
+                diff_matrix->load_anchor(anchors_file);
+                diff_matrix->load_fork_succ(fork_succ_file);
+                logger->trace("RowDiff support bitmaps loaded");
+
+                RowDiffCoordAnnotator annotation(std::move(diff_matrix), label_encoder);
+
+                logger->trace("Annotation converted in {} sec", timer.elapsed());
+
+                annotation.serialize(config->outfbase);
+                logger->trace("Serialized to {}", config->outfbase);
+                break;
+            }
+            case Config::RowDiffBRWTCoord: {
+                assert(config->infbase.size());
+                const std::string anchors_file = config->infbase + annot::binmat::kRowDiffAnchorExt;
+                if (!std::filesystem::exists(anchors_file)) {
+                    logger->error("Anchor bitmap {} does not exist. Run the row_diff"
+                                  " transform followed by anchor optimization.", anchors_file);
+                    std::exit(1);
                 }
-                auto coords_fname = utils::remove_suffix(files.at(0),
-                                                         ColumnCompressed<>::kExtension)
-                                        + ColumnCompressed<>::kCoordExtension;
-                std::ifstream in(coords_fname);
-                tuple_matrix->load_tuples(in);
+                const std::string fork_succ_file = config->infbase + annot::binmat::kRowDiffForkSuccExt;
+                if (!std::filesystem::exists(fork_succ_file)) {
+                    logger->error("Fork successor bitmap {} does not exist", fork_succ_file);
+                    std::exit(1);
+                }
+
+                auto brwt_coord = load_coords(std::move(*convert_to_MultiBRWT(files, *config)), files);
+
+                auto label_encoder = brwt_coord.get_label_encoder();
 
-                ColumnCoordAnnotator column_coord(std::move(tuple_matrix), label_encoder);
+                auto diff_matrix = std::make_unique<matrix::TupleRowDiff<TupleBRWT>>(nullptr,
+                            std::move(*brwt_coord.release_matrix()));
+
+                diff_matrix->load_anchor(anchors_file);
+                diff_matrix->load_fork_succ(fork_succ_file);
+                logger->trace("RowDiff support bitmaps loaded");
+
+                RowDiffBRWTCoordAnnotator annotation(std::move(diff_matrix), label_encoder);
 
                 logger->trace("Annotation converted in {} sec", timer.elapsed());
-                column_coord.serialize(config->outfbase);
+
+                annotation.serialize(config->outfbase);
                 logger->trace("Serialized to {}", config->outfbase);
                 break;
             }
@@ -774,20 +891,15 @@ int transform_annotation(Config *config) {
                 auto int_annotation = convert_to_IntMultiBRWT(files, *config, timer);
                 logger->trace("Annotation converted in {} sec", timer.elapsed());
 
+                auto label_encoder = int_annotation.get_label_encoder();
                 using CSCMatrix = matrix::CSCMatrix<binmat::BRWT, CountsVector>;
-
-                IntRowDiffBRWTAnnotator annotation(
-                        std::make_unique<matrix::IntRowDiff<CSCMatrix>>(nullptr,
-                                std::move(*int_annotation.release_matrix())),
-                        int_annotation.get_label_encoder());
-
-                const_cast<matrix::IntRowDiff<CSCMatrix> &>(annotation.get_matrix())
-                        .load_anchor(anchors_file);
-                const_cast<matrix::IntRowDiff<CSCMatrix> &>(annotation.get_matrix())
-                        .load_fork_succ(fork_succ_file);
-
+                auto matrix = std::make_unique<matrix::IntRowDiff<CSCMatrix>>(nullptr,
+                                std::move(*int_annotation.release_matrix()));
+                matrix->load_anchor(anchors_file);
+                matrix->load_fork_succ(fork_succ_file);
                 logger->trace("RowDiff support bitmaps loaded");
 
+                IntRowDiffBRWTAnnotator annotation(std::move(matrix), std::move(label_encoder));
                 annotation.serialize(config->outfbase);
                 logger->trace("Serialized to {}", config->outfbase);
                 break;
@@ -956,10 +1068,13 @@ int relax_multi_brwt(Config *config) {
 
     std::unique_ptr<MultiLabelEncoded<std::string>> annotator;
     Config::AnnotationType anno_type = parse_annotation_type(fname);
-    switch(anno_type) {
+    switch (anno_type) {
         case Config::BRWT:
             annotator = std::make_unique<MultiBRWTAnnotator>();
             break;
+        case Config::RbBRWT:
+            annotator = std::make_unique<RbBRWTAnnotator>();
+            break;
         case Config::RowDiffBRWT:
             annotator = std::make_unique<RowDiffBRWTAnnotator>();
             break;
@@ -969,8 +1084,14 @@ int relax_multi_brwt(Config *config) {
         case Config::IntRowDiffBRWT:
             annotator = std::make_unique<IntRowDiffBRWTAnnotator>();
             break;
+        case Config::BRWTCoord:
+            annotator = std::make_unique<MultiBRWTCoordAnnotator>();
+            break;
+        case Config::RowDiffBRWTCoord:
+            annotator = std::make_unique<RowDiffBRWTCoordAnnotator>();
+            break;
         default:
-            logger->error("Relaxation only supported for BRWT and RowDiffBRWT");
+            logger->error("Relaxation for {} is not supported", Config::annotype_to_string(anno_type));
             exit(1);
     }
 
@@ -982,17 +1103,27 @@ int relax_multi_brwt(Config *config) {
     }
     logger->trace("Annotator loaded in {} sec", timer.elapsed());
 
-    logger->trace("Relaxing BRWT tree...");
+    const binmat::BinaryMatrix *mat = &annotator->get_matrix();
+
+    if (const auto *rd_brwt = dynamic_cast<RowDiffBRWTAnnotator *>(annotator.get())) {
+        mat = &rd_brwt->get_matrix().diffs();
+    } else if (const auto *int_rd_brwt = dynamic_cast<IntRowDiffBRWTAnnotator *>(annotator.get())) {
+        mat = &int_rd_brwt->get_matrix().diffs();
+    } else if (const auto *rd_brwt_coord = dynamic_cast<RowDiffBRWTCoordAnnotator *>(annotator.get())) {
+        mat = &rd_brwt_coord->get_matrix().diffs();
+    }
 
-    const binmat::BRWT &matrix = anno_type == Config::BRWT
-            ? dynamic_cast<MultiBRWTAnnotator &>(*annotator).get_matrix()
-            : (anno_type == Config::IntBRWT
-                ? dynamic_cast<IntMultiBRWTAnnotator &>(*annotator).get_matrix().get_binary_matrix()
-                : (anno_type == Config::IntRowDiffBRWT
-                    ? dynamic_cast<IntRowDiffBRWTAnnotator &>(*annotator).get_matrix().diffs().get_binary_matrix()
-                    : dynamic_cast<RowDiffBRWTAnnotator &>(*annotator).get_matrix().diffs()));
-    relax_BRWT(const_cast<binmat::BRWT *>(&matrix), config->relax_arity_brwt,
-               get_num_threads());
+    if (const auto *rb_brwt = dynamic_cast<const binmat::Rainbow<binmat::BRWT> *>(mat)) {
+        mat = &rb_brwt->get_reduced_matrix();
+    }
+
+    if (const auto *int_mat = dynamic_cast<const matrix::IntMatrix *>(mat)) {
+        mat = &int_mat->get_binary_matrix();
+    }
+
+    logger->trace("Relaxing BRWT tree...");
+    relax_BRWT(&dynamic_cast<binmat::BRWT &>(const_cast<binmat::BinaryMatrix &>(*mat)),
+               config->relax_arity_brwt, get_num_threads());
 
     annotator->serialize(config->outfbase);
     logger->trace("BRWT relaxation done in {} sec", timer.elapsed());
diff --git a/metagraph/src/common/bloom_filter.cpp b/metagraph/src/common/bloom_filter.cpp
index c7491a11ef..44b2ec3d0d 100644
--- a/metagraph/src/common/bloom_filter.cpp
+++ b/metagraph/src/common/bloom_filter.cpp
@@ -1,11 +1,6 @@
 #include "bloom_filter.hpp"
 
 #include "common/utils/simd_utils.hpp"
-
-#ifdef __AVX2__
-#include <immintrin.h>
-#endif
-
 #include "common/serialization.hpp"
 
 // used to implement size % 512
diff --git a/metagraph/src/common/serialization.cpp b/metagraph/src/common/serialization.cpp
index bc1a1ea718..97030731bb 100644
--- a/metagraph/src/common/serialization.cpp
+++ b/metagraph/src/common/serialization.cpp
@@ -326,6 +326,9 @@ void serialize_number_number_map(std::ostream &out,
 template
 void serialize_number_number_map(std::ostream &out,
                                  const std::unordered_map<uint32_t, uint32_t> &map);
+template
+void serialize_number_number_map(std::ostream &out,
+                                 const tsl::hopscotch_map<uint64_t, uint64_t> &map);
 
 template <class Map>
 bool load_number_number_map(std::istream &in, Map *map) {
@@ -374,7 +377,9 @@ bool load_number_number_map(std::istream &in,
 template
 bool load_number_number_map(std::istream &in,
                             std::unordered_map<uint32_t, uint32_t> *map);
-
+template
+bool load_number_number_map(std::istream &in,
+                            tsl::hopscotch_map<uint64_t, uint64_t> *map);
 
 template <class Map>
 void serialize_string_number_map(std::ostream &out, const Map &map) {
diff --git a/metagraph/src/common/utils/simd_utils.hpp b/metagraph/src/common/utils/simd_utils.hpp
index b0c2f6632b..c50c473bed 100644
--- a/metagraph/src/common/utils/simd_utils.hpp
+++ b/metagraph/src/common/utils/simd_utils.hpp
@@ -1,16 +1,11 @@
 #ifndef __SIMD_UTILS_HPP__
 #define __SIMD_UTILS_HPP__
 
-#ifdef __AVX2__
-#include <immintrin.h>
-#endif
-
-#ifdef __SSE2__
-#include <emmintrin.h>
-#endif
+#include <x86intrin.h>
 
 #include <cassert>
 #include <cstdint>
+#include <cstddef>
 
 // Branch prediction helper macros
 #ifndef LIKELY
@@ -247,43 +242,6 @@ inline __m128i cvtepi64_epi32(__m256i v) {
     ));
 }
 
-
-/**
- * Helpers for aligner
- */
-
-// Drop-in replacement for _mm_loadu_si64
-inline __m128i mm_loadu_si64(const void *mem_addr) {
-    return _mm_loadl_epi64((const __m128i*)mem_addr);
-}
-
-// Drop-in replacement for _mm_storeu_si64
-inline void mm_storeu_si64(void *mem_addr, __m128i a) {
-    _mm_storel_epi64((__m128i*)mem_addr, a);
-}
-
-inline void mm_maskstorel_epi8(int8_t *mem_addr, __m128i mask, __m128i a) {
-    __m128i orig = mm_loadu_si64((__m128i*)mem_addr);
-    a = _mm_blendv_epi8(orig, a, mask);
-    mm_storeu_si64(mem_addr, a);
-}
-
-#if defined(__AVX512VL__) && defined(__AVX512F__)
-#define mm256_cvtepi32_epi8 _mm256_cvtepi32_epi8
-#else
-inline __m128i mm256_cvtepi32_epi8(__m256i a) {
-    a = _mm256_shuffle_epi8(a,
-        _mm256_setr_epi8(   0,    4,    8,   12, 0x80, 0x80, 0x80, 0x80,
-                         0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
-                            0,    4,    8,   12, 0x80, 0x80, 0x80, 0x80,
-                         0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80)
-    );
-    return _mm256_castsi256_si128(
-        _mm256_permutevar8x32_epi32(a, _mm256_setr_epi32(0, 4, 1, 1, 1, 1, 1, 1))
-    );
-}
-#endif
-
 /**
  * Helpers for score_kmer_presence_mask
  */
diff --git a/metagraph/src/common/utils/string_utils.cpp b/metagraph/src/common/utils/string_utils.cpp
index 32c2d3ab91..8e801baf78 100644
--- a/metagraph/src/common/utils/string_utils.cpp
+++ b/metagraph/src/common/utils/string_utils.cpp
@@ -7,6 +7,13 @@
 
 namespace utils {
 
+bool starts_with(const std::string &str, const std::string &prefix) {
+    if (prefix.size() > str.size()) {
+        return false;
+    }
+    return prefix == std::string_view(str).substr(0, prefix.size());
+}
+
 bool ends_with(const std::string &str, const std::string &suffix) {
     auto actual_suffix = str.substr(
         std::max(0, static_cast<int>(str.size())
diff --git a/metagraph/src/common/utils/string_utils.hpp b/metagraph/src/common/utils/string_utils.hpp
index cae2debe96..3336280741 100644
--- a/metagraph/src/common/utils/string_utils.hpp
+++ b/metagraph/src/common/utils/string_utils.hpp
@@ -8,6 +8,8 @@
 
 namespace utils {
 
+bool starts_with(const std::string &str, const std::string &prefix);
+
 bool ends_with(const std::string &str, const std::string &suffix);
 
 std::string remove_suffix(const std::string &str, const std::string &suffix);
diff --git a/metagraph/src/graph/alignment/aligner_aggregator.hpp b/metagraph/src/graph/alignment/aligner_aggregator.hpp
index 654006254c..6aed72db3c 100644
--- a/metagraph/src/graph/alignment/aligner_aggregator.hpp
+++ b/metagraph/src/graph/alignment/aligner_aggregator.hpp
@@ -1,77 +1,261 @@
 #ifndef __ALIGNER_AGGREGATOR_HPP__
 #define __ALIGNER_AGGREGATOR_HPP__
 
-
 #include <priority_deque.hpp>
 
 #include "aligner_alignment.hpp"
+#include "graph/representation/base/sequence_graph.hpp"
 
 namespace mtg {
 namespace graph {
 namespace align {
 
-template <typename NodeType, class AlignmentCompare>
+
+template <typename Type, typename Sequence, typename Compare>
+class PriorityDeque : public boost::container::priority_deque<Type, Sequence, Compare> {
+  public:
+    Sequence& data() { return this->sequence(); }
+    Compare& cmp() { return this->compare(); }
+};
+
+
+template <class AlignmentCompare>
 class AlignmentAggregator {
   public:
-    typedef Alignment<NodeType> DBGAlignment;
-    typedef typename DBGAlignment::score_t score_t;
+    typedef Alignment::node_index node_index;
+    typedef Alignment::score_t score_t;
+    typedef PriorityDeque<Alignment, std::vector<Alignment>, AlignmentCompare> PathQueue;
 
-    AlignmentAggregator(std::string_view query,
+    AlignmentAggregator(const DeBruijnGraph &graph,
+                        std::string_view query,
                         std::string_view rc_query,
                         const DBGAlignerConfig &config)
-          : query_(query), rc_query_(rc_query), config_(config) {
+          : query_(query), rc_query_(rc_query), config_(config), graph_(graph) {
         assert(config_.num_alternative_paths);
     }
 
-    inline void add_alignment(DBGAlignment&& alignment);
+    void add_alignment(Alignment&& alignment);
+
+    score_t get_min_path_score() const;
+    score_t get_max_path_score() const;
 
-    inline score_t get_min_path_score(const DBGAlignment &seed) const;
+    score_t get_min_path_score(const Alignment &) const { return get_min_path_score(); }
+    score_t get_max_path_score(const Alignment &) const { return get_max_path_score(); }
 
-    const DBGAlignment& maximum() const { return path_queue_.maximum(); }
+    const Alignment& maximum() const { return path_queue_.maximum(); }
     void pop_maximum() { path_queue_.pop_maximum(); }
 
-    void call_alignments(const std::function<void(DBGAlignment&&)> &callback);
+    std::vector<Alignment> get_alignments();
 
     size_t size() const { return path_queue_.size(); }
+
     bool empty() const { return path_queue_.empty(); }
 
+    void clear() { path_queue_.clear(); }
+
+    std::string_view get_query(bool is_reverse_complement) const {
+        return is_reverse_complement ? rc_query_ : query_;
+    }
+
   private:
     std::string_view query_;
     std::string_view rc_query_;
     const DBGAlignerConfig &config_;
-    boost::container::priority_deque<DBGAlignment,
-                                     std::vector<DBGAlignment>,
-                                     AlignmentCompare> path_queue_;
+    const DeBruijnGraph &graph_;
+    PathQueue path_queue_;
+    AlignmentCompare cmp_;
+
+    void construct_alignment_chains();
+    void construct_alignment_chain(std::string_view query,
+                                   Alignment&& chain,
+                                   typename std::vector<Alignment>::iterator begin,
+                                   typename std::vector<Alignment>::iterator end,
+                                   std::vector<score_t> &best_score,
+                                   const std::function<void(Alignment&&)> &callback);
 };
 
 
-template <typename NodeType, class AlignmentCompare>
-inline void AlignmentAggregator<NodeType, AlignmentCompare>
-::add_alignment(DBGAlignment&& alignment) {
-    if (path_queue_.size() < config_.num_alternative_paths) {
+template <class AlignmentCompare>
+inline void AlignmentAggregator<AlignmentCompare>::add_alignment(Alignment&& alignment) {
+    if (std::find(path_queue_.begin(), path_queue_.end(), alignment) != path_queue_.end())
+        return;
+
+    if (config_.chain_alignments || path_queue_.size() < config_.num_alternative_paths) {
         path_queue_.emplace(std::move(alignment));
-    } else if (!AlignmentCompare()(alignment, path_queue_.minimum())) {
+    } else if (!cmp_(alignment, path_queue_.minimum())) {
         path_queue_.update(path_queue_.begin(), std::move(alignment));
     }
 }
 
-template <typename NodeType, class AlignmentCompare>
-inline auto AlignmentAggregator<NodeType, AlignmentCompare>
-::get_min_path_score(const DBGAlignment &) const -> score_t {
-    return path_queue_.size() ? path_queue_.minimum().get_score()
-                              : config_.min_path_score;
+template <class AlignmentCompare>
+inline auto AlignmentAggregator<AlignmentCompare>::get_min_path_score() const -> score_t {
+    return config_.chain_alignments || path_queue_.size() < config_.num_alternative_paths
+        ? config_.min_path_score
+        : std::max(static_cast<score_t>(path_queue_.maximum().get_score() * config_.rel_score_cutoff),
+                   path_queue_.minimum().get_score());
 }
 
-template <typename NodeType, class AlignmentCompare>
-inline void AlignmentAggregator<NodeType, AlignmentCompare>
-::call_alignments(const std::function<void(DBGAlignment&&)> &callback) {
+template <class AlignmentCompare>
+inline auto AlignmentAggregator<AlignmentCompare>::get_max_path_score() const -> score_t {
+    return path_queue_.size() ? path_queue_.maximum().get_score() : config_.min_path_score;
+}
+
+template <class AlignmentCompare>
+inline std::vector<Alignment> AlignmentAggregator<AlignmentCompare>::get_alignments() {
+    if (config_.chain_alignments)
+        construct_alignment_chains();
+
+    std::vector<Alignment> data(std::move(path_queue_.data()));
+    path_queue_.clear();
+
+    // Pop off the min element to the back of the range each time. This results
+    // in the vector being in non-increasing order
+    for (auto it = data.rbegin(); it != data.rend(); ++it) {
+        boost::heap::pop_interval_heap_min(data.begin(), it.base(), path_queue_.cmp());
+    }
+
+    return data;
+}
+
+template <class AlignmentCompare>
+inline void AlignmentAggregator<AlignmentCompare>::construct_alignment_chains() {
     if (path_queue_.empty())
         return;
 
-    while (path_queue_.size()) {
-        callback(DBGAlignment(path_queue_.maximum()));
-        path_queue_.pop_maximum();
+    std::vector<Alignment> alignments[2];
+    for (auto&& alignment : path_queue_.data()) {
+        std::vector<Alignment> &bucket = alignments[alignment.get_orientation()];
+        bucket.push_back(std::forward<decltype(alignment)>(alignment));
     }
+
+    if (alignments[0].empty() && alignments[1].empty())
+        return;
+
+    path_queue_.clear();
+
+    auto push_to_queue = [&](Alignment&& chain) {
+        if (std::find(path_queue_.begin(), path_queue_.end(), chain) != path_queue_.end())
+            return;
+
+        if (path_queue_.size() < config_.num_alternative_paths) {
+            path_queue_.emplace(std::move(chain));
+        } else if (!cmp_(chain, path_queue_.minimum())) {
+            path_queue_.update(path_queue_.begin(), std::move(chain));
+        }
+    };
+
+    for (bool orientation : { false, true }) {
+        auto &aln = alignments[orientation];
+
+        // sort by endpoint (using beginning point and scores as tie-breakers)
+        std::sort(aln.begin(), aln.end(), [](const auto &a, const auto &b) {
+            return std::make_tuple(a.get_clipping() + a.get_query().size(),
+                                   a.get_clipping(),
+                                   b.get_score(),
+                                   a.get_sequence().size())
+                < std::make_tuple(b.get_clipping() + b.get_query().size(),
+                                  b.get_clipping(),
+                                  a.get_score(),
+                                  b.get_sequence().size());
+        });
+
+        // recursively construct chains
+        std::string_view this_query = get_query(orientation);
+        std::vector<score_t> best_score(this_query.size() + 1, 0);
+        for (auto it = aln.begin(); it != aln.end(); ++it) {
+            size_t end_pos = it->get_query().data() + it->get_query().size()
+                                - this_query.data();
+            if (it->get_score() > best_score[end_pos]) {
+                best_score[end_pos] = it->get_score();
+                construct_alignment_chain(this_query, Alignment(*it),
+                                          it + 1, aln.end(),
+                                          best_score, push_to_queue);
+            }
+        }
+    }
+}
+
+template <class AlignmentCompare>
+inline void AlignmentAggregator<AlignmentCompare>
+::construct_alignment_chain(std::string_view query,
+                            Alignment&& chain,
+                            typename std::vector<Alignment>::iterator begin,
+                            typename std::vector<Alignment>::iterator end,
+                            std::vector<score_t> &best_score,
+                            const std::function<void(Alignment&&)> &callback) {
+    assert(begin <= end);
+    assert(chain.size());
+
+    const char *chain_begin = chain.get_query().data();
+    const char *chain_end = chain_begin + chain.get_query().size();
+    if (begin == end || chain_end == query.data() + query.size()) {
+        callback(std::move(chain));
+        return;
+    }
+
+    size_t k = graph_.get_k();
+    score_t score = chain.get_score();
+
+    bool called = false;
+    for (auto it = begin; it != end; ++it) {
+        if (it->get_offset())
+            continue;
+
+        const char *next_begin = it->get_query().data();
+
+        assert(chain_begin - chain.get_clipping() == next_begin - it->get_clipping());
+        assert(it->get_orientation() == chain.get_orientation());
+
+        const char *next_end = next_begin + it->get_query().size();
+
+        if (next_begin <= chain_begin || next_end == chain_end)
+            continue;
+
+        Alignment aln(*it);
+
+        if (next_begin >= chain_end) {
+            // no overlap
+            aln.insert_gap_prefix(next_begin - chain_end, graph_, config_);
+
+        } else {
+            // trim, then fill in dummy nodes
+            assert(chain.get_end_clipping());
+
+            // first trim front of the incoming alignment
+            size_t overlap = std::min(
+                static_cast<size_t>((chain.get_cigar().data().end() - 2)->second),
+                aln.trim_query_prefix(chain_end - it->get_query().data(), graph_, config_)
+            );
+
+            if (aln.empty() || aln.get_sequence().size() < graph_.get_k()
+                    || aln.get_cigar().data().begin()->first != Cigar::MATCH)
+                continue;
+
+            assert(aln.get_query().data() == chain.get_query().data() + chain.get_query().size());
+
+            if (overlap < k - 1)
+                aln.insert_gap_prefix(-overlap, graph_, config_);
+        }
+
+        score_t next_score = score + aln.get_score();
+        if (next_score > best_score[next_end - query.data()]) {
+            best_score[next_end - query.data()] = next_score;
+
+            Alignment next_chain(chain);
+            next_chain.trim_end_clipping();
+            next_chain.append(std::move(aln));
+            assert(next_chain.get_score() == next_score);
+            assert(next_chain.is_valid(graph_, &config_));
+            if (next_chain.size()) {
+                called = true;
+                construct_alignment_chain(query, std::move(next_chain), it + 1,
+                                          end, best_score, callback);
+            }
+        }
+    }
+
+    if (!called)
+        callback(std::move(chain));
 }
 
 
diff --git a/metagraph/src/graph/alignment/aligner_alignment.cpp b/metagraph/src/graph/alignment/aligner_alignment.cpp
index 758844e535..74d3ebdaab 100644
--- a/metagraph/src/graph/alignment/aligner_alignment.cpp
+++ b/metagraph/src/graph/alignment/aligner_alignment.cpp
@@ -5,6 +5,7 @@
 #include "graph/representation/canonical_dbg.hpp"
 #include "common/logger.hpp"
 #include "common/seq_tools/reverse_complement.hpp"
+#include "graph/representation/rc_dbg.hpp"
 
 
 namespace mtg {
@@ -14,100 +15,170 @@ namespace align {
 using mtg::common::logger;
 
 
-template <typename NodeType>
-Alignment<NodeType>::Alignment(std::string_view query,
-                               std::vector<NodeType>&& nodes,
-                               std::string&& sequence,
-                               score_t score,
-                               size_t clipping,
-                               bool orientation,
-                               size_t offset)
+Alignment::Alignment(std::string_view query,
+                     std::vector<node_index>&& nodes,
+                     std::string&& sequence,
+                     score_t score,
+                     size_t clipping,
+                     bool orientation,
+                     size_t offset)
       : query_(query), nodes_(std::move(nodes)), sequence_(std::move(sequence)),
-        score_(score), orientation_(orientation), offset_(offset) {
-    size_t min_length = std::min(query_.size(), sequence_.size());
-
-    cigar_ = std::inner_product(
-        query_.data(),
-        query_.data() + min_length,
-        sequence_.c_str(),
-        Cigar(Cigar::CLIPPED, clipping),
-        [&](Cigar &cigar, bool equal) -> Cigar& {
-            cigar.append(equal ? Cigar::MATCH : Cigar::MISMATCH);
-            return cigar;
-        },
-        std::equal_to<char>()
-    );
+        score_(score),
+        orientation_(orientation),
+        offset_(offset) {
+    assert(query_.size() == sequence_.size());
+    cigar_ = std::inner_product(query_.begin(), query_.end(), sequence_.begin(),
+                                Cigar(Cigar::CLIPPED, clipping),
+                                [&](Cigar &cigar, bool equal) -> Cigar& {
+                                    cigar.append(equal ? Cigar::MATCH : Cigar::MISMATCH);
+                                    return cigar;
+                                },
+                                std::equal_to<char>());
+}
+
+std::ostream& operator<<(std::ostream& out, const Alignment &alignment) {
+    out << fmt::format("{}\t{}\t{}\t{}\t{}\t{}",
+                       (alignment.get_orientation() ? "-" : "+"),
+                       alignment.get_sequence(),
+                       alignment.get_score(),
+                       alignment.get_cigar().get_num_matches(),
+                       alignment.get_cigar().to_string(),
+                       alignment.get_offset());
 
-    assert(!(query_.size() - min_length) || (sequence_.size() - min_length));
-    cigar_.append(Cigar::INSERTION, query_.size() - min_length);
-    cigar_.append(Cigar::DELETION, sequence_.size() - min_length);
+    return out;
 }
 
-template <typename NodeType>
-void Alignment<NodeType>::append(Alignment&& other) {
-    assert(query_.data() + query_.size() == other.query_.data());
+void Alignment::append(Alignment&& other) {
+    assert(query_.data() + query_.size() + other.get_clipping() == other.query_.data());
     assert(orientation_ == other.orientation_);
-    assert(cigar_.empty() || cigar_.back().first != Cigar::CLIPPED);
 
     nodes_.insert(nodes_.end(), other.nodes_.begin(), other.nodes_.end());
     sequence_ += std::move(other.sequence_);
     score_ += other.score_;
 
     cigar_.append(std::move(other.cigar_));
-    query_ = { query_.data(), query_.size() + other.query_.size() };
+
+    // expand the query window to cover both alignments
+    query_ = std::string_view(query_.data(), other.query_.end() - query_.begin());
 }
 
-template <typename NodeType>
-void Alignment<NodeType>::trim_offset() {
-    if (!offset_ || empty() || cigar_.empty())
-        return;
+size_t Alignment::trim_offset() {
+    assert(std::find(nodes_.begin(), nodes_.end(), DeBruijnGraph::npos) == nodes_.end()
+            && "chains not supported");
 
-    auto it = cigar_.begin();
-    if (it->first == Cigar::CLIPPED)
-        ++it;
+    if (!offset_ || nodes_.size() <= 1)
+        return 0;
 
-    if (it == cigar_.end())
-        return;
+    size_t trim = std::min(offset_, nodes_.size() - 1);
+    offset_ -= trim;
+    nodes_.erase(nodes_.begin(), nodes_.begin() + trim);
+    return trim;
+}
 
-    auto jt = nodes_.begin();
-    size_t counter = 0;
-    while (offset_ && it != cigar_.end() && jt != nodes_.end()) {
-        if (counter == it->second
-                || it->first == Cigar::CLIPPED
-                || it->first == Cigar::INSERTION) {
-            ++it;
-            counter = 0;
-            continue;
+size_t Alignment::trim_query_prefix(size_t n,
+                                    const DeBruijnGraph &graph,
+                                    const DBGAlignerConfig &config) {
+    assert(!offset_);
+
+    size_t clipping = get_clipping() + n;
+
+    auto it = cigar_.data().begin() + static_cast<bool>(clipping);
+    size_t cigar_offset = 0;
+
+    auto s_it = sequence_.begin();
+    auto node_it = nodes_.begin();
+
+    size_t offset_cutoff = graph.get_k() - 1;
+
+    auto consume_ref = [&]() {
+        assert(s_it != sequence_.end());
+        ++s_it;
+        if (offset_ < offset_cutoff) {
+            ++offset_;
+        } else if (node_it + 1 < nodes_.end()) {
+            ++node_it;
+        } else {
+            *this = Alignment();
         }
+    };
 
-        size_t jump = std::min({ offset_, static_cast<size_t>(it->second),
-                                          static_cast<size_t>(nodes_.end() - jt) });
-        offset_ -= jump;
-        counter += jump;
-        jt += jump;
-    }
+    while (n) {
+        if (it == cigar_.data().end()) {
+            *this = Alignment();
+            return 0;
+        }
+
+        switch (it->first) {
+            case Cigar::MATCH:
+            case Cigar::MISMATCH: {
+                assert(s_it != sequence_.end());
+                score_ -= config.get_row(query_[0])[*s_it];
+                query_.remove_prefix(1);
+                --n;
+                consume_ref();
+                if (empty())
+                    return 0;
+            } break;
+            case Cigar::INSERTION: {
+                score_ -= it->second - cigar_offset == 1
+                    ? config.gap_opening_penalty
+                    : config.gap_extension_penalty;
+                query_.remove_prefix(1);
+                --n;
+            } break;
+            case Cigar::DELETION: {
+                score_ -= it->second - cigar_offset == 1
+                    ? config.gap_opening_penalty
+                    : config.gap_extension_penalty;
+                consume_ref();
+                if (empty())
+                    return 0;
+            } break;
+            case Cigar::CLIPPED:
+            case Cigar::NODE_INSERTION: {
+                assert(false && "trimming chains not supported");
+            } break;
+        }
 
-    if (jt == nodes_.end()) {
-        --jt;
-        ++offset_;
+        ++cigar_offset;
+        if (cigar_offset == it->second) {
+            ++it;
+            cigar_offset = 0;
+        }
     }
 
-    nodes_.erase(nodes_.begin(), jt);
-}
+    nodes_.erase(nodes_.begin(), node_it);
+    sequence_.erase(sequence_.begin(), s_it);
+    it->second -= cigar_offset;
+    cigar_.data().erase(cigar_.data().begin(), it);
 
-template <typename NodeType>
-void Alignment<NodeType>::reverse_complement(const DeBruijnGraph &graph,
-                                             std::string_view query_rev_comp) {
-    assert(graph.get_mode() == DeBruijnGraph::CANONICAL);
+    assert(is_valid(graph, &config));
 
-    if (empty())
-        return;
+    return cigar_offset;
+}
 
+void Alignment::reverse_complement(const DeBruijnGraph &graph,
+                                   std::string_view query_rev_comp) {
     assert(query_.size() + get_end_clipping() == query_rev_comp.size() - get_clipping());
-    assert(is_valid(graph));
 
     trim_offset();
-    assert(is_valid(graph));
+    assert(!offset_ || nodes_.size() == 1);
+
+    if (dynamic_cast<const RCDBG*>(&graph)) {
+        if (offset_) {
+            *this = Alignment();
+        } else {
+            std::reverse(cigar_.data().begin(), cigar_.data().end());
+            std::reverse(nodes_.begin(), nodes_.end());
+            ::reverse_complement(sequence_.begin(), sequence_.end());
+            assert(query_rev_comp.size() >= get_clipping() + get_end_clipping());
+
+            orientation_ = !orientation_;
+            query_ = { query_rev_comp.data() + get_clipping(),
+                       query_rev_comp.size() - get_clipping() - get_end_clipping() };
+        }
+        return;
+    }
 
     if (!offset_) {
         reverse_complement_seq_path(graph, sequence_, nodes_);
@@ -125,9 +196,7 @@ void Alignment<NodeType>::reverse_complement(const DeBruijnGraph &graph,
             // from the node prefix are not included).
 
             const auto *canonical = dynamic_cast<const CanonicalDBG*>(&graph);
-            const auto &dbg_succ = dynamic_cast<const DBGSuccinct&>(
-                canonical ? canonical->get_graph() : graph
-            );
+            const auto &dbg_succ = dynamic_cast<const DBGSuccinct&>(graph.get_base_graph());
 
             size_t num_sentinels = sequence_.find_last_of(boss::BOSS::kSentinel) + 1;
             assert(offset_ >= num_sentinels);
@@ -167,9 +236,9 @@ void Alignment<NodeType>::reverse_complement(const DeBruijnGraph &graph,
             }
 
             for (size_t i = num_first_steps; i < offset_; ++i) {
-                NodeType next_node = 0;
+                node_index next_node = 0;
                 char last_char;
-                canonical->call_outgoing_kmers(nodes_[0], [&](NodeType next, char c) {
+                canonical->call_outgoing_kmers(nodes_[0], [&](node_index next, char c) {
                     if (c == boss::BOSS::kSentinel)
                         return;
 
@@ -210,7 +279,7 @@ void Alignment<NodeType>::reverse_complement(const DeBruijnGraph &graph,
             // trim off ending from reverse complement (corresponding to the added prefix)
             for (size_t i = 0; i < offset_; ++i) {
                 size_t indegree = 0;
-                graph.adjacent_incoming_nodes(nodes_[0], [&](NodeType prev) {
+                graph.adjacent_incoming_nodes(nodes_[0], [&](node_index prev) {
                     ++indegree;
 
                     // TODO: there are multiple possible reverse complements, which
@@ -235,7 +304,7 @@ void Alignment<NodeType>::reverse_complement(const DeBruijnGraph &graph,
         assert(graph.get_node_sequence(nodes_[0]).substr(offset_) == sequence_);
     }
 
-    std::reverse(cigar_.begin(), cigar_.end());
+    std::reverse(cigar_.data().begin(), cigar_.data().end());
     assert(query_rev_comp.size() >= get_clipping() + get_end_clipping());
 
     orientation_ = !orientation_;
@@ -246,20 +315,18 @@ void Alignment<NodeType>::reverse_complement(const DeBruijnGraph &graph,
 
 // derived from:
 // https://github.com/maickrau/GraphAligner/blob/236e1cf0514cfa9104e9a3333cdc1c43209c3c5a/src/vg.proto
-template <typename NodeType>
-Json::Value Alignment<NodeType>::path_json(size_t node_size,
-                                           std::string_view label) const {
+Json::Value Alignment::path_json(size_t node_size, std::string_view label) const {
     assert(nodes_.size());
 
     Json::Value path;
 
-    auto cigar_it = cigar_.begin();
+    auto cigar_it = cigar_.data().begin();
     if (cigar_.size() && cigar_it->first == Cigar::CLIPPED) {
         cigar_it++;
     }
 
     size_t cigar_offset = 0;
-    assert(cigar_it != cigar_.end());
+    assert(cigar_it != cigar_.data().end());
 
     int64_t rank = 1;
     const char *query_start = query_.data();
@@ -283,7 +350,7 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
     mapping["position"] = position;
 
     // handle alignment to the first node
-    while (cur_pos < node_size && cigar_it != cigar_.end()) {
+    while (cur_pos < node_size && cigar_it != cigar_.data().end()) {
         assert(cigar_it->second > cigar_offset);
         size_t next_pos = std::min(node_size,
                                    cur_pos + (cigar_it->second - cigar_offset));
@@ -323,9 +390,12 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
             case Cigar::CLIPPED: {
                 ++cigar_it;
                 cigar_offset = 0;
-                assert(cigar_it == cigar_.end());
+                assert(cigar_it == cigar_.data().end());
                 continue;
-            }
+            } break;
+            case Cigar::NODE_INSERTION: {
+                assert(false && "this should not be reached");
+            } break;
         }
 
         cigar_offset += next_size;
@@ -344,7 +414,7 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
 
     // handle the rest of the alignment
     for (auto node_it = nodes_.begin() + 1; node_it != nodes_.end(); ++node_it) {
-        assert(cigar_it != cigar_.end());
+        assert(cigar_it != cigar_.data().end());
         assert(cigar_it->second > cigar_offset);
 
         Json::Value mapping;
@@ -355,7 +425,7 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
         //position["is_reverse"] = false;
         mapping["position"] = position;
 
-        if (cigar_it->first == Cigar::INSERTION) {
+        if (cigar_it->first == Cigar::INSERTION || cigar_it->first == Cigar::CLIPPED) {
             Json::Value edit;
             size_t length = cigar_it->second - cigar_offset;
             assert(query_start + length < query_end);
@@ -367,7 +437,7 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
             ++cigar_it;
             cigar_offset = 0;
             mapping["edit"].append(edit);
-            assert(cigar_it != cigar_.end());
+            assert(cigar_it != cigar_.data().end());
         }
 
         Json::Value edit;
@@ -389,7 +459,8 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
                 query_start++;
             } break;
             case Cigar::INSERTION:
-            case Cigar::CLIPPED: assert(false); break;
+            case Cigar::NODE_INSERTION:
+            case Cigar::CLIPPED: assert(false && "this should not be reached"); break;
         }
 
         if (++cigar_offset == cigar_it->second) {
@@ -403,8 +474,8 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
     }
 
     assert(query_start == query_end);
-    assert(cigar_it == cigar_.end()
-            || (cigar_it + 1 == cigar_.end() && cigar_it->first == Cigar::CLIPPED));
+    assert(cigar_it == cigar_.data().end()
+            || (cigar_it + 1 == cigar_.data().end() && cigar_it->first == Cigar::CLIPPED));
 
     path["length"] = Json::Value::UInt64(nodes_.size());
 
@@ -417,13 +488,16 @@ Json::Value Alignment<NodeType>::path_json(size_t node_size,
     return path;
 }
 
-template <typename NodeType>
-Json::Value Alignment<NodeType>::to_json(std::string_view full_query,
-                                         const DeBruijnGraph &graph,
-                                         bool is_secondary,
-                                         std::string_view read_name,
-                                         std::string_view label) const {
+Json::Value Alignment::to_json(std::string_view full_query,
+                               const DeBruijnGraph &graph,
+                               bool is_secondary,
+                               std::string_view read_name,
+                               std::string_view label) const {
     assert(is_valid(graph));
+    if (sequence_.find("$") != std::string::npos
+            || std::find(nodes_.begin(), nodes_.end(), DeBruijnGraph::npos) != nodes_.end()) {
+        throw std::runtime_error("JSON output for chains not supported");
+    }
 
     // encode alignment
     Json::Value alignment;
@@ -458,7 +532,7 @@ Json::Value Alignment<NodeType>::to_json(std::string_view full_query,
         alignment["is_secondary"] = is_secondary;
 
     alignment["identity"] = query_.size()
-        ? static_cast<double>(get_num_matches()) / query_.size()
+        ? static_cast<double>(cigar_.get_num_matches()) / query_.size()
         : 0;
 
     alignment["read_mapped"] = static_cast<bool>(query_.size());
@@ -466,10 +540,6 @@ Json::Value Alignment<NodeType>::to_json(std::string_view full_query,
     if (orientation_)
         alignment["read_on_reverse_strand"] = orientation_;
 
-    if (label.data())
-        alignment["sample_name"] = std::string(label);
-
-
     // Unused flags (for now)
     //alignment["quality"]; // bytes
     //alignment["mapping_quality"]; // int32
@@ -497,10 +567,9 @@ Json::Value Alignment<NodeType>::to_json(std::string_view full_query,
     return alignment;
 }
 
-template <typename NodeType>
-std::shared_ptr<const std::string> Alignment<NodeType>
+std::shared_ptr<const std::string> Alignment
 ::load_from_json(const Json::Value &alignment, const DeBruijnGraph &graph) {
-    cigar_.clear();
+    cigar_ = Cigar();
     nodes_.clear();
     sequence_.clear();
 
@@ -526,13 +595,11 @@ ::load_from_json(const Json::Value &alignment, const DeBruijnGraph &graph) {
         if (nodes_.size() == 1) {
             sequence_ = graph.get_node_sequence(nodes_.back()).substr(offset_);
         } else {
-            graph.call_outgoing_kmers(
-                *(nodes_.rbegin() + 1),
-                [&](auto node, char c) {
-                    if (node == nodes_.back())
-                        sequence_ += c;
-                }
-            );
+            graph.call_outgoing_kmers(*(nodes_.rbegin() + 1),
+                                      [&](auto node, char c) {
+                if (node == nodes_.back())
+                    sequence_.push_back(c);
+            });
         }
         const Json::Value &edits = mapping[i]["edit"];
 
@@ -584,6 +651,90 @@ ::load_from_json(const Json::Value &alignment, const DeBruijnGraph &graph) {
     return query_sequence;
 }
 
+void Alignment::insert_gap_prefix(ssize_t gap_length,
+                                  const DeBruijnGraph &graph,
+                                  const DBGAlignerConfig &config) {
+    size_t extra_nodes = graph.get_k();
+
+    if (gap_length < 0) {
+        // alignments overlap
+        // extra_nodes = k - 1 - matching_overlap
+        // e.g.,
+        // k = 4
+        // overlap = 4
+        // matching overlap = 2
+        // ATGCTATGCA
+        //       ACCAACGACT
+
+        trim_clipping();
+        assert(extra_nodes + gap_length > 1);
+        extra_nodes += gap_length - 1;
+
+        if (offset_) {
+            // if there are suffix-mapped nodes, only keep the ones that are
+            // part of the overlap
+            assert(static_cast<ssize_t>(offset_) >= -gap_length);
+            nodes_.erase(nodes_.begin(), nodes_.begin() + offset_ + gap_length);
+        }
+
+        if (extra_nodes) {
+            // they can't be joined since the overlap is too small
+            // ATGCTATGCA
+            //           ACGACT
+            //       TGCA
+            //        GCAA - added
+            //         CAAC
+            //          AACG
+            //           ACGA
+            score_ += config.gap_opening_penalty
+                + (extra_nodes - 1) * config.gap_extension_penalty;
+            cigar_.data().insert(cigar_.data().begin(),
+                                 Cigar::value_type{ Cigar::NODE_INSERTION, extra_nodes });
+        }
+    } else {
+        // no overlap
+        // extra_nodes = k
+        // e.g.,
+        // k = 4
+        // gap = 2
+        // ATGCTATGCA
+        //             ACGTACGACT
+        //       TGCA
+        //        GCA$ - added
+        //         CA$A - added
+        //          A$AC - added
+        //           $ACG - added
+        //            ACGT
+
+        assert(get_clipping() >= gap_length);
+        trim_clipping();
+
+        sequence_ = std::string(1, '$') + sequence_;
+        cigar_.data().insert(cigar_.data().begin(), Cigar::value_type{ Cigar::DELETION, 1 });
+        score_ += config.gap_opening_penalty;
+
+        if (static_cast<size_t>(gap_length) < graph.get_k()) {
+            // overlap is small, so add only the required dummy nods
+            trim_offset();
+            assert(extra_nodes >= 2);
+            score_ += config.gap_opening_penalty
+                + (extra_nodes - 2) * config.gap_extension_penalty;
+            cigar_.data().insert(
+                cigar_.data().begin(),
+                Cigar::value_type{ Cigar::NODE_INSERTION, extra_nodes - 1 }
+            );
+        }
+
+        extend_query_begin(query_.data() - gap_length);
+    }
+
+    nodes_.insert(nodes_.begin(), extra_nodes, DeBruijnGraph::npos);
+
+    assert(nodes_.size() == sequence_.size());
+    offset_ = graph.get_k() - 1;
+}
+
+
 bool spell_path(const DeBruijnGraph &graph,
                 const std::vector<DeBruijnGraph::node_index> &path,
                 std::string &seq,
@@ -593,36 +744,50 @@ bool spell_path(const DeBruijnGraph &graph,
     if (path.empty())
         return "";
 
-    if (std::find(path.begin(), path.end(), DeBruijnGraph::npos) != path.end()) {
-        std::cerr << "ERROR: path has invalid nodes\n";
-
-        for (DeBruijnGraph::node_index node : path) {
-            std::cerr << node << " ";
-        }
-
-        std::cerr << std::endl;
-
-        return false;
-    }
-
     seq.clear();
     seq.reserve(path.size() + graph.get_k() - 1 - offset);
 
-    seq += graph.get_node_sequence(path.front()).substr(offset);
+    size_t num_dummy = 0;
+    if (path.front()) {
+        seq += graph.get_node_sequence(path.front()).substr(offset);
+    } else {
+        seq += std::string(graph.get_k() - offset, '$');
+        num_dummy = 1;
+    }
 
     for (size_t i = 1; i < path.size(); ++i) {
-        char next = '\0';
-        graph.call_outgoing_kmers(path[i - 1], [&](auto next_node, char c) {
-            if (next_node == path[i])
-                next = c;
-        });
-
-        if (!next) {
-            std::cerr << "ERROR: invalid edge " << path[i - 1] << " " << path[i] << std::endl;
+        if (num_dummy > graph.get_k()) {
+            logger->error("Too many dummy nodes\n{}", fmt::join(path, " "));
             return false;
         }
 
-        seq += next;
+        if (path[i]) {
+            if (num_dummy) {
+                seq += '$';
+                std::string next_seq = graph.get_node_sequence(path[i]);
+                std::copy(next_seq.begin(), next_seq.end(), seq.end() - next_seq.size());
+                num_dummy = 0;
+            } else {
+                char next = '\0';
+                graph.call_outgoing_kmers(path[i - 1], [&](auto next_node, char c) {
+                    if (next_node == path[i])
+                        next = c;
+                });
+
+                if (!next) {
+                    logger->error("Invalid edge {} {}\t{} {}",
+                                  path[i - 1], path[i],
+                                  graph.get_node_sequence(path[i - 1]),
+                                  graph.get_node_sequence(path[i]));
+                    return false;
+                }
+
+                seq += next;
+            }
+        } else {
+            seq += '$';
+            ++num_dummy;
+        }
     }
 
     assert(seq.size() == path.size() + graph.get_k() - 1 - offset);
@@ -630,9 +795,7 @@ bool spell_path(const DeBruijnGraph &graph,
     return true;
 }
 
-template <typename NodeType>
-bool Alignment<NodeType>::is_valid(const DeBruijnGraph &graph,
-                                   const DBGAlignerConfig *config) const {
+bool Alignment::is_valid(const DeBruijnGraph &graph, const DBGAlignerConfig *config) const {
     std::string path;
     if (!spell_path(graph, nodes_, path, offset_)) {
         std::cerr << *this << std::endl;
@@ -664,36 +827,34 @@ bool Alignment<NodeType>::is_valid(const DeBruijnGraph &graph,
 }
 
 
-template <typename NodeType>
-QueryAlignment<NodeType>::QueryAlignment(std::string_view query,
-                                         bool is_reverse_complement)
-          : query_(new std::string()), query_rc_(new std::string()) {
+QueryAlignment::QueryAlignment(std::string_view query, bool is_reverse_complement) {
     // pad sequences for easier access in 64-bit blocks
-    query_->reserve(query.size() + 8);
-    query_->resize(query.size());
-    query_rc_->reserve(query.size() + 8);
-    query_rc_->resize(query.size());
+    std::string query_padded;
+    query_padded.reserve(query.size() + 8);
 
     // TODO: use alphabet encoder
     // transform to upper and fix non-standard characters
-    std::transform(query.begin(), query.end(), query_->begin(), [](char c) {
-        return c >= 0 ? toupper(c) : 127;
-    });
+    std::transform(query.begin(), query.end(), std::back_inserter(query_padded),
+                   [](char c) { return c >= 0 ? toupper(c) : 127; });
 
     // fill padding with '\0'
-    memset(query_->data() + query_->size(), '\0', query_->capacity() - query_->size());
+    memset(query_padded.data() + query.size(), '\0', query_padded.capacity() - query.size());
 
     // set the reverse complement
-    memcpy(query_rc_->data(), query_->data(), query_->capacity());
-    reverse_complement(query_rc_->begin(), query_rc_->end());
+    std::string query_rc_padded(query_padded);
 
-    if (is_reverse_complement)
-        std::swap(query_, query_rc_);
-}
+    // fill padding just in case optimizations removed it
+    query_rc_padded.reserve(query.size() + 8);
+    memset(query_rc_padded.data() + query.size(), '\0', query_rc_padded.capacity() - query.size());
 
+    // reverse complement
+    reverse_complement(query_rc_padded.begin(), query_rc_padded.end());
+    if (is_reverse_complement)
+        std::swap(query_padded, query_rc_padded);
 
-template class Alignment<>;
-template class QueryAlignment<>;
+    query_ = std::make_shared<const std::string>(std::move(query_padded));
+    query_rc_ = std::make_shared<const std::string>(std::move(query_rc_padded));
+}
 
 } // namespace align
 } // namespace graph
diff --git a/metagraph/src/graph/alignment/aligner_alignment.hpp b/metagraph/src/graph/alignment/aligner_alignment.hpp
index 28831a10e7..fbd6491f42 100644
--- a/metagraph/src/graph/alignment/aligner_alignment.hpp
+++ b/metagraph/src/graph/alignment/aligner_alignment.hpp
@@ -11,61 +11,38 @@
 
 #include "aligner_cigar.hpp"
 #include "aligner_config.hpp"
+#include "graph/representation/base/sequence_graph.hpp"
 
 
 namespace mtg {
 namespace graph {
-
-class DeBruijnGraph;
-
 namespace align {
 
 // Note: this object stores pointers to the query sequence, so it is the user's
 //       responsibility to ensure that the query sequence is not destroyed when
 //       calling this class' methods
-template <typename NodeType = uint64_t>
 class Alignment {
   public:
-    typedef NodeType node_index;
+    typedef DeBruijnGraph::node_index node_index;
     typedef DBGAlignerConfig::score_t score_t;
 
+    Alignment() {}
+
     Alignment(std::string_view query,
-              std::vector<NodeType>&& nodes = {},
-              std::string&& sequence = "",
-              score_t score = 0,
-              Cigar&& cigar = Cigar(),
+              std::vector<node_index>&& nodes,
+              std::string&& sequence,
+              score_t score,
+              Cigar&& cigar,
               size_t clipping = 0,
               bool orientation = false,
               size_t offset = 0)
-          : query_(query),
-            nodes_(std::move(nodes)),
-            sequence_(std::move(sequence)),
-            score_(score),
-            cigar_(Cigar::CLIPPED, clipping),
-            orientation_(orientation),
+          : query_(query), nodes_(std::move(nodes)), sequence_(std::move(sequence)),
+            score_(score), cigar_(Cigar::CLIPPED, clipping), orientation_(orientation),
             offset_(offset) { cigar_.append(std::move(cigar)); }
 
-    // Used for constructing seeds
-    Alignment(std::string_view query = {},
-              std::vector<NodeType>&& nodes = {},
-              score_t score = 0,
-              size_t clipping = 0,
-              bool orientation = false,
-              size_t offset = 0)
-          : Alignment(query,
-                      std::move(nodes),
-                      std::string(query),
-                      score,
-                      Cigar(Cigar::MATCH, query.size()),
-                      clipping,
-                      orientation,
-                      offset) {
-        assert(nodes.empty() || clipping || is_exact_match());
-    }
-
-    // Used for constructing exact match seeds
+    // Used for constructing gapless Alignments
     Alignment(std::string_view query,
-              std::vector<NodeType>&& nodes,
+              std::vector<node_index>&& nodes,
               std::string&& sequence,
               score_t score,
               size_t clipping = 0,
@@ -76,54 +53,39 @@ class Alignment {
 
     size_t size() const { return nodes_.size(); }
     bool empty() const { return nodes_.empty(); }
-    const std::vector<NodeType>& get_nodes() const { return nodes_; }
-    const NodeType& operator[](size_t i) const { return nodes_[i]; }
-    const NodeType& front() const { return nodes_.front(); }
-    const NodeType& back() const { return nodes_.back(); }
+    const std::vector<node_index>& get_nodes() const { return nodes_; }
 
     score_t get_score() const { return score_; }
-    uint64_t get_num_matches() const { return cigar_.get_num_matches(); }
 
     std::string_view get_query() const { return query_; }
 
-    void set_query_begin(const char *begin) { query_ = { begin, query_.size() }; }
-
     void extend_query_begin(const char *begin) {
-        size_t clipping = get_clipping();
-        const char *full_query_begin = query_.data() - clipping;
-        assert(begin <= full_query_begin);
-        if (begin == full_query_begin)
-            return;
-
-        if (clipping) {
-            cigar_.front().second += full_query_begin - begin;
-        } else {
-            cigar_.insert(cigar_.begin(),
-                          std::make_pair(Cigar::CLIPPED, full_query_begin - begin));
-        }
+        const char *full_query_begin = query_.data() - get_clipping();
+        assert(full_query_begin >= begin);
+        if (full_query_begin > begin)
+            cigar_.extend_clipping(full_query_begin - begin);
     }
 
     void extend_query_end(const char *end) {
         const char *full_query_end = query_.data() + query_.size() + get_end_clipping();
-        assert(end >= full_query_end);
-        if (end > full_query_end)
+        assert(full_query_end <= end);
+        if (full_query_end < end)
             cigar_.append(Cigar::CLIPPED, end - full_query_end);
     }
 
-    void trim_clipping() {
-        if (get_clipping())
-            cigar_.pop_front();
-    }
+    inline size_t trim_clipping() { return cigar_.trim_clipping(); }
+    inline size_t trim_end_clipping() { return cigar_.trim_end_clipping(); }
 
-    void trim_end_clipping() {
-        if (get_end_clipping())
-            cigar_.pop_back();
-    }
+    size_t trim_offset();
+
+    size_t trim_query_prefix(size_t n, const DeBruijnGraph &graph, const DBGAlignerConfig &config);
 
-    void trim_offset();
+    // When chaining together two alignments, use this method to adapt the prefix
+    // of this alignment so it can be appended to the first one.
+    // a negative gap indicates an overlap
+    void insert_gap_prefix(ssize_t gap_length, const DeBruijnGraph &graph, const DBGAlignerConfig &config);
 
-    void reverse_complement(const DeBruijnGraph &graph,
-                            std::string_view query_rev_comp);
+    void reverse_complement(const DeBruijnGraph &graph, std::string_view query_rev_comp);
 
     const std::string& get_sequence() const { return sequence_; }
     const Cigar& get_cigar() const { return cigar_; }
@@ -132,44 +94,36 @@ class Alignment {
     Cigar::LengthType get_clipping() const { return cigar_.get_clipping(); }
     Cigar::LengthType get_end_clipping() const { return cigar_.get_end_clipping(); }
 
-    typedef typename std::vector<NodeType>::iterator iterator;
-    typedef typename std::vector<NodeType>::const_iterator const_iterator;
-
-    const_iterator begin() const { return nodes_.cbegin(); }
-    const_iterator end() const { return nodes_.cend(); }
-
     bool operator==(const Alignment &other) const {
         return orientation_ == other.orientation_
+            && offset_ == other.offset_
             && score_ == other.score_
-            && sequence_ == other.sequence_
             && query_ == other.query_
-            && cigar_ == other.cigar_;
+            && sequence_ == other.sequence_
+            && cigar_ == other.cigar_
+            && nodes_ == other.nodes_;
     }
 
     bool operator!=(const Alignment &other) const { return !(*this == other); }
 
-    bool is_exact_match() const {
-        return cigar_.size() == 1
-            && cigar_.front() == Cigar::value_type(Cigar::MATCH, query_.size());
-    }
-
     Json::Value to_json(std::string_view query,
                         const DeBruijnGraph &graph,
                         bool is_secondary = false,
                         std::string_view name = {},
                         std::string_view label = {}) const;
 
-    std::shared_ptr<const std::string>
-    load_from_json(const Json::Value &alignment,
-                   const DeBruijnGraph &graph);
+    // returns a shared_ptr of the query string which is referenced in this object
+    std::shared_ptr<const std::string> load_from_json(const Json::Value &alignment,
+                                                      const DeBruijnGraph &graph);
 
     bool is_valid(const DeBruijnGraph &graph, const DBGAlignerConfig *config = nullptr) const;
 
   private:
     Json::Value path_json(size_t node_size, std::string_view label = {}) const;
 
+    // TODO: rename to query_view_
     std::string_view query_;
-    std::vector<NodeType> nodes_;
+    std::vector<node_index> nodes_;
     std::string sequence_;
     score_t score_;
     Cigar cigar_;
@@ -177,26 +131,10 @@ class Alignment {
     size_t offset_;
 };
 
-template <typename NodeType>
-std::ostream& operator<<(std::ostream& out, const Alignment<NodeType> &alignment) {
-    out << (alignment.get_orientation() ? "-" : "+") << "\t"
-        << alignment.get_sequence() << "\t"
-        << alignment.get_score() << "\t"
-        << alignment.get_num_matches() << "\t"
-        << alignment.get_cigar().to_string() << "\t"
-        << alignment.get_offset();
-
-    return out;
-}
-
-bool spell_path(const DeBruijnGraph &graph,
-                const std::vector<uint64_t> &path,
-                std::string &seq,
-                size_t offset = 0);
+std::ostream& operator<<(std::ostream& out, const Alignment &alignment);
 
 struct LocalAlignmentLess {
-    template <typename NodeType>
-    bool operator()(const Alignment<NodeType> &a, const Alignment<NodeType> &b) {
+    bool operator()(const Alignment &a, const Alignment &b) const {
         // 1) score is less, or
         // 2) more of the query is covered, or
         // 3) if it is in the reverse orientation, or
@@ -209,8 +147,7 @@ struct LocalAlignmentLess {
 };
 
 struct LocalAlignmentGreater {
-    template <typename NodeType>
-    bool operator()(const Alignment<NodeType> &a, const Alignment<NodeType> &b) {
+    bool operator()(const Alignment &a, const Alignment &b) const {
         // 1) score is higher, or
         // 2) less of the query is covered, or
         // 3) if it is in the forward orientation, or
@@ -222,47 +159,48 @@ struct LocalAlignmentGreater {
     }
 };
 
-
-template <typename NodeType = uint64_t>
+// A container holding many alignments to a shared query sequence. Each alignment
+// only holds a string_view to the query, so this class ensures that the query sequence
+// is always accessible.
+// TODO: rename to AlignmentResults
 class QueryAlignment {
   public:
-    typedef typename std::vector<Alignment<NodeType>>::const_iterator const_iterator;
+    explicit QueryAlignment(std::string_view query, bool is_reverse_complement = false);
 
-    QueryAlignment(std::string_view query, bool is_reverse_complement = false);
-
-    size_t size() const { return alignments_.size(); }
-    bool empty() const { return alignments_.empty(); }
+    explicit QueryAlignment(std::shared_ptr<const std::string> query,
+                            std::shared_ptr<const std::string> query_rc)
+          : query_(query), query_rc_(query_rc) {}
 
     template <typename... Args>
     void emplace_back(Args&&... args) {
         alignments_.emplace_back(std::forward<Args>(args)...);
 
-#ifndef NDEBUG
-        const auto &added = alignments_.back();
-        const std::string &this_query = get_query(added.get_orientation());
-        assert(added.get_query().data() >= this_query.c_str());
-        assert(added.get_query().data() + added.get_query().size()
-                    <= this_query.c_str() + this_query.size());
-#endif
+        assert(alignments_.back().get_query().data()
+            >= get_query(alignments_.back().get_orientation()).c_str());
+        assert(alignments_.back().get_query().data() + alignments_.back().get_query().size()
+            <= get_query(alignments_.back().get_orientation()).c_str()
+                + get_query(alignments_.back().get_orientation()).size());
     }
 
-    void pop_back() { alignments_.pop_back(); }
-    void clear() { alignments_.clear(); }
+    std::shared_ptr<const std::string> get_query_ptr(bool reverse_complement = false) const {
+        return !reverse_complement ? query_ : query_rc_;
+    }
 
     const std::string& get_query(bool reverse_complement = false) const {
-        return !reverse_complement ? *query_ : *query_rc_;
+        return *get_query_ptr(reverse_complement);
     }
 
-    const Alignment<NodeType>& operator[](size_t i) const { return alignments_[i]; }
-    const_iterator begin() const { return alignments_.cbegin(); }
-    const_iterator end() const { return alignments_.cend(); }
-    const_iterator cbegin() const { return alignments_.cbegin(); }
-    const_iterator cend() const { return alignments_.cend(); }
+    size_t size() const { return alignments_.size(); }
+    bool empty() const { return alignments_.empty(); }
+    const Alignment& operator[](size_t i) const { return alignments_[i]; }
+
+    std::vector<Alignment>& data() { return alignments_; }
+    const std::vector<Alignment>& data() const { return alignments_; }
 
   private:
-    std::shared_ptr<std::string> query_;
-    std::shared_ptr<std::string> query_rc_;
-    std::vector<Alignment<NodeType>> alignments_;
+    std::shared_ptr<const std::string> query_;
+    std::shared_ptr<const std::string> query_rc_;
+    std::vector<Alignment> alignments_;
 };
 
 } // namespace align
diff --git a/metagraph/src/graph/alignment/aligner_cigar.cpp b/metagraph/src/graph/alignment/aligner_cigar.cpp
index 322029e72c..91373ed61c 100644
--- a/metagraph/src/graph/alignment/aligner_cigar.cpp
+++ b/metagraph/src/graph/alignment/aligner_cigar.cpp
@@ -74,6 +74,9 @@ Cigar::Cigar(std::string_view cigar_str) {
                 cigar_.emplace_back(Cigar::CLIPPED, std::stol(op_count));
                 op_count.clear();
                 break;
+            case 'G':
+                cigar_.emplace_back(Cigar::NODE_INSERTION, std::stol(op_count));
+                break;
             default:
                 op_count += c;
         }
@@ -124,21 +127,26 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
         }
 
         switch (op.first) {
-            case Operator::CLIPPED: {
+            case CLIPPED: {
                 if ((ref_it != reference.begin() || alt_it != query.begin())
                         && (ref_it != reference.end() || alt_it != query.end())) {
-                    std::cerr << "Internal clipping found in CIGAR" << std::endl
-                              << to_string() << std::endl
-                              << reference << std::endl
-                              << query << std::endl;
-                    return false;
+                    if (alt_it > query.end() - op.second) {
+                        std::cerr << "Query too short after "
+                                  << Cigar::opt_to_char(op.first) << std::endl
+                                  << to_string() << std::endl
+                                  << reference << std::endl
+                                  << query << std::endl;
+                        return false;
+                    }
+
+                    alt_it += op.second;
                 }
             } break;
-            case Operator::MATCH:
-                // do nothing
-            case Operator::MISMATCH: {
+            case MATCH:
+            case MISMATCH: {
                 if (ref_it > reference.end() - op.second) {
-                    std::cerr << "Reference too short" << std::endl
+                    std::cerr << "Reference too short after "
+                              << Cigar::opt_to_char(op.first) << std::endl
                               << to_string() << std::endl
                               << reference << std::endl
                               << query << std::endl;
@@ -146,7 +154,8 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
                 }
 
                 if (alt_it > query.end() - op.second) {
-                    std::cerr << "Query too short" << std::endl
+                    std::cerr << "Query too short after "
+                              << Cigar::opt_to_char(op.first) << std::endl
                               << to_string() << std::endl
                               << reference << std::endl
                               << query << std::endl;
@@ -165,8 +174,8 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
                 ref_it += op.second;
                 alt_it += op.second;
             } break;
-            case Operator::INSERTION: {
-                if (i && cigar_[i - 1].first == Operator::DELETION) {
+            case INSERTION: {
+                if (i && cigar_[i - 1].first == DELETION) {
                     std::cerr << "INSERTION after DELETION" << std::endl
                               << to_string() << std::endl
                               << reference << std::endl
@@ -175,7 +184,8 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
                 }
 
                 if (alt_it > query.end() - op.second) {
-                    std::cerr << "Query too short" << std::endl
+                    std::cerr << "Query too short after "
+                              << Cigar::opt_to_char(op.first) << std::endl
                               << to_string() << std::endl
                               << reference << std::endl
                               << query << std::endl;
@@ -184,8 +194,8 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
 
                 alt_it += op.second;
             } break;
-            case Operator::DELETION: {
-                if (i && cigar_[i - 1].first == Operator::INSERTION) {
+            case DELETION: {
+                if (i && cigar_[i - 1].first == INSERTION) {
                     std::cerr << "DELETION after INSERTION" << std::endl
                               << to_string() << std::endl
                               << reference << std::endl
@@ -194,7 +204,8 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
                 }
 
                 if (ref_it > reference.end() - op.second) {
-                    std::cerr << "Reference too short" << std::endl
+                    std::cerr << "Reference too short after "
+                              << Cigar::opt_to_char(op.first) << std::endl
                               << to_string() << std::endl
                               << reference << std::endl
                               << query << std::endl;
@@ -203,6 +214,9 @@ bool Cigar::is_valid(std::string_view reference, std::string_view query) const {
 
                 ref_it += op.second;
             } break;
+            case NODE_INSERTION: {
+                // do nothing
+            } break;
         }
     }
 
diff --git a/metagraph/src/graph/alignment/aligner_cigar.hpp b/metagraph/src/graph/alignment/aligner_cigar.hpp
index bc82f859df..2ec792cf10 100644
--- a/metagraph/src/graph/alignment/aligner_cigar.hpp
+++ b/metagraph/src/graph/alignment/aligner_cigar.hpp
@@ -20,18 +20,20 @@ class Cigar {
         MISMATCH,
         MATCH,
         DELETION,
-        INSERTION
+        INSERTION,
+        NODE_INSERTION
     };
 
     typedef uint32_t LengthType;
     typedef std::pair<Operator, LengthType> value_type;
 
-    Cigar(Operator op = Operator::CLIPPED, LengthType num = 0)
+    Cigar(Operator op = CLIPPED, LengthType num = 0)
           : cigar_(num ? 1 : 0, std::make_pair(op, num)) { }
 
     // See section 1.4 in https://samtools.github.io/hts-specs/SAMv1.pdf for
     // a specification of the CIGAR string format.
     // e.g., 3=1X2I3D for 3 matches, 1 mismatch, 2 insertions, 3 deletions
+    // The symbol 'G' is introduced to indicate the insertion of a graph node.
     Cigar(std::string_view cigar_str);
 
     size_t size() const { return cigar_.size(); }
@@ -42,67 +44,67 @@ class Cigar {
     void append(Operator op, LengthType num = 1);
     void append(Cigar&& other);
 
-    void pop_front() {
-        assert(cigar_.size());
-        cigar_.erase(cigar_.begin(), cigar_.begin() + 1);
+    LengthType trim_clipping() {
+        if (cigar_.size() && cigar_.front().first == CLIPPED) {
+            LengthType ret_val = cigar_.front().second;
+            cigar_.erase(cigar_.begin(), cigar_.begin() + 1);
+            return ret_val;
+        } else {
+            return 0;
+        }
     }
 
-    void pop_back() {
-        assert(cigar_.size());
-        cigar_.pop_back();
+    LengthType trim_end_clipping() {
+        if (cigar_.size() && cigar_.back().first == CLIPPED) {
+            LengthType ret_val = cigar_.back().second;
+            cigar_.pop_back();
+            return ret_val;
+        } else {
+            return 0;
+        }
     }
 
-    typedef typename std::vector<value_type>::iterator iterator;
-    typedef typename std::vector<value_type>::const_iterator const_iterator;
+    LengthType get_clipping() const {
+        return cigar_.size() && cigar_.front().first == CLIPPED ? cigar_.front().second : 0;
+    }
 
-    // This is essentially just a vector, so there's no reason not to have it editable
-    iterator begin() { return cigar_.begin(); }
-    iterator end() { return cigar_.end(); }
-    const_iterator begin() const { return cigar_.cbegin(); }
-    const_iterator end() const { return cigar_.cend(); }
+    LengthType get_end_clipping() const {
+        return cigar_.size() && cigar_.back().first == CLIPPED ? cigar_.back().second : 0;
+    }
 
-    template <typename... Args>
-    void insert(iterator it, Args&&... args) {
-        cigar_.insert(it, std::forward<Args>(args)...);
+    void extend_clipping(LengthType n) {
+        assert(cigar_.size());
+        if (cigar_.front().first != CLIPPED) {
+            cigar_.insert(cigar_.begin(), value_type(CLIPPED, n));
+        } else {
+            cigar_.front().second += n;
+        }
     }
 
-    value_type& front() { return cigar_.front(); }
-    value_type& back() { return cigar_.back(); }
-    const value_type& front() const { return cigar_.front(); }
-    const value_type& back() const { return cigar_.back(); }
+    std::vector<value_type>& data() { return cigar_; }
+    const std::vector<value_type>& data() const { return cigar_; }
 
     bool operator==(const Cigar &other) const { return cigar_ == other.cigar_; }
-
     bool operator!=(const Cigar &other) const { return !(*this == other); }
 
-    void clear() { cigar_.clear(); }
-
-    LengthType get_clipping() const {
-        return cigar_.size() && cigar_.front().first == Operator::CLIPPED
-            ? cigar_.front().second
-            : 0;
-    }
-
-    LengthType get_end_clipping() const {
-        return cigar_.size() && cigar_.back().first == Operator::CLIPPED
-            ? cigar_.back().second
-            : 0;
-    }
-
     size_t get_num_matches() const {
-        return std::accumulate(begin(), end(), 0, [&](size_t old, const value_type &op) {
-            return old + (op.first == Operator::MATCH) * op.second;
+        return std::accumulate(cigar_.begin(), cigar_.end(), 0,
+                               [&](size_t old, const value_type &op) {
+            return old + (op.first == MATCH) * op.second;
         });
     }
 
-    // Return true if the cigar is valid. reference_begin points to the first
-    // character of the reference sequence after clipping is trimmed
+    // Return true if the cigar is valid
     bool is_valid(std::string_view reference, std::string_view query) const;
 
+    bool is_exact_match(size_t query_size) const {
+        return cigar_.size() == 1 && cigar_.front() == value_type{ MATCH, query_size };
+    }
+
     static constexpr char opt_to_char(Cigar::Operator op) { return op_str_[op]; }
 
   private:
-    static constexpr char op_str_[] = "SX=DIN";
+    static constexpr char op_str_[] = "SX=DIG";
     std::vector<value_type> cigar_;
 };
 
diff --git a/metagraph/src/graph/alignment/aligner_config.cpp b/metagraph/src/graph/alignment/aligner_config.cpp
index 52946e0be2..651e73447b 100644
--- a/metagraph/src/graph/alignment/aligner_config.cpp
+++ b/metagraph/src/graph/alignment/aligner_config.cpp
@@ -62,13 +62,23 @@ ::score_cigar(std::string_view reference,
     score_t score = 0;
 
     assert(cigar.is_valid(reference, query));
+
+    if (cigar.empty())
+        return score;
+
     auto ref_it = reference.begin();
     auto alt_it = query.begin();
+    auto it = cigar.data().begin();
+    if (it->first == Cigar::CLIPPED)
+        ++it;
 
-    for (const auto &op : cigar) {
+    for ( ; it != cigar.data().end(); ++it) {
+        const auto &op = *it;
         switch (op.first) {
-            case Cigar::CLIPPED:
-                break;
+            case Cigar::CLIPPED: {
+                if (it + 1 != cigar.data().end())
+                    alt_it += op.second;
+            } break;
             case Cigar::MATCH: {
                 score += match_score(std::string_view(ref_it, op.second));
                 ref_it += op.second;
@@ -88,9 +98,15 @@ ::score_cigar(std::string_view reference,
                 score += gap_opening_penalty + (op.second - 1) * gap_extension_penalty;
                 ref_it += op.second;
             } break;
+            case Cigar::NODE_INSERTION: {
+                score += gap_opening_penalty + (op.second - 1) * gap_extension_penalty;
+            } break;
         }
     }
 
+    assert(ref_it == reference.end());
+    assert(alt_it == query.end());
+
     return score;
 }
 
diff --git a/metagraph/src/graph/alignment/aligner_config.hpp b/metagraph/src/graph/alignment/aligner_config.hpp
index afabe31a1c..0db43cd64b 100644
--- a/metagraph/src/graph/alignment/aligner_config.hpp
+++ b/metagraph/src/graph/alignment/aligner_config.hpp
@@ -52,22 +52,30 @@ class DBGAlignerConfig {
     }
 
     size_t num_alternative_paths = 1;
-    size_t min_seed_length = 1;
-    size_t max_seed_length = std::numeric_limits<size_t>::max();
+    size_t min_seed_length = 0;
+    size_t max_seed_length = 0;
     size_t max_num_seeds_per_locus = std::numeric_limits<size_t>::max();
+
+    // Lowest possible score. 100 is added to prevent underflow during operations.
+    // For this to work, all penalties should be less than 100.
+    // This is checked whenever an aligner is initialized.
+    constexpr static score_t ninf = std::numeric_limits<score_t>::min() + 100;
+
     // thresholds for scores
-    score_t min_cell_score = 0;
+    score_t min_cell_score = ninf;
     score_t min_path_score = 0;
     score_t xdrop = std::numeric_limits<score_t>::max();
 
     double min_exact_match = 0.0;
     double max_nodes_per_seq_char = std::numeric_limits<double>::max();
     double max_ram_per_alignment = std::numeric_limits<double>::max();
+    double rel_score_cutoff = 0.0;
 
     int8_t gap_opening_penalty;
     int8_t gap_extension_penalty;
 
-    bool forward_and_reverse_complement = false;
+    bool forward_and_reverse_complement = true;
+    bool chain_alignments = false;
 
     bool alignment_edit_distance;
     int8_t alignment_match_score;
diff --git a/metagraph/src/graph/alignment/aligner_extender_methods.cpp b/metagraph/src/graph/alignment/aligner_extender_methods.cpp
index d47ebb9da8..dfaf07f26e 100644
--- a/metagraph/src/graph/alignment/aligner_extender_methods.cpp
+++ b/metagraph/src/graph/alignment/aligner_extender_methods.cpp
@@ -1,9 +1,8 @@
 #include "aligner_extender_methods.hpp"
 
-#include <tsl/hopscotch_set.h>
-
 #include "common/utils/simd_utils.hpp"
 #include "common/utils/template_utils.hpp"
+#include "common/logger.hpp"
 
 #include "graph/representation/succinct/dbg_succinct.hpp"
 
@@ -12,20 +11,24 @@ namespace mtg {
 namespace graph {
 namespace align {
 
-typedef DBGAlignerConfig::score_t score_t;
-constexpr score_t ninf = std::numeric_limits<score_t>::min() + 100;
+using score_t = DBGAlignerConfig::score_t;
+constexpr score_t ninf = DBGAlignerConfig::ninf;
+
+// to ensure that SIMD operations on arrays don't read out of bounds
+constexpr size_t kPadding = 5;
 
 
-template <typename NodeType>
-DefaultColumnExtender<NodeType>::DefaultColumnExtender(const DeBruijnGraph &graph,
-                                                       const DBGAlignerConfig &config,
-                                                       std::string_view query)
-      : graph_(graph), config_(config), query_(query) {
+DefaultColumnExtender::DefaultColumnExtender(const DeBruijnGraph &graph,
+                                             const DBGAlignerConfig &config,
+                                             std::string_view query)
+      : SeedFilteringExtender(query),
+        graph_(&graph), config_(config), query_(query) {
     assert(config_.check_config_scores());
+
+    // compute exact-match scores for all suffixes of the query
     partial_sums_.reserve(query_.size() + 1);
     partial_sums_.resize(query_.size(), 0);
-    std::transform(query_.begin(), query_.end(),
-                   partial_sums_.begin(),
+    std::transform(query_.begin(), query_.end(), partial_sums_.begin(),
                    [&](char c) { return config_.get_row(c)[c]; });
 
     std::partial_sum(partial_sums_.rbegin(), partial_sums_.rend(), partial_sums_.rbegin());
@@ -33,15 +36,17 @@ DefaultColumnExtender<NodeType>::DefaultColumnExtender(const DeBruijnGraph &grap
     assert(config_.get_row(query_.back())[query_.back()] == partial_sums_.back());
     partial_sums_.push_back(0);
 
-    for (char c : graph_.alphabet()) {
-        auto &p_score_row = profile_score_.emplace(c, query_.size() + 9).first.value();
-        auto &p_op_row = profile_op_.emplace(c, query_.size() + 9).first.value();
+    // precompute profiles to store match/mismatch scores and Cigar::Operators
+    // in contiguous arrays
+    for (char c : graph_->alphabet()) {
+        auto &p_score_row = profile_score_.emplace(c, query_.size() + kPadding).first.value();
+        auto &p_op_row = profile_op_.emplace(c, query_.size() + kPadding).first.value();
 
         const auto &row = config_.get_row(c);
         const auto &op_row = kCharToOp[c];
 
-        // the first cell in a DP table row is one position before the last matched
-        // character, so we need to shift the indices of profile_score_ and profile_op_
+        // the first cell in a DP table row is one position before the first character,
+        // so we need to shift the indices of profile_score_ and profile_op_
         std::transform(query_.begin(), query_.end(), p_score_row.begin() + 1,
                        [&row](char q) { return row[q]; });
 
@@ -50,709 +55,736 @@ DefaultColumnExtender<NodeType>::DefaultColumnExtender(const DeBruijnGraph &grap
     }
 }
 
-template <typename NodeType>
-void DefaultColumnExtender<NodeType>::initialize(const DBGAlignment &seed) {
+bool SeedFilteringExtender::set_seed(const Alignment &seed) {
     assert(seed.size());
     assert(seed.get_cigar().size());
-    assert(seed.get_cigar().back().first == Cigar::MATCH
-        || seed.get_cigar().back().first == Cigar::MISMATCH);
+    assert(seed.get_cigar().data().back().first == Cigar::MATCH
+        || seed.get_cigar().data().back().first == Cigar::MISMATCH);
 
-    seed_ = &seed;
-    reset();
-}
+    seed_ = nullptr;
 
-template <typename Node, typename Column>
-std::pair<size_t, size_t> get_band(const Node &prev,
-                                   const Column &column_prev,
-                                   score_t xdrop_cutoff) {
-    const auto &S_prev = std::get<0>(column_prev[std::get<2>(prev)]);
-    size_t offset_prev = std::get<9>(column_prev[std::get<2>(prev)]);
-    size_t max_pos_prev = std::get<10>(column_prev[std::get<2>(prev)]);
-    assert(max_pos_prev - offset_prev < S_prev.size());
-    assert(std::max_element(S_prev.begin(), S_prev.end())
-        == S_prev.begin() + (max_pos_prev - offset_prev));
-
-    size_t start_pos = max_pos_prev - offset_prev;
-    if (S_prev[start_pos] < xdrop_cutoff)
-        return {};
+    auto it = conv_checker_.find(seed.get_nodes().back());
 
-    auto stop = [cutoff=std::max(xdrop_cutoff, ninf)](score_t s) { return s < cutoff; };
-    auto min_rit = std::find_if(std::make_reverse_iterator(S_prev.begin() + start_pos),
-                                S_prev.rend(), stop);
-    auto max_it = std::find_if(S_prev.begin() + start_pos, S_prev.end(), stop);
+    if (it != conv_checker_.end()) {
+        size_t pos = seed.get_query().size() + seed.get_clipping() - 1;
+        const auto &[start, vec] = it->second;
+        if (pos < start || pos - start >= vec.size() || vec[pos - start] < seed.get_score())
+            it = conv_checker_.end();
+    }
+
+    if (it == conv_checker_.end()) {
+        seed_ = &seed;
+    } else {
+        DEBUG_LOG("Skipping seed: {}", seed);
+    }
 
-    return std::make_pair(S_prev.rend() - min_rit + offset_prev,
-                          max_it - S_prev.begin() + offset_prev);
+    return seed_;
 }
 
-template <typename NodeType,
-          typename Column,
-          typename Scores,
-          typename ProfileScore,
-          typename ProfileOp>
-bool update_column(const DeBruijnGraph &graph_,
-                   const DBGAlignerConfig &config_,
-                   const Column &column_prev,
-                   Scores &next_column,
-                   char c,
-                   size_t start,
-                   size_t size,
-                   score_t &xdrop_cutoff,
-                   const ProfileScore &profile_score_,
-                   const ProfileOp &profile_op_,
-                   const Alignment<NodeType> &seed_) {
-    typedef DefaultColumnExtender<NodeType> Extender;
-
-    auto &[S, E, F, OS, OE, OF, prev_node, PS, PF, offset, max_pos] = next_column;
-    size_t cur_size = S.size();
-    assert(cur_size + offset <= size);
-
-    auto &[S_prev, E_prev, F_prev, OS_prev, OE_prev, OF_prev,
-           prev_node_prev, PS_prev, PF_prev, offset_prev, max_pos_prev]
-        = column_prev[std::get<2>(prev_node)];
-    assert(S_prev.size() + offset_prev <= size);
-
-    // compute column boundaries for updating the match and deletion scores
-    ssize_t offset_diff = static_cast<ssize_t>(offset_prev) - offset;
-
-    // to define the boundaries for match scores
-    // need i + offset - offset_prev - 1 >= 0
-    // &&   i + offset - offset_prev - 1 < S_prev.size()
-    // so offset_diff + 1 <= i < S_prev.size() + offset_diff + 1
-    size_t match_begin = std::max((ssize_t)0, offset_diff + 1);
-    size_t match_end = std::max(
-        match_begin,
-        static_cast<size_t>(std::min(S_prev.size() + offset_diff + 1, cur_size))
-    );
-
-    // to define the boundaries for deletion scores
-    // need i + offset - offset_prev >= 0
-    // &&   i + offset - offset_prev < S_prev.size()
-    // so offset_diff <= i < S_prev.size() + offset_diff
-    size_t del_begin = std::max((ssize_t)0, offset_diff);
-    size_t del_end = std::max(
-        del_begin,
-        static_cast<size_t>(std::min(S_prev.size() + offset_diff, cur_size))
-    );
-
-    assert(del_end <= match_end);
-    assert(del_end + 1 >= match_end);
-
-
-    const score_t *sprev = &S_prev[offset - offset_prev];
-    const score_t *fprev = &F_prev[offset - offset_prev];
-    const int8_t *profile = &profile_score_.find(c)->second[start + offset];
-    const Cigar::Operator *profile_o = &profile_op_.find(c)->second[start + offset];
-
-    std::fill(PS.begin() + match_begin, PS.begin() + match_end, Extender::PREV);
-    std::fill(PF.begin() + del_begin, PF.begin() + del_end, Extender::PREV);
-
-    bool updated = false;
-
-    auto update_match = [sprev,profile,profile_o,S=S.data(),OS=OS.data()](ssize_t i) {
-        S[i + 1] = *(sprev + i) + profile[i + 1];
-        OS[i + 1] = profile_o[i + 1];
-    };
-
-    auto update_del = [&config_,sprev,fprev,F=F.data(),OF=OF.data(),
-                       S=S.data(),OS=OS.data()](size_t i) {
-        score_t del_open = sprev[i] + config_.gap_opening_penalty;
-        score_t del_extend = fprev[i] + config_.gap_extension_penalty;
-        F[i] = std::max(del_open, del_extend);
-        OF[i] = del_open < del_extend ? Cigar::DELETION : Cigar::MATCH;
-
-        if (F[i] > S[i]) {
-            S[i] = F[i];
-            OS[i] = Cigar::DELETION;
-        }
-    };
+bool SeedFilteringExtender::update_seed_filter(node_index node,
+                                               size_t query_start,
+                                               const score_t *s_begin,
+                                               const score_t *s_end) {
+    assert(s_end >= s_begin);
+    assert(query_start + (s_end - s_begin) <= query_size_);
 
-    if (del_begin < std::min(del_end, match_begin))
-        update_del(del_begin);
+    size_t size = s_end - s_begin;
 
-    if (match_begin < match_end)
-        update_match(static_cast<ssize_t>(match_begin) - 1);
+    auto it = conv_checker_.find(node);
 
-#ifndef __AVX2__
-    for (size_t i = match_begin; i < del_end; ++i) {
-        update_del(i);
-        update_match(i);
+    if (it == conv_checker_.end()) {
+        conv_checker_.emplace(node, ScoreVec(query_start, { s_begin, s_end }));
+        return true;
     }
-#else
-    static_assert(sizeof(score_t) == sizeof(int32_t));
-    for (size_t i = match_begin; i < del_end; i += 8) {
-        // vectorized update_match(i)
-        __m256i sprev_v = _mm256_loadu_si256((__m256i*)&sprev[i]);
-        __m256i profile_v = _mm256_cvtepi8_epi32(mm_loadu_si64(&profile[i + 1]));
-        _mm256_storeu_si256((__m256i*)&S[i + 1], _mm256_add_epi32(sprev_v, profile_v));
-        *((uint64_t*)&OS[i + 1]) = *((uint64_t*)&profile_o[i + 1]);
-
-        // vectorized update_del(i)
-        __m256i gap_open = _mm256_set1_epi32(config_.gap_opening_penalty);
-        __m256i del_open = _mm256_add_epi32(sprev_v, gap_open);
-
-        __m256i fprev_v = _mm256_loadu_si256((__m256i*)&fprev[i]);
-        __m256i gap_extend = _mm256_set1_epi32(config_.gap_extension_penalty);
-        __m256i del_extend = _mm256_add_epi32(fprev_v, gap_extend);
-
-        __m256i del_score = _mm256_max_epi32(del_open, del_extend);
-        _mm256_storeu_si256((__m256i*)&F[i], del_score);
-
-        __m128i del_op_v = _mm_blendv_epi8(
-            _mm_set1_epi8(Cigar::MATCH),
-            _mm_set1_epi8(Cigar::DELETION),
-            mm256_cvtepi32_epi8(_mm256_cmpgt_epi32(del_extend, del_open))
-        );
-        mm_storeu_si64(&OF[i], del_op_v);
-
-        __m256i s_v = _mm256_loadu_si256((__m256i*)&S[i]);
-        __m256i score_max = _mm256_max_epi32(s_v, del_score);
-        _mm256_storeu_si256((__m256i*)&S[i], score_max);
 
-        __m128i mask = mm256_cvtepi32_epi8(_mm256_cmpgt_epi32(del_score, s_v));
-        mm_maskstorel_epi8((int8_t*)&OS[i], mask, _mm_set1_epi8(Cigar::DELETION));
+    auto &[start, vec] = it.value();
+    if (query_start + size <= start) {
+        vec.insert(vec.begin(), start - query_start, ninf);
+        std::copy(s_begin, s_end, vec.begin());
+        start = query_start;
+        return true;
     }
-#endif
 
-    auto update_max = [&xdrop_cutoff,&updated,&config_,ninf=ninf,
-                       S=S.data(),E=E.data(),F=F.data(),
-                       OS=OS.data(),OE=OE.data(),OF=OF.data(),
-                       PS=PS.data(),PF=PF.data()](size_t i) {
-        if (S[i] < xdrop_cutoff) {
-            S[i] = ninf;
-            E[i] = ninf;
-            F[i] = ninf;
-            OS[i] = Cigar::CLIPPED;
-            OE[i] = Cigar::CLIPPED;
-            OF[i] = Cigar::CLIPPED;
-            PS[i] = Extender::NONE;
-            PF[i] = Extender::NONE;
-        } else if (S[i] <= 0) {
-            S[i] = 0;
-            OS[i] = Cigar::CLIPPED;
-            PS[i] = Extender::NONE;
-            updated = true;
-        } else {
-            xdrop_cutoff = std::max(xdrop_cutoff, S[i] - config_.xdrop);
-            updated = true;
-        }
-    };
+    if (query_start >= start + vec.size()) {
+        vec.reserve(query_start + size - start);
+        vec.insert(vec.end(), query_start - start - vec.size(), ninf);
+        vec.insert(vec.end(), s_begin, s_end);
+        return true;
+    }
 
-    update_max(0);
+    // overlap
+    if (query_start < start) {
+        vec.insert(vec.begin(), start - query_start, ninf);
+        start = query_start;
+    }
 
-    size_t i = 1;
-    for ( ; i < cur_size; ++i) {
-        score_t ins_open = S[i - 1] + config_.gap_opening_penalty;
-        score_t ins_extend = E[i - 1] + config_.gap_extension_penalty;
-        E[i] = std::max(ins_open, ins_extend);
-        OE[i] = ins_open < ins_extend ? Cigar::INSERTION : Cigar::MATCH;
+    if (query_start + size > start + vec.size())
+        vec.resize(query_start + size - start, ninf);
 
-        if (E[i] > S[i]) {
-            S[i] = E[i];
-            OS[i] = Cigar::INSERTION;
-            PS[i] = Extender::CUR;
+    bool converged = true;
+    score_t *v = vec.data() + query_start - start;
+    for (size_t j = 0; j < size; ++j) {
+        if (s_begin[j] > v[j]) {
+            converged = false;
+            v[j] = s_begin[j];
         }
+    }
 
-        update_max(i);
+    return !converged;
+}
 
-        if (S[i] == ninf && E[i] == ninf)
-            break;
+bool SeedFilteringExtender
+::filter_nodes(node_index node, size_t query_start, size_t query_end) {
+    assert(query_end >= query_start);
+    assert(query_end <= query_size_);
+    constexpr score_t mscore = -ninf;
+    size_t size = query_end - query_start;
+
+    auto it = conv_checker_.find(node);
+    if (it == conv_checker_.end()) {
+        conv_checker_.emplace(
+            node, ScoreVec(query_start, AlignedVector<score_t>(size, mscore))
+        );
+        return true;
     }
 
-    for ( ; i < cur_size; ++i) {
-        update_max(i);
+    auto &[start, vec] = it.value();
+    if (query_start + size <= start) {
+        vec.insert(vec.begin(), start - query_start, ninf);
+        std::fill(vec.begin(), vec.begin() + size, mscore);
+        start = query_start;
+        return true;
     }
 
-    // extend to the right with insertion scores
-    while (offset + S.size() < size && S.back() >= xdrop_cutoff) {
-        score_t ins_open = S.back() + config_.gap_opening_penalty;
-        score_t ins_extend = E.back() + config_.gap_extension_penalty;
-        E.push_back(std::max(ins_open, ins_extend));
-        F.push_back(ninf);
-        S.push_back(std::max({ 0, E.back(), F.back() }));
-
-        OS.push_back(Cigar::CLIPPED);
-        OE.push_back(ins_open < ins_extend ? Cigar::INSERTION : Cigar::MATCH);
-        OF.push_back(Cigar::CLIPPED);
-
-        PS.push_back(Extender::NONE);
-        PF.push_back(Extender::NONE);
-        if (S.back() > 0) {
-            assert(S.back() == E.back());
-            updated = true;
-            PS.back() = Extender::CUR;
-            OS.back() = Cigar::INSERTION;
-            xdrop_cutoff = std::max(xdrop_cutoff, S.back() - config_.xdrop);
-        }
+    if (query_start >= start + vec.size()) {
+        vec.reserve(query_start + size - start);
+        vec.insert(vec.end(), query_start - start - vec.size(), ninf);
+        vec.insert(vec.end(), size, mscore);
+        return true;
     }
 
-    // make sure that the first operation taken matches the seed
-    std::ignore = graph_;
-    std::ignore = seed_;
-    assert(std::get<0>(prev_node) != graph_.max_index() + 1 || std::get<2>(prev_node)
-        || (offset <= 1 && S[1 - offset] == seed_.get_score()
-            && OS[1 - offset] == seed_.get_cigar().back().first
-            && PS[1 - offset] == Extender::PREV));
+    // overlap
+    if (query_start < start) {
+        vec.insert(vec.begin(), start - query_start, ninf);
+        start = query_start;
+    }
 
-    return updated;
-}
+    if (query_start + size > start + vec.size())
+        vec.resize(query_start + size - start, ninf);
 
-template <typename NodeType, typename AlignNode, class Table, class StartSet>
-void backtrack(const Table &table_,
-               const Alignment<NodeType> &seed_,
-               const DeBruijnGraph &graph_,
-               const DBGAlignerConfig &config_,
-               score_t min_path_score,
-               AlignNode best_node,
-               StartSet &prev_starts,
-               size_t size,
-               std::string_view extend_window_,
-               std::string_view query,
-               std::vector<Alignment<NodeType>> &extensions) {
-    typedef DefaultColumnExtender<NodeType> Extender;
-
-    Cigar cigar;
-    std::vector<NodeType> path;
-    std::string seq;
-    NodeType start_node = DeBruijnGraph::npos;
-
-    assert(table_.count(std::get<0>(best_node)));
-    const auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos]
-        = table_.find(std::get<0>(best_node))->second.first.at(std::get<2>(best_node));
-
-    score_t max_score = S[max_pos - offset];
-    score_t score = max_score;
-    Cigar::Operator last_op = OS[max_pos - offset];
-    assert(last_op == Cigar::MATCH);
-
-    if (max_pos + 1 < size)
-        cigar.append(Cigar::CLIPPED, size - max_pos - 1);
-
-    size_t pos = max_pos;
-    while (true) {
-        assert(table_.count(std::get<0>(best_node)));
-        const auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos]
-            = table_.find(std::get<0>(best_node))->second.first.at(std::get<2>(best_node));
-
-        prev_starts.emplace(best_node);
-
-        assert(last_op == Cigar::MATCH || last_op == Cigar::MISMATCH);
-        last_op = OS[pos - offset];
-
-        if (last_op == Cigar::CLIPPED || S[pos - offset] == 0) {
-            assert(S[pos - offset] == 0);
-            max_score = score;
-            break;
-        } else if (pos == 1 && last_op != Cigar::DELETION) {
-            score -= S[pos - offset];
-            if (std::get<0>(prev) != graph_.max_index() + 1
-                    || std::get<0>(best_node) != seed_.back()
-                    || std::get<2>(best_node)
-                    || last_op != seed_.get_cigar().back().first) {
-                // last op in the seed was skipped
-                // TODO: reconstruct the entire alignment. for now, throw this out
-                return;
-            } else {
-                assert(seed_.get_score() == S[pos - offset]);
-                start_node = seed_.back();
-            }
-            break;
+    bool converged = true;
+    score_t *v = vec.data() + query_start - start;
+    for (size_t j = 0; j < size; ++j) {
+        if (mscore > v[j]) {
+            converged = false;
+            v[j] = mscore;
         }
+    }
 
-        switch (last_op) {
-            case Cigar::MATCH:
-            case Cigar::MISMATCH: {
-                cigar.append(last_op);
-                path.push_back(std::get<0>(best_node));
-                seq += std::get<1>(best_node);
-                assert((last_op == Cigar::MATCH)
-                    == (graph_.get_node_sequence(std::get<0>(best_node)).back()
-                        == extend_window_[pos - 1]));
-                switch (PS[pos - offset]) {
-                    case Extender::PREV: { best_node = prev; } break;
-                    case Extender::CUR: {} break;
-                    case Extender::NONE: { assert(false); }
-                }
-                --pos;
-                assert(pos);
-            } break;
-            case Cigar::INSERTION: {
-                assert(PS[pos - offset] == Extender::CUR);
-                while (last_op == Cigar::INSERTION) {
-                    last_op = OE[pos - offset];
-                    assert(last_op == Cigar::MATCH || last_op == Cigar::INSERTION);
-                    cigar.append(Cigar::INSERTION);
-                    --pos;
-                    assert(pos);
-                }
-            } break;
-            case Cigar::DELETION: {
-                while (last_op == Cigar::DELETION) {
-                    assert(table_.count(std::get<0>(best_node)));
-                    const auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos]
-                        = table_.find(std::get<0>(best_node))->second.first.at(std::get<2>(best_node));
-                    last_op = OF[pos - offset];
-                    assert(last_op == Cigar::MATCH || last_op == Cigar::DELETION);
-                    path.push_back(std::get<0>(best_node));
-                    seq += std::get<1>(best_node);
-                    cigar.append(Cigar::DELETION);
-                    switch (PF[pos - offset]) {
-                        case Extender::PREV: { best_node = prev; } break;
-                        case Extender::CUR: {} break;
-                        case Extender::NONE: { assert(false); }
-                    }
-                    prev_starts.emplace(best_node);
-                }
-            } break;
-            case Cigar::CLIPPED: { assert(false); }
-        }
+    return !converged;
+}
 
-        assert(pos);
+void update_column(size_t prev_end,
+                   const score_t *S_prev_v,
+                   const score_t *F_prev_v,
+                   AlignedVector<score_t> &S_v,
+                   AlignedVector<score_t> &E_v,
+                   AlignedVector<score_t> &F_v,
+                   const score_t *profile_scores,
+                   score_t xdrop_cutoff,
+                   const DBGAlignerConfig &config_) {
+#ifndef __SSE4_1__
+    for (size_t j = 0; j < prev_end; ++j) {
+        score_t match = j ? (S_prev_v[j - 1] + profile_scores[j]) : ninf;
+        F_v[j] = std::max(S_prev_v[j] + config_.gap_opening_penalty,
+                          F_prev_v[j] + config_.gap_extension_penalty);
+
+        match = std::max(F_v[j], match);
+
+        if (j + 1 < prev_end)
+            E_v[j + 1] = match + config_.gap_opening_penalty;
+
+        if (match >= xdrop_cutoff)
+            S_v[j] = std::max(match, E_v[j]);
     }
+#else
+    const __m128i gap_open = _mm_set1_epi32(config_.gap_opening_penalty);
+    const __m128i gap_extend = _mm_set1_epi32(config_.gap_extension_penalty);
+    const __m128i xdrop_v = _mm_set1_epi32(xdrop_cutoff - 1);
+    const __m128i ninf_v = _mm_set1_epi32(ninf);
+    const __m128i prev_end_v = _mm_set1_epi32(prev_end);
+    __m128i j_v = _mm_set_epi32(3, 2, 1, 0);
+    for (size_t j = 0; j < prev_end; j += 4) {
+        // match = j ? S_prev_v[j - 1] + profile_scores[j] : ninf;
+        __m128i match;
+        if (j) {
+            match = _mm_add_epi32(_mm_loadu_si128((__m128i*)&S_prev_v[j - 1]),
+                                  _mm_loadu_si128((__m128i*)&profile_scores[j]));
+        } else {
+            // rotate elements to the right, then insert ninf in first cell
+            match = _mm_shuffle_epi32(_mm_loadu_si128((__m128i*)&S_prev_v[j]), 0b10010000);
+            match = _mm_add_epi32(match, _mm_loadu_si128((__m128i*)&profile_scores[j]));
+            match = _mm_insert_epi32(match, ninf, 0);
+        }
 
-    if (max_score < min_path_score)
-        return;
+        // del_score = std::max(del_open, del_extend);
+        __m128i del_score = _mm_max_epi32(
+            _mm_add_epi32(_mm_loadu_si128((__m128i*)&S_prev_v[j]), gap_open),
+            _mm_add_epi32(_mm_loadu_si128((__m128i*)&F_prev_v[j]), gap_extend)
+        );
 
-    if (pos > 1)
-        cigar.append(Cigar::CLIPPED, pos - 1);
+        // F_v[j] = del_score
+        _mm_store_si128((__m128i*)&F_v[j], del_score);
 
-    std::reverse(cigar.begin(), cigar.end());
-    std::reverse(path.begin(), path.end());
-    std::reverse(seq.begin(), seq.end());
+        // match = max(match, del_score)
+        match = _mm_max_epi32(match, del_score);
 
-    Alignment<NodeType> extension(
-        { extend_window_.data() + pos, max_pos - pos },
-        std::move(path), std::move(seq), score, std::move(cigar),
-        0, seed_.get_orientation(), graph_.get_k() - 1
-    );
+        // match >= xdrop_cutoff
+        __m128i mask = _mm_cmpgt_epi32(match, xdrop_v);
 
-    std::ignore = config_;
-    assert(extension.is_valid(graph_, &config_));
-    extension.extend_query_end(query.data() + query.size());
+        // j < prev_end
+        __m128i bound = _mm_cmpgt_epi32(prev_end_v, j_v);
+        j_v = _mm_add_epi32(j_v, _mm_set1_epi32(4));
+        mask = _mm_and_si128(mask, bound);
+        match = _mm_blendv_epi8(ninf_v, match, mask);
 
-    if (start_node) {
-        auto next_path = seed_;
-        next_path.append(std::move(extension));
-        next_path.trim_offset();
-        assert(next_path.is_valid(graph_, &config_));
+        // ins_open_next = S[j] + gap_open
+        __m128i ins_open_next = _mm_add_epi32(match, gap_open);
 
-        DEBUG_LOG("Alignment (extended): {}", next_path);
-        extensions.emplace_back(std::move(next_path));
-    } else {
-        extension.extend_query_begin(query.data());
-        extension.trim_offset();
-        assert(extension.is_valid(graph_, &config_));
+        // E_v[j + 1] = ins_open_next
+        _mm_storeu_si128((__m128i*)&E_v[j + 1], ins_open_next);
+
+        // load E_v[j] vector by rotating elements of ins_open_next right, then inserting E_v[j]
+        __m128i ins_open = _mm_shuffle_epi32(ins_open_next, 0b10010000);
+        ins_open = _mm_insert_epi32(ins_open, E_v[j], 0);
+
+        // E_v[j] >= xdrop_cutoff
+        ins_open = _mm_blendv_epi8(ninf_v, ins_open, mask);
+
+        // S_v[j] = max(match, E_v[j])
+        match = _mm_max_epi32(match, ins_open);
+        _mm_store_si128((__m128i*)&S_v[j], match);
+    }
+
+#endif
 
-        DEBUG_LOG("Alignment (trim seed): {}", extension);
-        extensions.emplace_back(std::move(extension));
+    if (S_v.size() > prev_end) {
+        size_t j = S_v.size() - 1;
+        score_t match = std::max(S_prev_v[j - 1] + profile_scores[j], E_v[j]);
+        if (match >= xdrop_cutoff)
+            S_v[j] = match;
     }
 }
 
-template <typename NodeType>
-auto DefaultColumnExtender<NodeType>::get_extensions(score_t min_path_score)
-        -> std::vector<DBGAlignment> {
-    const char *align_start = seed_->get_query().data() + seed_->get_query().size() - 1;
-    size_t start = align_start - query_.data();
-    size_t size = query_.size() - start + 1;
-    assert(start + size == partial_sums_.size());
-    match_score_begin_ = partial_sums_.data() + start;
-
-    extend_window_ = { align_start, size - 1 };
-    DEBUG_LOG("Extend query window: {}", extend_window_);
-    assert(extend_window_[0] == seed_->get_query().back());
-
-    auto &first_column = table_.emplace(
-        graph_.max_index() + 1,
-        Column{ { std::make_tuple(
-            ScoreVec(1, ninf), ScoreVec(1, ninf), ScoreVec(1, ninf),
-            OpVec(1, Cigar::CLIPPED), OpVec(1, Cigar::CLIPPED), OpVec(1, Cigar::CLIPPED),
-            AlignNode{}, PrevVec(1, NONE), PrevVec(1, NONE),
-            0 /* offset */, 0 /* max_pos */
-        ) }, false }
-    ).first.value().first[0];
-    sanitize(first_column);
-    auto &[S, E, F, OS, OE, OF, prev_node, PS, PF, offset, max_pos] = first_column;
-
-    size_t num_columns = 1;
-    constexpr size_t column_vector_size = sizeof(std::pair<NodeType, std::pair<Column, bool>>);
-
-    auto get_column_size = [&](const Scores &scores) {
-        size_t size = std::get<0>(scores).capacity();
-        return sizeof(Scores) + size * (
-            sizeof(score_t) * 3 + sizeof(Cigar::Operator) * 3 + sizeof(NodeId) * 2
+// update insertion extension scores
+void update_ins_extension(AlignedVector<score_t> &S,
+                          AlignedVector<score_t> &E,
+                          score_t xdrop_cutoff,
+                          const DBGAlignerConfig &config_) {
+    // elements are dependent on the previous one, so this can't be vectorized easily
+    for (size_t j = 1; j < S.size(); ++j) {
+        score_t ins_extend = E[j - 1] + config_.gap_extension_penalty;
+        if (ins_extend > std::max(E[j], xdrop_cutoff - 1)) {
+            E[j] = ins_extend;
+            S[j] = std::max(S[j], ins_extend);
+        }
+    }
+}
+
+// add insertions to the end of the array until the score drops too low
+void extend_ins_end(AlignedVector<score_t> &S,
+                    AlignedVector<score_t> &E,
+                    AlignedVector<score_t> &F,
+                    size_t max_size,
+                    score_t xdrop_cutoff,
+                    const DBGAlignerConfig &config_) {
+    while (S.back() >= xdrop_cutoff && S.size() < max_size) {
+        score_t ins_score = std::max(
+            S.back() + config_.gap_opening_penalty,
+            E.back() + config_.gap_extension_penalty
         );
-    };
-    size_t total_size = column_vector_size + get_column_size(first_column);
 
-    S[0] = seed_->get_score() - profile_score_[seed_->get_sequence().back()][start + 1];
+        if (ins_score < xdrop_cutoff)
+            break;
+
+        S.push_back(ins_score);
+        E.push_back(ins_score);
+        F.push_back(ninf);
+    }
 
-    AlignNode start_node{ graph_.max_index() + 1,
-                          seed_->get_sequence()[seed_->get_sequence().size() - 2],
-                          0, 0 };
+    // allocate and initialize enough space to allow the SIMD code to access these
+    // vectors in 16 byte blocks without reading out of bounds
+    S.reserve(S.size() + kPadding);
+    E.reserve(E.size() + kPadding);
+    F.reserve(F.size() + kPadding);
 
-    typedef std::pair<AlignNode, score_t> Ref;
-    Ref best_start{ start_node, S[0] };
-    std::vector<Ref> starts;
+    std::fill(S.data() + S.size(), S.data() + S.capacity(), ninf);
+    std::fill(E.data() + E.size(), E.data() + E.capacity(), ninf);
+    std::fill(F.data() + F.size(), F.data() + F.capacity(), ninf);
+}
 
-    std::priority_queue<Ref, std::vector<Ref>, utils::LessSecond> stack;
-    stack.emplace(start_node, S[0]);
+void DefaultColumnExtender
+::call_outgoing(node_index node,
+                size_t /* max_prefetch_distance */,
+                const std::function<void(node_index, char)> &callback) {
+    graph_->call_outgoing_kmers(node, [&](node_index next, char c) {
+        if (c != boss::BOSS::kSentinel)
+            callback(next, c);
+    });
+}
 
-    while (stack.size()) {
-        AlignNode prev = stack.top().first;
-        stack.pop();
+// allocate and initialize with padding to ensure that SIMD operations don't
+// read/write out of bounds
+template <class Column, typename... RestArgs>
+Column alloc_column(size_t size, RestArgs... args) {
+    Column column { {}, {}, {}, args... };
+    auto &[S, E, F, node, i_prev, c, offset, max_pos, trim] = column;
+
+    // allocate and initialize enough space to allow the SIMD code to access these
+    // vectors in 16 byte blocks without reading out of bounds
+    S.reserve(size + kPadding);
+    E.reserve(size + kPadding);
+    F.reserve(size + kPadding);
+
+    // the size is set properly to allow for AlignedVector methods (size(), push_back())
+    // to function properly
+    S.resize(size, ninf);
+    E.resize(size, ninf);
+    F.resize(size, ninf);
+
+    std::fill(S.data() + S.size(), S.data() + S.capacity(), ninf);
+    std::fill(E.data() + E.size(), E.data() + E.capacity(), ninf);
+    std::fill(F.data() + F.size(), F.data() + F.capacity(), ninf);
+
+    return column;
+}
 
-        if (static_cast<double>(total_size) / 1000000
-                > config_.max_ram_per_alignment) {
-            DEBUG_LOG("Alignment RAM limit reached, stopping extension");
-            break;
-        }
+std::vector<Alignment> DefaultColumnExtender::extend(score_t min_path_score) {
+    assert(this->seed_);
 
-        if (static_cast<double>(num_columns) / extend_window_.size()
-                > config_.max_nodes_per_seq_char) {
-            DEBUG_LOG("Alignment node limit reached, stopping extension");
-            break;
-        }
+    table.clear();
+    table_size_bytes_ = sizeof(table);
+    prev_starts.clear();
 
-        size_t next_distance_from_origin = std::get<3>(prev) + 1;
+    size_t start = this->seed_->get_clipping();
 
-        for (const auto &[next, c] : get_outgoing(prev)) {
-            auto &column_pair = table_[next];
-            auto &[column, converged] = column_pair;
-            if (converged)
-                continue;
+    // the sequence to align (the suffix of the query starting from the seed)
+    std::string_view window(this->seed_->get_query().data(),
+                            query_.data() + query_.size() - this->seed_->get_query().data());
+    assert(partial_sums_.at(start) == config_.match_score(window));
 
-            assert(table_.count(std::get<0>(prev)));
-            auto &column_prev = table_[std::get<0>(prev)].first;
+    ssize_t seed_offset = static_cast<ssize_t>(this->seed_->get_offset()) - 1;
 
-            score_t xdrop_cutoff = best_start.second - config_.xdrop;
+    // initialize the root of the tree
+    table.emplace_back(alloc_column<Column>(1, this->seed_->get_nodes().front(),
+                                            static_cast<size_t>(-1), '\0', seed_offset, 0, 0));
 
-            // compute bandwidth based on xdrop criterion
-            auto [min_i, max_i] = get_band(prev, column_prev, xdrop_cutoff);
-            if (min_i >= max_i)
-                continue;
+    score_t xdrop_cutoff = std::max(-config_.xdrop, ninf + 1);
+    assert(config_.xdrop > 0);
+    assert(xdrop_cutoff < 0);
 
-            max_i = std::min(max_i + 1, size);
+    {
+        auto &[S, E, F, node, i_prev, c, offset, max_pos, trim] = table[0];
+        S[0] = 0;
+        extend_ins_end(S, E, F, window.size() + 1 - trim, xdrop_cutoff, config_);
 
-            size_t depth = column.size();
-            size_t cur_size = max_i - min_i;
+        static_assert(std::is_same_v<decltype(table)::value_type, Column>);
+        static_assert(std::is_same_v<decltype(S)::value_type, score_t>);
+        static_assert(std::is_same_v<decltype(E)::value_type, score_t>);
+        static_assert(std::is_same_v<decltype(F)::value_type, score_t>);
 
-            Scores next_column(ScoreVec(cur_size, ninf), ScoreVec(cur_size, ninf),
-                               ScoreVec(cur_size, ninf), OpVec(cur_size, Cigar::CLIPPED),
-                               OpVec(cur_size, Cigar::CLIPPED),
-                               OpVec(cur_size, Cigar::CLIPPED),
-                               prev, PrevVec(cur_size, NONE), PrevVec(cur_size, NONE),
-                               min_i /* offset */, 0 /* max_pos */);
-            sanitize(next_column);
+        table_size_bytes_ = sizeof(Column) + S.capacity() * sizeof(score_t) * 3;
+    }
 
-            bool updated = update_column<NodeType>(
-                graph_, config_, column_prev, next_column, c, start, size,
-                xdrop_cutoff, profile_score_, profile_op_, *seed_
-            );
-            sanitize(next_column);
+    // The nodes in the traversal (with corresponding score columns) are sorted by
+    // 1) their score (higher is better), then by
+    // 2) the absolute distance of their highest scoring index from the score
+    //    matrix diagonal (lower is better), finally by
+    // 3) Their index in the table vector (higher is better, for better cache locality)
+    using TableIt = std::tuple<score_t,
+                               ssize_t, /* negative off_diag */
+                               size_t /* table idx */>;
+    TableIt best_score { 0, 0, 0 };
+
+    std::priority_queue<TableIt> queue;
+
+    // Initialize the node traversal heap with the root.
+    queue.emplace(best_score);
+
+    while (queue.size()) {
+        std::vector<TableIt> next_nodes{ queue.top() };
+        queue.pop();
+
+        // try all paths which have the same best partial alignment score
+        // (this performs a BFS-like search)
+        while (queue.size() && std::get<0>(queue.top()) == std::get<0>(next_nodes.back())) {
+            next_nodes.push_back(queue.top());
+            queue.pop();
+        }
 
-            auto &[S, E, F, OS, OE, OF, prev_node, PS, PF, offset, max_pos] = next_column;
+        while (next_nodes.size()) {
+            size_t i = std::get<2>(next_nodes.back());
+            next_nodes.pop_back();
 
-            auto max_it = std::max_element(S.begin(), S.end());
-            max_pos = (max_it - S.begin()) + offset;
-            assert(max_pos < size);
+            std::vector<std::pair<node_index, char>> outgoing;
+            size_t next_offset = -1;
 
-            converged = !updated || has_converged(column_pair, next_column);
+            size_t prev_begin = 0;
+            size_t prev_end = window.size() + 1;
 
-            const score_t *match = &match_score_begin_[offset];
-            bool extendable = false;
-            for (size_t i = 0; i < S.size() && !extendable; ++i) {
-                if (S[i] >= 0 && S[i] + match[i] >= min_path_score)
-                    extendable = true;
-            }
+            {
+                const auto &[S, E, F, node, i_prev, c, offset, max_pos, trim] = table[i];
+                next_offset = offset + 1;
 
-            bool add_to_table = false;
-            AlignNode cur{ next, c, depth, next_distance_from_origin };
-            if (OS[max_pos - offset] == Cigar::MATCH && *max_it > best_start.second) {
-                best_start.first = cur;
-                best_start.second = *max_it;
-                add_to_table = true;
-            }
+                // if too many nodes have been explored, give up
+                if (static_cast<double>(table.size()) / window.size()
+                        >= config_.max_nodes_per_seq_char) {
+                    DEBUG_LOG("Alignment node limit reached, stopping extension");
+                    queue = std::priority_queue<TableIt>();
+                    continue;
+                }
 
-            assert(xdrop_cutoff == best_start.second - config_.xdrop);
+                if (static_cast<double>(table_size_bytes_) / 1'000'000
+                        > config_.max_ram_per_alignment) {
+                    DEBUG_LOG("Alignment RAM limit reached, stopping extension");
+                    queue = std::priority_queue<TableIt>();
+                    continue;
+                }
 
-            if (*max_it >= xdrop_cutoff && extendable) {
-                stack.emplace(cur, *max_it);
-                add_to_table = true;
-            }
+                // determine maximal range within the xdrop score cutoff
+                auto in_range = [xdrop_cutoff](score_t s) { return s >= xdrop_cutoff; };
+
+                prev_begin = std::find_if(S.begin(), S.end(), in_range) - S.begin() + trim;
+                prev_end = std::find_if(S.rbegin(), S.rend(), in_range).base() - S.begin() + trim;
+
+                if (prev_end <= prev_begin)
+                    continue;
 
-            if (add_to_table) {
-                total_size += get_column_size(next_column) + (!depth * column_vector_size);
-                ++num_columns;
-                if (OS[max_pos - offset] == Cigar::MATCH)
-                    starts.emplace_back(cur, *max_it);
+                // check if this node can be extended to get a better alignment
+                bool has_extension = false;
+                for (size_t j = prev_begin; j < prev_end; ++j) {
+                    assert(partial_sums_.at(start + j) == config_.match_score(window.substr(j)));
+                    score_t ext_score = S[j - trim] + partial_sums_.at(start + j);
+                    if ((config_.num_alternative_paths == 1 && ext_score > std::get<0>(best_score))
+                            || ext_score >= min_path_score) {
+                        has_extension = true;
+                        break;
+                    }
+                }
 
-                column.emplace_back(std::move(next_column));
-            } else if (!depth) {
-                table_.erase(next);
+                if (!has_extension)
+                    continue;
+
+                // Get the next node(s) from the graph. If the current node is
+                // part of the seed, then pick the next node from the seed.
+                if (next_offset - this->seed_->get_offset() < this->seed_->get_sequence().size()) {
+                    if (next_offset < graph_->get_k()) {
+                        outgoing.emplace_back(
+                            this->seed_->get_nodes().front(),
+                            this->seed_->get_sequence()[next_offset - this->seed_->get_offset()]
+                        );
+                    } else {
+                        outgoing.emplace_back(
+                            this->seed_->get_nodes()[next_offset - graph_->get_k() + 1],
+                            this->seed_->get_sequence()[next_offset - this->seed_->get_offset()]
+                        );
+                        assert(graph_->traverse(node, outgoing.back().second) == outgoing.back().first);
+                    }
+                } else {
+                    call_outgoing(node, window.size() + 1 - offset - S.size(),
+                                  [&](node_index next, char c) { outgoing.emplace_back(next, c); });
+                }
             }
-        }
-    }
 
-    std::sort(starts.begin(), starts.end(), utils::GreaterSecond());
-    assert(starts.empty() || starts[0].second == best_start.second);
+            ssize_t begin = prev_begin;
+            size_t end = std::min(prev_end, window.size()) + 1;
+
+            std::vector<TableIt> to_push;
+            for (const auto &[next, c] : outgoing) {
+                assert(std::get<0>(best_score) > xdrop_cutoff);
+
+                table.emplace_back(alloc_column<Column>(
+                    end - begin, next, i, c,
+                    static_cast<ssize_t>(next_offset),
+                    begin, begin
+                ));
+
+                const auto &[S_prev, E_prev, F_prev, node_prev, i_prev, c_prev,
+                             offset_prev, max_pos_prev, trim_prev] = table[i];
+
+                auto &[S, E, F, node_cur, i_cur, c_stored, offset, max_pos, trim]
+                    = table.back();
+
+                assert(i_cur == i);
+                assert(node_cur == next);
+                assert(c_stored == c);
+                assert(offset == offset_prev + 1);
+                assert(c == graph_->get_node_sequence(node_cur)[std::min(static_cast<ssize_t>(graph_->get_k()) - 1, offset)]);
+
+                // compute column scores
+                update_column(prev_end - trim,
+                              S_prev.data() + trim - trim_prev,
+                              F_prev.data() + trim - trim_prev,
+                              S, E, F,
+                              profile_score_[c].data() + start + trim,
+                              xdrop_cutoff, config_);
+
+                update_ins_extension(S, E, xdrop_cutoff, config_);
+                extend_ins_end(S, E, F, window.size() + 1 - trim, xdrop_cutoff, config_);
+
+                assert(max_pos >= trim);
+                assert(static_cast<size_t>(max_pos - trim) < S.size());
+
+                // find the maximal scoring position which is closest to the diagonal
+                // TODO: this can be done with SIMD, but it's not a bottleneck
+                ssize_t cur_offset = begin;
+                ssize_t diag_i = offset - seed_offset;
+                for (size_t j = 0; j < S.size(); ++j, ++cur_offset) {
+                    if (std::make_pair(S[j], std::abs(max_pos - diag_i))
+                            > std::make_pair(S[max_pos - begin], std::abs(cur_offset - diag_i))) {
+                        max_pos = j + begin;
+                    }
+                }
+                assert(max_pos >= trim);
+                assert(static_cast<size_t>(max_pos - trim) < S.size());
 
-    struct AlignNodeHash {
-        uint64_t operator()(const AlignNode &x) const {
-            uint64_t seed = hasher1(std::get<0>(x));
-            return seed ^ (hasher2(std::get<2>(x)) + 0x9e3779b9 + (seed << 6) + (seed >> 2));
-        }
+                score_t max_val = S[max_pos - trim];
+                if (max_val < xdrop_cutoff) {
+                    table.pop_back();
+                    continue;
+                }
 
-        std::hash<NodeType> hasher1;
-        std::hash<size_t> hasher2;
-    };
+                static_assert(std::is_same_v<decltype(table)::value_type, Column>);
+                static_assert(std::is_same_v<decltype(S)::value_type, score_t>);
+                static_assert(std::is_same_v<decltype(E)::value_type, score_t>);
+                static_assert(std::is_same_v<decltype(F)::value_type, score_t>);
 
-    tsl::hopscotch_set<AlignNode, AlignNodeHash> prev_starts;
+                table_size_bytes_ += sizeof(Column) + S.capacity() * sizeof(score_t) * 3;
 
-    std::vector<DBGAlignment> extensions;
-    for (const auto &[best_node, max_score] : starts) {
-        if (prev_starts.count(best_node))
-            continue;
+                // if the best score in this column is above the xdrop score
+                // then check if the extension can continue
+                TableIt next_score { max_val, -std::abs(max_pos - diag_i),
+                                     table.size() - 1 };
+
+                if (max_val - xdrop_cutoff > config_.xdrop)
+                    xdrop_cutoff = max_val - config_.xdrop;
 
-        assert(table_.count(std::get<0>(best_node)));
-        const auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos]
-            = table_[std::get<0>(best_node)].first.at(std::get<2>(best_node));
+                if (max_val > std::get<0>(best_score))
+                    best_score = next_score;
 
-        assert(S[max_pos - offset] == max_score);
+                size_t vec_offset = start + begin;
+                score_t *s_begin = S.data();
+                score_t *s_end = S.data() + S.size();
+
+                // skip the first index since it corresponds to the position
+                // before the query start
+                if (!begin) {
+                    ++s_begin;
+                } else {
+                    --vec_offset;
+                }
 
-        if (max_pos < 2 && std::get<0>(best_node) == seed_->back()
-                && !std::get<2>(best_node)) {
-            if (seed_->get_score() >= min_path_score) {
-                DEBUG_LOG("Alignment (seed): {}", *seed_);
-                extensions.emplace_back(*seed_);
-                extensions.back().extend_query_end(query_.data() + query_.size());
-                extensions.back().trim_offset();
-                assert(extensions.back().is_valid(graph_, &config_));
+                assert(s_begin <= s_end);
+                assert(vec_offset + (s_end - s_begin) <= query_.size());
+
+                // if this node has not been reached by a different
+                // alignment with a better score, continue
+                if (this->update_seed_filter(next, vec_offset, s_begin, s_end)) {
+                    // if this next node is the only next option, or if it's
+                    // better than all other options, take it without pushing
+                    // to the queue
+                    if (outgoing.size() == 1 && (queue.empty() || next_score > queue.top())
+                            && (next_nodes.empty() || next_score > next_nodes.back())) {
+                        next_nodes.emplace_back(std::move(next_score));
+                    } else {
+                        queue.emplace(std::move(next_score));
+                    }
+                }
             }
-        } else {
-            assert(OS[max_pos - offset] == Cigar::MATCH);
-            backtrack<NodeType>(table_, *seed_, graph_, config_, min_path_score, best_node,
-                                prev_starts, size, extend_window_, query_, extensions);
         }
+    }
 
-        assert(extensions.size() < 2
-            || extensions.back().get_score() <= extensions[extensions.size() - 2].get_score());
+    return backtrack(min_path_score, window);
+}
 
-        if (extensions.size() == config_.num_alternative_paths)
-            break;
-    }
+Alignment DefaultColumnExtender::construct_alignment(Cigar cigar,
+                                                     size_t clipping,
+                                                     std::string_view window,
+                                                     std::vector<node_index> final_path,
+                                                     std::string match,
+                                                     score_t score,
+                                                     size_t offset) const {
+    assert(final_path.size());
+    cigar.append(Cigar::CLIPPED, clipping);
 
-    return extensions;
+    std::reverse(cigar.data().begin(), cigar.data().end());
+    std::reverse(final_path.begin(), final_path.end());
+    std::reverse(match.begin(), match.end());
+
+    Alignment extension(window, std::move(final_path), std::move(match), score,
+                           std::move(cigar), 0, this->seed_->get_orientation(), offset);
+    assert(extension.is_valid(*this->graph_, &config_));
+
+    extension.trim_offset();
+    extension.extend_query_begin(query_.data());
+    extension.extend_query_end(query_.data() + query_.size());
+
+    assert(extension.is_valid(*this->graph_, &config_));
+
+    return extension;
 }
 
-template <typename NodeType>
-void DefaultColumnExtender<NodeType>
-::call_visited_nodes(const std::function<void(NodeType, size_t, size_t)> &callback) const {
-    size_t window_start = extend_window_.data() - query_.data();
-    for (const auto &[node, columns] : table_) {
-        size_t start = query_.size();
-        size_t end = 0;
-        size_t start_distance_from_origin = 0;
-        for (const auto &column : columns.first) {
-            const auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos] = column;
-
-            auto it = std::find_if(S.begin(), S.end(), [](score_t s) { return s > 0; });
-            auto rit = std::find_if(S.rbegin(), S.rend(), [](score_t s) { return s > 0; });
-            size_t start_c = (it - S.begin()) + offset;
-            size_t end_c = (S.rend() - rit) + offset;
-
-            size_t prev_distance_from_origin = std::get<3>(prev);
-
-            if (start_c)
-                --start_c;
-
-            if (start_c < start) {
-                start = start_c;
-                start_distance_from_origin = prev_distance_from_origin
-                    + (OS[it - S.begin()] != Cigar::INSERTION);
-            }
+std::vector<Alignment> DefaultColumnExtender
+::backtrack(score_t min_path_score, std::string_view window) {
+    if (table.empty())
+        return {};
 
-            end = std::max(end, end_c);
-        }
+    std::vector<Alignment> extensions;
 
-        if (start < end) {
-            assert(start_distance_from_origin);
-            --start_distance_from_origin;
+    size_t seed_clipping = this->seed_->get_clipping();
+    ssize_t seed_offset = static_cast<ssize_t>(this->seed_->get_offset() - 1);
+    ssize_t k_minus_1 = graph_->get_k() - 1;
 
-            size_t start_pos = window_start + start + 1 - graph_.get_k();
-            if (start_distance_from_origin < seed_->get_offset())
-                start_pos += seed_->get_offset() - start_distance_from_origin;
+    std::vector<std::tuple<score_t, ssize_t, ssize_t>> indices;
+    indices.reserve(table.size());
+    for (size_t i = 1; i < table.size(); ++i) {
+        const auto &[S, E, F, node, j_prev, c, offset, max_pos, trim] = table[i];
+        const auto &[S_p, E_p, F_p, node_p, j_prev_p, c_p, offset_p, max_pos_p, trim_p] = table[j_prev];
 
-            callback(node, start_pos, window_start + end);
+        if (max_pos < trim_p + 1)
+            continue;
+
+        size_t pos = max_pos - trim;
+        size_t pos_p = max_pos - trim_p - 1;
+        if (S[pos] >= min_path_score
+                && offset >= k_minus_1
+                && S[pos] == S_p[pos_p] + profile_score_.find(c)->second[seed_clipping + max_pos]
+                && profile_op_.find(c)->second[seed_clipping + max_pos] == Cigar::MATCH) {
+            indices.emplace_back(S[pos], -std::abs(max_pos - offset + seed_offset),
+                                 -static_cast<ssize_t>(i));
         }
     }
-}
 
-template <typename NodeType>
-bool DefaultColumnExtender<NodeType>::has_converged(const Column &column,
-                                                    const Scores &next) {
-    if (column.second)
-        return true;
+    // find highest scoring which is closest to the diagonal
+    // use heap sort to make this run in O(n + (num_alternative_paths) * log(n)) time
+    std::make_heap(indices.begin(), indices.end());
 
-    if (column.first.empty())
-        return false;
+    for (auto it = indices.rbegin(); it != indices.rend(); ++it) {
+        std::pop_heap(indices.begin(), it.base());
 
-    const auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos] = next;
-    const auto &[S_b, E_b, F_b, OS_b, OE_b, OF_b, prev_b, PS_b, PF_b, offset_b, max_pos_b]
-        = column.first.back();
+        if (terminate_backtrack_start(extensions))
+            break;
 
-    return offset == offset_b && max_pos == max_pos_b
-        && std::get<0>(prev) == std::get<0>(prev_b)
-        && S == S_b && E == E_b && F == F_b && OS == OS_b && OE == OE_b && OF == OF_b
-        && PS == PS_b && PF == PF_b;
-}
+        const auto &[start_score, neg_off_diag, neg_j_start] = *it;
+        size_t j = -neg_j_start;
 
-template <typename NodeType>
-void DefaultColumnExtender<NodeType>::sanitize(Scores &scores) {
-    auto &[S, E, F, OS, OE, OF, prev, PS, PF, offset, max_pos] = scores;
-
-    size_t size = S.size();
-    size_t pad_size = ((size + 7) / 8) * 8 + 8;
-    size_t size_diff = pad_size - size;
-
-    assert(size_diff);
-
-    S.reserve(pad_size);
-    E.reserve(pad_size);
-    F.reserve(pad_size);
-    OS.reserve(pad_size);
-    OE.reserve(pad_size);
-    OF.reserve(pad_size);
-    PS.reserve(pad_size);
-    PF.reserve(pad_size);
-
-    std::fill(&S[size], &S[size] + size_diff, ninf);
-    std::fill(&E[size], &E[size] + size_diff, ninf);
-    std::fill(&F[size], &F[size] + size_diff, ninf);
-    memset(&OS[size], 0, sizeof(typename decltype(OS)::value_type) * size_diff);
-    memset(&OE[size], 0, sizeof(typename decltype(OE)::value_type) * size_diff);
-    memset(&OF[size], 0, sizeof(typename decltype(OF)::value_type) * size_diff);
-    memset(&PS[size], 0, sizeof(typename decltype(PS)::value_type) * size_diff);
-    memset(&PF[size], 0, sizeof(typename decltype(PF)::value_type) * size_diff);
-}
+        if (skip_backtrack_start(j))
+            continue;
 
-template <typename NodeType>
-std::vector<std::pair<NodeType, char>> DefaultColumnExtender<NodeType>
-::get_outgoing(const AlignNode &node) const {
-    std::vector<std::pair<NodeType, char>> outgoing;
-    if (std::get<0>(node) == graph_.max_index() + 1) {
-        outgoing.emplace_back(seed_->back(), seed_->get_sequence().back());
-    } else {
-        graph_.call_outgoing_kmers(std::get<0>(node), [&](NodeType next, char c) {
-            if (c != boss::BOSS::kSentinel)
-                outgoing.emplace_back(next, c);
-        });
+        std::vector<DeBruijnGraph::node_index> path;
+        std::vector<size_t> trace;
+        Cigar ops;
+        std::string seq;
+        score_t score = start_score;
+
+        ssize_t pos = std::get<7>(table[j]);
+        ssize_t end_pos = pos;
+        size_t align_offset = this->seed_->get_offset();
+
+        while (j && !terminate_backtrack()) {
+            assert(j != static_cast<size_t>(-1));
+            const auto &[S, E, F, node, j_prev, c, offset, max_pos, trim] = table[j];
+            const auto &[S_p, E_p, F_p, node_p, j_prev_p, c_p, offset_p, max_pos_p, trim_p] = table[j_prev];
+
+            assert(pos >= trim);
+            assert(*std::max_element(S.begin(), S.end()) == S[max_pos - trim]);
+            assert(c == graph_->get_node_sequence(node)[std::min(k_minus_1, offset)]);
+
+            align_offset = std::min(offset, k_minus_1);
+
+            if (pos == max_pos)
+                prev_starts.emplace(j);
+
+            if (S[pos - trim] == ninf) {
+                j = 0;
+
+            } else if (pos && pos >= trim_p + 1
+                    && S[pos - trim] == S_p[pos - trim_p - 1]
+                        + profile_score_.find(c)->second[seed_clipping + pos]) {
+                // match/mismatch
+                trace.emplace_back(j);
+                if (offset >= k_minus_1)
+                    path.emplace_back(node);
+
+                seq += c;
+                ops.append(profile_op_.find(c)->second[seed_clipping + pos]);
+                --pos;
+                assert(j_prev != static_cast<size_t>(-1));
+                j = j_prev;
+
+            } else if (S[pos - trim] == F[pos - trim] && ops.size()
+                    && ops.data().back().first != Cigar::INSERTION) {
+                // deletion
+                Cigar::Operator last_op = Cigar::DELETION;
+                while (last_op == Cigar::DELETION && j) {
+                    const auto &[S, E, F, node, j_prev, c, offset, max_pos, trim] = table[j];
+                    const auto &[S_p, E_p, F_p, node_p, j_prev_p, c_p, offset_p, max_pos_p, trim_p] = table[j_prev];
+
+                    assert(pos >= trim_p);
+
+                    assert(F[pos - trim] == F_p[pos - trim_p] + config_.gap_extension_penalty
+                        || F[pos - trim] == S_p[pos - trim_p] + config_.gap_opening_penalty);
+
+                    last_op = F[pos - trim] == F_p[pos - trim_p] + config_.gap_extension_penalty
+                        ? Cigar::DELETION
+                        : Cigar::MATCH;
+
+                    trace.emplace_back(j);
+                    if (offset >= k_minus_1)
+                        path.emplace_back(node);
+
+                    seq += c;
+                    ops.append(Cigar::DELETION);
+                    assert(j_prev != static_cast<size_t>(-1));
+                    j = j_prev;
+                }
+            } else if (pos && S[pos - trim] == E[pos - trim] && ops.size()
+                    && ops.data().back().first != Cigar::DELETION) {
+                // insertion
+                Cigar::Operator last_op = Cigar::INSERTION;
+                while (last_op == Cigar::INSERTION) {
+                    ops.append(last_op);
+
+                    assert(E[pos - trim] == E[pos - trim - 1] + config_.gap_extension_penalty
+                        || E[pos - trim] == S[pos - trim - 1] + config_.gap_opening_penalty);
+
+                    last_op = E[pos - trim] == E[pos - trim - 1] + config_.gap_extension_penalty
+                        ? Cigar::INSERTION
+                        : Cigar::MATCH;
+
+                    --pos;
+                }
+#ifndef NDEBUG
+            } else {
+                assert(false && "Failure to backtrack. One of the above should apply");
+#endif
+            }
+
+            if (trace.size() >= this->graph_->get_k()) {
+                const auto &[S, E, F, node, j_prev, c, offset, max_pos, trim] = table[j];
+
+                call_alignments(S[pos - trim], score, min_path_score, path, trace, ops,
+                                pos, align_offset, window.substr(pos, end_pos - pos), seq,
+                                [&](Alignment&& alignment) {
+                    extensions.emplace_back(std::move(alignment));
+                });
+            }
+        }
     }
 
-    return outgoing;
+    return extensions;
 }
 
-template class DefaultColumnExtender<>;
-
 } // namespace align
 } // namespace graph
 } // namespace mtg
diff --git a/metagraph/src/graph/alignment/aligner_extender_methods.hpp b/metagraph/src/graph/alignment/aligner_extender_methods.hpp
index 95c9e61cc7..b354730b4a 100644
--- a/metagraph/src/graph/alignment/aligner_extender_methods.hpp
+++ b/metagraph/src/graph/alignment/aligner_extender_methods.hpp
@@ -1,7 +1,8 @@
-#ifndef __DBG_ALIGNER_METHODS_HPP__
-#define __DBG_ALIGNER_METHODS_HPP__
+#ifndef __DBG_EXTENDER_METHODS_HPP__
+#define __DBG_EXTENDER_METHODS_HPP__
 
 #include <tsl/hopscotch_map.h>
+#include <tsl/hopscotch_set.h>
 
 #include "aligner_alignment.hpp"
 #include "common/aligned_vector.hpp"
@@ -9,92 +10,146 @@
 
 namespace mtg {
 namespace graph {
-
-class DBGSuccinct;
-
 namespace align {
 
-template <typename NodeType = uint64_t>
 class IExtender {
   public:
-    typedef Alignment<NodeType> DBGAlignment;
-    typedef typename DBGAlignment::node_index node_index;
-    typedef typename DBGAlignment::score_t score_t;
+    typedef DeBruijnGraph::node_index node_index;
+    typedef Alignment::score_t score_t;
 
     virtual ~IExtender() {}
 
-    virtual std::vector<DBGAlignment>
-    get_extensions(score_t min_path_score = std::numeric_limits<score_t>::min()) = 0;
+    std::vector<Alignment>
+    get_extensions(const Alignment &seed,
+                   score_t min_path_score = std::numeric_limits<score_t>::min()) {
+        return set_seed(seed) ? extend(min_path_score) : std::vector<Alignment>{};
+    }
 
-    virtual void initialize(const DBGAlignment &seed) = 0;
+    virtual void set_graph(const DeBruijnGraph &graph) = 0;
 
-    virtual void
-    call_visited_nodes(const std::function<void(NodeType,
-                                                size_t /* range begin */,
-                                                size_t /* range end */)> &callback) const = 0;
+    virtual size_t num_explored_nodes() const = 0;
 
   protected:
-    virtual void reset() = 0;
-    virtual const DBGAlignment& get_seed() const = 0;
-};
+    virtual const Alignment& get_seed() const = 0;
+    virtual bool set_seed(const Alignment &seed) = 0;
 
+    virtual std::vector<Alignment> extend(score_t min_path_score) = 0;
+};
 
-template <typename NodeType = uint64_t>
-class DefaultColumnExtender : public IExtender<NodeType> {
+class SeedFilteringExtender : public IExtender {
   public:
-    typedef typename IExtender<NodeType>::DBGAlignment DBGAlignment;
-    typedef typename IExtender<NodeType>::node_index node_index;
-    typedef typename IExtender<NodeType>::score_t score_t;
+    SeedFilteringExtender(std::string_view query) : query_size_(query.size()) {}
 
-    enum NodeId : uint8_t {
-        NONE,
-        PREV,
-        CUR
-    };
+    virtual ~SeedFilteringExtender() {}
 
-    DefaultColumnExtender(const DeBruijnGraph &graph,
-                          const DBGAlignerConfig &config,
-                          std::string_view query);
+    virtual void set_graph(const DeBruijnGraph &) override { conv_checker_.clear(); }
 
-    virtual ~DefaultColumnExtender() {}
+    virtual size_t num_explored_nodes() const override { return conv_checker_.size(); }
 
-    virtual std::vector<DBGAlignment>
-    get_extensions(score_t min_path_score = std::numeric_limits<score_t>::min()) override;
+  protected:
+    const Alignment *seed_ = nullptr;
+    size_t query_size_;
 
-    virtual void initialize(const DBGAlignment &seed) override;
+    typedef std::pair<size_t, AlignedVector<score_t>> ScoreVec;
+    tsl::hopscotch_map<node_index, ScoreVec> conv_checker_;
 
-    virtual void
-    call_visited_nodes(const std::function<void(NodeType,
-                                                size_t /* range begin */,
-                                                size_t /* range end */)> &callback) const override;
+    virtual const Alignment& get_seed() const override final { return *seed_; }
+    virtual bool set_seed(const Alignment &seed) override;
 
-  protected:
-    const DeBruijnGraph &graph_;
-    const DBGAlignerConfig &config_;
-    std::string_view query_;
+    virtual bool update_seed_filter(node_index node,
+                                    size_t query_start,
+                                    const score_t *s_begin,
+                                    const score_t *s_end);
 
-    typedef std::tuple<NodeType,
-                       char /* last character of the node label */,
-                       size_t /* copy number */,
-                       size_t /* distance from origin */> AlignNode;
+    virtual bool filter_nodes(node_index node, size_t query_start, size_t query_end);
+};
 
-    typedef AlignedVector<score_t> ScoreVec;
-    typedef AlignedVector<NodeId> PrevVec;
-    typedef AlignedVector<Cigar::Operator> OpVec;
-    typedef std::tuple<ScoreVec, ScoreVec, ScoreVec,
-                       OpVec, OpVec, OpVec, AlignNode,
-                       PrevVec, PrevVec,
-                       size_t /* offset */,
-                       size_t /* max_pos */> Scores;
-    typedef std::pair<std::vector<Scores>, bool> Column;
+class DefaultColumnExtender : public SeedFilteringExtender {
+  public:
+    DefaultColumnExtender(const DeBruijnGraph &graph,
+                          const DBGAlignerConfig &config,
+                          std::string_view query);
 
-    tsl::hopscotch_map<NodeType, Column> table_;
+    virtual ~DefaultColumnExtender() {}
 
-    virtual void reset() override { table_.clear(); }
+    virtual void set_graph(const DeBruijnGraph &graph) override {
+        SeedFilteringExtender::set_graph(graph);
+        graph_ = &graph;
+    }
 
-    virtual const DBGAlignment& get_seed() const override { return *seed_; }
+  protected:
+    const DeBruijnGraph *graph_;
+    const DBGAlignerConfig &config_;
+    std::string_view query_;
 
-    virtual std::vector<std::pair<NodeType, char>> get_outgoing(const AlignNode &node) const;
+    // During extension, a tree is constructed from the graph starting at the
+    // seed, then the query is aligned against this tree.
+    // Each Column object represents the alignment of a substring of the query
+    // against a node in the tree.
+    // The horizontal concatenation (hstack) of all of the columns along a path
+    // in this tree is analogous to a Needleman-Wunsch dynamic programming score matrix.
+    using Column = std::tuple<AlignedVector<score_t> /* S (best score) */,
+                              AlignedVector<score_t> /* E (best score after insert) */,
+                              AlignedVector<score_t> /* F (best score after delete) */,
+                              node_index /* node */,
+                              size_t /* parent index in table */,
+                              char /* last char of node */,
+                              ssize_t /* offset (distance from start of the first node) */,
+                              ssize_t /* absolute index of maximal value*/,
+                              ssize_t /* trim (starting absolute index of array) */>;
+    // e.g., the maximal value is located at S[std::get<7>(col) - std::get<8>(col)]
+    std::vector<Column> table;
+    size_t table_size_bytes_;
+
+    tsl::hopscotch_set<size_t> prev_starts;
+
+    virtual std::vector<Alignment> extend(score_t min_path_score) override;
+
+    // backtracking helpers
+    virtual bool terminate_backtrack_start(const std::vector<Alignment> &extensions) const {
+        return extensions.size() >= config_.num_alternative_paths;
+    }
+
+    virtual bool terminate_backtrack() const { return false; }
+
+    virtual bool skip_backtrack_start(size_t table_i) {
+        return !prev_starts.emplace(table_i).second;
+    }
+
+    // This method calls at most one alignment, but can be overridden by a child
+    // class to call multiple alignments.
+    virtual void call_alignments(score_t cur_cell_score,
+                                 score_t end_score,
+                                 score_t min_path_score,
+                                 const std::vector<node_index> &path,
+                                 const std::vector<size_t> & /* trace */,
+                                 const Cigar &ops,
+                                 size_t clipping,
+                                 size_t offset,
+                                 std::string_view window,
+                                 const std::string &match,
+                                 const std::function<void(Alignment&&)> &callback) {
+        assert(path.size());
+        assert(ops.size());
+
+        if (cur_cell_score == 0 && ops.data().back().first == Cigar::MATCH
+                && end_score >= min_path_score) {
+            callback(construct_alignment(ops, clipping, window, path, match,
+                                         end_score, offset));
+        }
+    }
+
+    virtual void call_outgoing(node_index node,
+                               size_t max_prefetch_distance,
+                               const std::function<void(node_index, char)> &callback);
+
+    Alignment construct_alignment(Cigar cigar,
+                                  size_t clipping,
+                                  std::string_view window,
+                                  std::vector<node_index> final_path,
+                                  std::string match,
+                                  score_t score,
+                                  size_t offset) const;
 
   private:
     // compute perfect match scores for all suffixes
@@ -102,24 +157,15 @@ class DefaultColumnExtender : public IExtender<NodeType> {
     std::vector<score_t> partial_sums_;
 
     // a quick lookup table of char pair match/mismatch scores for the current query
-    tsl::hopscotch_map<char, AlignedVector<int8_t>> profile_score_;
+    tsl::hopscotch_map<char, AlignedVector<score_t>> profile_score_;
     tsl::hopscotch_map<char, AlignedVector<Cigar::Operator>> profile_op_;
 
-    // the initial seed
-    const DBGAlignment *seed_;
-
-    std::string_view extend_window_;
-
-    // start of the partial sum table
-    const score_t *match_score_begin_;
-
-    static bool has_converged(const Column &column, const Scores &next);
-
-    static void sanitize(Scores &scores);
+    // backtrack through the DP table to reconstruct alignments
+    virtual std::vector<Alignment> backtrack(score_t min_path_score, std::string_view window);
 };
 
 } // namespace align
 } // namespace graph
 } // namespace mtg
 
-#endif // __DBG_ALIGNER_METHODS_HPP__
+#endif // __DBG_EXTENDER_METHODS_HPP__
diff --git a/metagraph/src/graph/alignment/aligner_seeder_methods.cpp b/metagraph/src/graph/alignment/aligner_seeder_methods.cpp
index 82ebab472e..b754aa76de 100644
--- a/metagraph/src/graph/alignment/aligner_seeder_methods.cpp
+++ b/metagraph/src/graph/alignment/aligner_seeder_methods.cpp
@@ -10,36 +10,19 @@ namespace mtg {
 namespace graph {
 namespace align {
 
-typedef DBGAlignerConfig::score_t score_t;
-
-template <typename NodeType>
-ExactSeeder<NodeType>::ExactSeeder(const DeBruijnGraph &graph,
-                                   std::string_view query,
-                                   bool orientation,
-                                   std::vector<NodeType>&& nodes,
-                                   const DBGAlignerConfig &config)
+ExactSeeder::ExactSeeder(const DeBruijnGraph &graph,
+                         std::string_view query,
+                         bool orientation,
+                         const std::vector<node_index> &nodes,
+                         const DBGAlignerConfig &config)
       : graph_(graph),
         query_(query),
         orientation_(orientation),
-        query_nodes_(std::move(nodes)),
+        query_nodes_(nodes),
         config_(config),
-        num_matching_(0) {
+        num_matching_(num_exact_matching()) {
     assert(config_.check_config_scores());
 
-    // count the number of matching nucleotides
-    size_t last_match_count = 0;
-    for (auto it = query_nodes_.begin(); it != query_nodes_.end(); ++it) {
-        if (*it) {
-            auto jt = std::find(it + 1, query_nodes_.end(), NodeType());
-            num_matching_ += graph_.get_k() + std::distance(it, jt) - 1 - last_match_count;
-            last_match_count = graph_.get_k();
-            it = jt - 1;
-        } else if (last_match_count) {
-            --last_match_count;
-        }
-    }
-    assert(num_matching_ <= query_.size());
-
     partial_sum_.resize(query_.size() + 1);
     std::transform(query_.begin(), query_.end(),
                    partial_sum_.begin() + 1,
@@ -51,35 +34,45 @@ ExactSeeder<NodeType>::ExactSeeder(const DeBruijnGraph &graph,
     assert(!partial_sum_.front());
 }
 
-template <typename NodeType>
-auto ExactSeeder<NodeType>::get_seeds() const -> std::vector<Seed> {
-    const DeBruijnGraph &graph = this->graph_;
-    size_t k = graph.get_k();
+size_t ExactSeeder::num_exact_matching() const {
+    size_t num_matching = 0;
+    size_t last_match_count = 0;
+    for (auto it = query_nodes_.begin(); it != query_nodes_.end(); ++it) {
+        if (*it) {
+            auto jt = std::find(it + 1, query_nodes_.end(), node_index());
+            num_matching += graph_.get_k() + std::distance(it, jt) - 1 - last_match_count;
+            last_match_count = graph_.get_k();
+            it = jt - 1;
+        } else if (last_match_count) {
+            --last_match_count;
+        }
+    }
+    assert(num_matching <= query_.size());
 
-    const DBGAlignerConfig &config = this->config_;
-    assert(k >= config.min_seed_length);
+    return num_matching;
+}
 
-    const std::vector<NodeType> &query_nodes = this->query_nodes_;
-    const std::vector<score_t> &partial_sum = this->partial_sum_;
-    std::string_view query = this->query_;
-    bool orientation = this->orientation_;
+auto ExactSeeder::get_seeds() const -> std::vector<Seed> {
+    size_t k = graph_.get_k();
+    assert(k >= config_.min_seed_length);
 
-    if (this->num_matching_ < config.min_exact_match * query.size())
+    if (num_matching_ < config_.min_exact_match * query_.size())
         return {};
 
     std::vector<Seed> seeds;
 
-    for (size_t i = 0; i < query_nodes.size(); ++i) {
-        if (query_nodes[i] != DeBruijnGraph::npos) {
-            assert(i + k <= query.size());
+    for (size_t i = 0; i < query_nodes_.size(); ++i) {
+        if (query_nodes_[i] != DeBruijnGraph::npos) {
+            assert(i + k <= query_.size());
 
-            score_t match_score = partial_sum[i + k] - partial_sum[i];
+            score_t match_score = partial_sum_[i + k] - partial_sum_[i];
 
-            if (match_score > config.min_cell_score) {
-                seeds.emplace_back(query.substr(i, k),
-                                   std::vector<NodeType>{ query_nodes[i] },
-                                   match_score, i, orientation);
-                assert(seeds.back().is_valid(graph, &config));
+            if (match_score > config_.min_cell_score) {
+                seeds.emplace_back(query_.substr(i, k),
+                                   std::vector<node_index>{ query_nodes_[i] },
+                                   std::string(query_.substr(i, k)), match_score,
+                                   i, orientation_);
+                assert(seeds.back().is_valid(graph_, &config_));
             }
         }
     }
@@ -136,7 +129,15 @@ void suffix_to_prefix(const DBGSuccinct &dbg_succ,
 template <class BaseSeeder>
 auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
     // this method assumes that seeds from the BaseSeeder are exact match only
-    static_assert(std::is_base_of_v<ExactSeeder<node_index>, BaseSeeder>);
+    static_assert(std::is_base_of_v<ExactSeeder, BaseSeeder>);
+
+    if (this->config_.min_seed_length >= this->graph_.get_k())
+        return this->BaseSeeder::get_seeds();
+
+    const DBGSuccinct &dbg_succ = get_base_dbg_succ(this->graph_);
+
+    if (this->query_.size() < this->config_.min_seed_length)
+        return {};
 
     std::vector<std::vector<Seed>> suffix_seeds(
         this->query_.size() - this->config_.min_seed_length + 1
@@ -167,15 +168,15 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
         assert(i < suffix_seeds.size());
 
         std::string_view seed_seq = this->query_.substr(i, seed_length);
-        DBGAlignerConfig::score_t match_score = this->config_.match_score(seed_seq);
+        score_t match_score = this->config_.match_score(seed_seq);
 
         if (match_score <= this->config_.min_cell_score)
             return;
 
         assert(seed_length == min_seed_length[i]);
         suffix_seeds[i].emplace_back(seed_seq, std::vector<node_index>{ alt_node },
-                                     match_score, i, this->orientation_,
-                                     this->graph_.get_k() - seed_length);
+                                     std::string(seed_seq), match_score, i,
+                                     this->orientation_, this->graph_.get_k() - seed_length);
         assert(suffix_seeds[i].back().is_valid(this->graph_, &this->config_));
     };
 
@@ -196,7 +197,7 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
                                                 this->graph_.get_k() - 1,
                                                 this->query_.size() - i });
             if (max_seed_length >= min_seed_length[i]) {
-                dbg_succ_.call_nodes_with_suffix_matching_longest_prefix(
+                dbg_succ.call_nodes_with_suffix_matching_longest_prefix(
                     this->query_.substr(i, max_seed_length),
                     [&](node_index alt_node, size_t seed_length) {
                         if (seed_length > min_seed_length[i])
@@ -220,8 +221,7 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
         }
     }
 
-    const auto *canonical = dynamic_cast<const CanonicalDBG*>(&this->graph_);
-    if (canonical) {
+    if (const auto *canonical = dynamic_cast<const CanonicalDBG*>(&this->graph_)) {
         // find sub-k matches in the reverse complement
         // TODO: find sub-k seeds which are sink tips in the underlying graph
         std::string query_rc(this->query_);
@@ -257,7 +257,7 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
             if (j_min > j_max)
                 continue;
 
-            const auto &boss = dbg_succ_.get_boss();
+            const auto &boss = dbg_succ.get_boss();
 
             auto encoded = boss.encode({ query_rc.data() + i, max_seed_length });
             auto [first, last, end] = boss.index_range(encoded.begin(), encoded.end());
@@ -291,7 +291,7 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
             }
 
             // e.g., match: ***ATG, want ATG***
-            suffix_to_prefix(dbg_succ_, std::make_tuple(first, last, seed_length),
+            suffix_to_prefix(dbg_succ, std::make_tuple(first, last, seed_length),
                              [&](node_index prefix_node) {
                 append_suffix_seed(
                     j, canonical->reverse_complement(prefix_node), seed_length
@@ -307,7 +307,17 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
         if (pos_seeds.empty())
             continue;
 
-        assert(std::equal(pos_seeds.begin() + 1, pos_seeds.end(), pos_seeds.begin()));
+        // all seeds should have the same properties, but they will be at different
+        // graph nodes
+        assert(std::equal(pos_seeds.begin() + 1, pos_seeds.end(), pos_seeds.begin(),
+                          [](const Seed &a, const Seed &b) {
+            return a.get_orientation() == b.get_orientation()
+                && a.get_offset() == b.get_offset()
+                && a.get_score() == b.get_score()
+                && a.get_query() == b.get_query()
+                && a.get_sequence() == b.get_sequence()
+                && a.get_cigar() == b.get_cigar();
+        }));
 
         if (!pos_seeds[0].get_offset()) {
             assert(min_seed_length[i] == this->graph_.get_k());
@@ -326,28 +336,21 @@ auto SuffixSeeder<BaseSeeder>::get_seeds() const -> std::vector<Seed> {
     return output_seeds;
 }
 
-template <class BaseSeeder>
-const DBGSuccinct& SuffixSeeder<BaseSeeder>
-::get_base_dbg_succ(const DeBruijnGraph &graph) {
-    return dynamic_cast<const CanonicalDBG*>(&graph)
-        ? dynamic_cast<const DBGSuccinct&>(
-              dynamic_cast<const CanonicalDBG&>(graph).get_graph())
-        : dynamic_cast<const DBGSuccinct&>(graph);
-}
+auto MEMSeeder::get_seeds() const -> std::vector<Seed> {
+    size_t k = graph_.get_k();
 
-template <typename NodeType>
-auto MEMSeeder<NodeType>::get_seeds() const -> std::vector<Seed> {
-    size_t k = this->graph_.get_k();
+    if (k >= config_.max_seed_length)
+        return ExactSeeder::get_seeds();
 
-    if (this->num_matching_ < this->config_.min_exact_match * this->query_.size())
+    if (num_matching_ < config_.min_exact_match * query_.size())
         return {};
 
-    std::vector<uint8_t> query_node_flags(this->query_nodes_.size(), 0);
+    std::vector<uint8_t> query_node_flags(query_nodes_.size(), 0);
     for (size_t i = 0; i < query_node_flags.size(); ++i) {
-        if (this->query_nodes_[i] != DeBruijnGraph::npos) {
+        if (query_nodes_[i] != DeBruijnGraph::npos) {
             // the second bit indicates that a node has been found, while the
             // first bit indicates if the node is a maximal exact match terminus
-            query_node_flags[i] = 2 | get_mem_terminator()[this->query_nodes_[i]];
+            query_node_flags[i] = 2 | get_mem_terminator()[query_nodes_[i]];
         }
     }
 
@@ -372,27 +375,27 @@ auto MEMSeeder<NodeType>::get_seeds() const -> std::vector<Seed> {
 
         size_t i = it - query_node_flags.begin();
         assert(it == query_node_flags.end()
-                || this->query_nodes_[i] != DeBruijnGraph::npos);
+                || query_nodes_[i] != DeBruijnGraph::npos);
 
         size_t mem_length = (next - it) + k - 1;
-        assert(i + mem_length <= this->query_.size());
+        assert(i + mem_length <= query_.size());
 
-        if (mem_length >= this->config_.min_seed_length) {
-            const char *begin_it = this->query_.data() + i;
+        if (mem_length >= config_.min_seed_length) {
+            const char *begin_it = query_.data() + i;
             const char *end_it = begin_it + mem_length;
 
-            score_t match_score = this->partial_sum_[end_it - this->query_.data()]
-                                        - this->partial_sum_[i];
+            score_t match_score = partial_sum_[end_it - query_.data()] - partial_sum_[i];
 
-            auto node_begin_it = this->query_nodes_.begin() + i;
+            auto node_begin_it = query_nodes_.begin() + i;
             auto node_end_it = node_begin_it + (next - it);
             assert(std::find(node_begin_it, node_end_it, DeBruijnGraph::npos) == node_end_it);
 
-            if (match_score > this->config_.min_cell_score) {
+            if (match_score > config_.min_cell_score) {
                 seeds.emplace_back(std::string_view(begin_it, mem_length),
-                                   std::vector<NodeType>{ node_begin_it, node_end_it },
-                                   match_score, i,this->orientation_);
-                assert(seeds.back().is_valid(this->graph_, &this->config_));
+                                   std::vector<node_index>{ node_begin_it, node_end_it },
+                                   std::string(begin_it, begin_it + mem_length),
+                                   match_score, i, orientation_);
+                assert(seeds.back().is_valid(graph_, &config_));
             }
         }
 
@@ -402,12 +405,20 @@ auto MEMSeeder<NodeType>::get_seeds() const -> std::vector<Seed> {
     return seeds;
 }
 
+template <class BaseSeeder>
+const DBGSuccinct& SuffixSeeder<BaseSeeder>
+::get_base_dbg_succ(const DeBruijnGraph &graph) {
+    try {
+        return dynamic_cast<const DBGSuccinct&>(graph.get_base_graph());
+
+    } catch (const std::bad_cast &e) {
+        common::logger->error("SuffixSeeder can be used only with succinct graph representation");
+        throw e;
+    }
+}
 
-template class ExactSeeder<>;
-template class MEMSeeder<>;
-template class UniMEMSeeder<>;
-template class SuffixSeeder<ExactSeeder<>>;
-template class SuffixSeeder<UniMEMSeeder<>>;
+template class SuffixSeeder<ExactSeeder>;
+template class SuffixSeeder<UniMEMSeeder>;
 
 } // namespace align
 } // namespace graph
diff --git a/metagraph/src/graph/alignment/aligner_seeder_methods.hpp b/metagraph/src/graph/alignment/aligner_seeder_methods.hpp
index 3b6977af60..c3f9e9525c 100644
--- a/metagraph/src/graph/alignment/aligner_seeder_methods.hpp
+++ b/metagraph/src/graph/alignment/aligner_seeder_methods.hpp
@@ -12,42 +12,37 @@ class DBGSuccinct;
 
 namespace align {
 
-template <typename NodeType = uint64_t>
 class ISeeder {
   public:
-    typedef Alignment<NodeType> Seed;
+    typedef DeBruijnGraph::node_index node_index;
+    typedef Alignment Seed;
 
     virtual ~ISeeder() {}
 
     virtual std::vector<Seed> get_seeds() const = 0;
 };
 
-template <typename NodeType = uint64_t>
-class ManualSeeder : public ISeeder<NodeType> {
+class ManualSeeder : public ISeeder {
   public:
-    typedef NodeType node_index;
-    typedef Alignment<NodeType> Seed;
-
     ManualSeeder(std::vector<Seed>&& seeds) : seeds_(std::move(seeds)) {}
 
     virtual ~ManualSeeder() {}
 
     std::vector<Seed> get_seeds() const override { return seeds_; }
+    std::vector<Seed>& data() { return seeds_; }
 
   private:
     std::vector<Seed> seeds_;
 };
 
-template <typename NodeType = uint64_t>
-class ExactSeeder : public ISeeder<NodeType> {
+class ExactSeeder : public ISeeder {
   public:
-    typedef NodeType node_index;
-    typedef typename ISeeder<NodeType>::Seed Seed;
+    typedef DBGAlignerConfig::score_t score_t;
 
     ExactSeeder(const DeBruijnGraph &graph,
                 std::string_view query,
                 bool orientation,
-                std::vector<NodeType>&& nodes,
+                const std::vector<node_index> &nodes,
                 const DBGAlignerConfig &config);
 
     virtual ~ExactSeeder() {}
@@ -58,19 +53,18 @@ class ExactSeeder : public ISeeder<NodeType> {
     const DeBruijnGraph &graph_;
     std::string_view query_;
     bool orientation_;
-    std::vector<NodeType> query_nodes_;
+    const std::vector<node_index> &query_nodes_;
     const DBGAlignerConfig &config_;
-    std::vector<DBGAlignerConfig::score_t> partial_sum_;
+    std::vector<score_t> partial_sum_;
     size_t num_matching_;
+
+    size_t num_exact_matching() const;
 };
 
-template <typename NodeType = uint64_t>
-class MEMSeeder : public ExactSeeder<NodeType> {
+class MEMSeeder : public ExactSeeder {
   public:
-    typedef typename ISeeder<NodeType>::Seed Seed;
-
     template <typename... Args>
-    MEMSeeder(Args&&... args) : ExactSeeder<NodeType>(std::forward<Args>(args)...) {}
+    MEMSeeder(Args&&... args) : ExactSeeder(std::forward<Args>(args)...) {}
 
     virtual ~MEMSeeder() {}
 
@@ -79,21 +73,17 @@ class MEMSeeder : public ExactSeeder<NodeType> {
     virtual const bitmap& get_mem_terminator() const = 0;
 };
 
-template <typename NodeType = uint64_t>
-class UniMEMSeeder : public MEMSeeder<NodeType> {
+class UniMEMSeeder : public MEMSeeder {
   public:
-    typedef NodeType node_index;
-    typedef typename ISeeder<NodeType>::Seed Seed;
-
     template <typename... Args>
     UniMEMSeeder(Args&&... args)
-          : MEMSeeder<NodeType>(std::forward<Args>(args)...),
+          : MEMSeeder(std::forward<Args>(args)...),
             is_mem_terminus_([&](auto i) {
-                                 return this->graph_.has_multiple_outgoing(i)
-                                     || this->graph_.indegree(i) > 1;
+                                 return graph_.has_multiple_outgoing(i)
+                                     || graph_.indegree(i) > 1;
                              },
-                             this->graph_.max_index() + 1) {
-        assert(is_mem_terminus_.size() == this->graph_.max_index() + 1);
+                             graph_.max_index() + 1) {
+        assert(is_mem_terminus_.size() == graph_.max_index() + 1);
     }
 
     virtual ~UniMEMSeeder() {}
@@ -107,25 +97,18 @@ class UniMEMSeeder : public MEMSeeder<NodeType> {
 template <class BaseSeeder>
 class SuffixSeeder : public BaseSeeder {
   public:
-    typedef typename BaseSeeder::node_index node_index;
     typedef typename BaseSeeder::Seed Seed;
+    typedef typename BaseSeeder::node_index node_index;
+    typedef typename BaseSeeder::score_t score_t;
 
     template <typename... Args>
-    SuffixSeeder(Args&&... args)
-          : BaseSeeder(std::forward<Args>(args)...),
-            dbg_succ_(get_base_dbg_succ(this->graph_)) {
-        assert(this->config_.min_seed_length < this->graph_.get_k());
-    }
+    SuffixSeeder(Args&&... args) : BaseSeeder(std::forward<Args>(args)...) {}
 
     virtual ~SuffixSeeder() {}
 
     std::vector<Seed> get_seeds() const override;
 
     BaseSeeder& get_base_seeder() { return dynamic_cast<BaseSeeder&>(*this); }
-
-  private:
-    const DBGSuccinct &dbg_succ_;
-
     static const DBGSuccinct& get_base_dbg_succ(const DeBruijnGraph &graph);
 };
 
diff --git a/metagraph/src/graph/alignment/dbg_aligner.cpp b/metagraph/src/graph/alignment/dbg_aligner.cpp
index 1f0e2e5c0d..a963a8ed72 100644
--- a/metagraph/src/graph/alignment/dbg_aligner.cpp
+++ b/metagraph/src/graph/alignment/dbg_aligner.cpp
@@ -1,20 +1,17 @@
 #include "dbg_aligner.hpp"
 
-#include "aligner_aggregator.hpp"
+#include "common/algorithms.hpp"
+#include "graph/representation/rc_dbg.hpp"
 
 namespace mtg {
 namespace graph {
 namespace align {
 
-IDBGAligner::DBGQueryAlignment IDBGAligner::align(std::string_view query,
-                                                  bool is_reverse_complement) const {
-    DBGQueryAlignment result(query);
-    std::string empty_header;
-    align_batch(
-        [&](const QueryCallback &callback) {
-            callback(empty_header, query, is_reverse_complement);
-        },
-        [&](std::string_view, DBGQueryAlignment&& alignment) {
+
+QueryAlignment IDBGAligner::align(std::string_view query, bool is_reverse_complement) const {
+    QueryAlignment result(query);
+    align_batch({ Query{ std::string{}, query, is_reverse_complement} },
+        [&](std::string_view, QueryAlignment&& alignment) {
             result = std::move(alignment);
         }
     );
@@ -22,176 +19,189 @@ IDBGAligner::DBGQueryAlignment IDBGAligner::align(std::string_view query,
     return result;
 }
 
-void IDBGAligner
-::align_batch(const std::vector<std::pair<std::string, std::string>> &seq_batch,
-              const AlignmentCallback &callback) const {
-    align_batch([&](const QueryCallback &query_callback) {
-        for (const auto &[header, seq] : seq_batch) {
-            query_callback(header, seq, false /* orientation of seq */);
-        }
-    }, callback);
+template <class AlignmentCompare>
+ISeedAndExtendAligner<AlignmentCompare>
+::ISeedAndExtendAligner(const DeBruijnGraph &graph, const DBGAlignerConfig &config)
+      : graph_(graph), config_(config) {
+    if (!config_.min_seed_length)
+        config_.min_seed_length = graph_.get_k();
+
+    if (!config_.max_seed_length)
+        config_.max_seed_length = graph_.get_k();
+
+    assert(config_.max_seed_length >= config_.min_seed_length);
+    assert(config_.num_alternative_paths);
+    assert(graph_.get_mode() != DeBruijnGraph::PRIMARY
+        && "primary graphs must be wrapped into canonical");
+
+    if (!config_.check_config_scores())
+        throw std::runtime_error("Error: sum of min_cell_score and lowest penalty too low.");
 }
 
 template <class AlignmentCompare>
-void SeedAndExtendAlignerCore<AlignmentCompare>
-::align_core(std::string_view query,
-             const ISeeder<node_index> &seeder,
-             IExtender<node_index> &extender,
-             const LocalAlignmentCallback &callback,
-             const MinScoreComputer &get_min_path_score) const {
-    bool filter_seeds = dynamic_cast<const ExactSeeder<node_index>*>(&seeder);
+void ISeedAndExtendAligner<AlignmentCompare>
+::align_batch(const std::vector<IDBGAligner::Query> &seq_batch,
+              const AlignmentCallback &callback) const {
+    for (const auto &[header, query, is_reverse_complement] : seq_batch) {
+        QueryAlignment paths(query, is_reverse_complement);
+        Aggregator aggregator(graph_, paths.get_query(false), paths.get_query(true), config_);
 
-    std::vector<DBGAlignment> seeds = seeder.get_seeds();
-    std::sort(seeds.begin(), seeds.end(), LocalAlignmentGreater());
+        auto add_alignment = [&](Alignment&& alignment) {
+            assert(alignment.is_valid(graph_, &config_));
+            aggregator.add_alignment(std::move(alignment));
+        };
 
-    for (DBGAlignment &seed : seeds) {
-        score_t min_path_score = get_min_path_score(seed);
+        auto get_min_path_score = [&](const Alignment &seed) {
+            return aggregator.get_min_path_score(seed);
+        };
 
-        // check if this seed has been explored before in an alignment and discard
-        // it if so
-        if (filter_seeds) {
-            size_t found_count = 0;
-            std::pair<size_t, size_t> idx_range {
-                seed.get_clipping(),
-                seed.get_clipping() + graph_.get_k() - seed.get_offset()
-            };
-            for (node_index node : seed) {
-                auto emplace = visited_nodes_.emplace(node, idx_range);
-                auto &range = emplace.first.value();
-                if (emplace.second) {
-                } else if (range.first > idx_range.first || range.second < idx_range.second) {
-                    DEBUG_LOG("Node: {}; Prev_range: [{},{})", node, range.first, range.second);
-                    range.first = std::min(range.first, idx_range.first);
-                    range.second = std::max(range.second, idx_range.second);
-                    DEBUG_LOG("Node: {}; cur_range: [{},{})", node, range.first, range.second);
-                } else {
-                    ++found_count;
-                }
+        std::string_view this_query = paths.get_query(is_reverse_complement);
+        assert(this_query == query);
 
-                if (idx_range.second - idx_range.first == graph_.get_k())
-                    ++idx_range.first;
+        std::vector<node_index> nodes = map_sequence_to_nodes(graph_, query);
 
-                ++idx_range.second;
-            }
+        auto seeder = build_seeder(this_query, is_reverse_complement, nodes);
+        auto extender = build_extender(this_query, aggregator);
 
-            if (found_count == seed.size()) {
-                DEBUG_LOG("Skipping seed: {}", seed);
-                continue;
-            }
+        size_t num_explored_nodes = 0;
+
+#if ! _PROTEIN_GRAPH
+        if (graph_.get_mode() == DeBruijnGraph::CANONICAL
+                || config_.forward_and_reverse_complement) {
+            std::vector<node_index> nodes_rc(nodes);
+            std::string dummy(query);
+            reverse_complement_seq_path(graph_, dummy, nodes_rc);
+            assert(dummy == paths.get_query(!is_reverse_complement));
+            assert(nodes_rc.size() == nodes.size());
+
+            std::string_view reverse = paths.get_query(!is_reverse_complement);
+
+            auto seeder_rc = build_seeder(reverse, !is_reverse_complement, nodes_rc);
+            auto extender_rc = build_extender(reverse, aggregator);
+
+            align_both_directions(paths.get_query(false), paths.get_query(true),
+                                  *seeder, *seeder_rc, *extender, *extender_rc,
+                                  add_alignment, get_min_path_score);
+
+            num_explored_nodes += extender_rc->num_explored_nodes();
+
+        } else {
+            align_core(this_query, *seeder, *extender, add_alignment, get_min_path_score);
         }
+#else
+        align_core(this_query, *seeder, *extender, add_alignment, get_min_path_score);
+#endif
 
-        if (seed.get_query().data() + seed.get_query().size()
-                == query.data() + query.size()) {
-            if (seed.get_score() >= min_path_score) {
-                seed.trim_offset();
-                assert(seed.is_valid(graph_, &config_));
-                DEBUG_LOG("Alignment: {}", seed);
-                callback(std::move(seed));
-            }
+        num_explored_nodes += extender->num_explored_nodes();
 
-            continue;
+        for (auto&& alignment : aggregator.get_alignments()) {
+            assert(alignment.is_valid(graph_, &config_));
+            paths.emplace_back(std::forward<decltype(alignment)>(alignment));
         }
 
+        common::logger->trace(
+            "{}\tlength: {}\texplored nodes: {}\texplored nodes/k-mer: {}",
+            header, query.size(), num_explored_nodes,
+            static_cast<double>(num_explored_nodes) / nodes.size()
+        );
+
+        callback(header, std::move(paths));
+    };
+}
+
+template <class AlignmentCompare>
+void ISeedAndExtendAligner<AlignmentCompare>
+::align_core(std::string_view query,
+             const ISeeder &seeder,
+             IExtender &extender,
+             const std::function<void(Alignment&&)> &callback,
+             const std::function<score_t(const Alignment&)> &get_min_path_score) const {
+    for (Alignment &seed : seeder.get_seeds()) {
+        if (seed.empty())
+            continue;
+
+        score_t min_path_score = get_min_path_score(seed);
+
         DEBUG_LOG("Min path score: {}\tSeed: {}", min_path_score, seed);
 
-        extender.initialize(seed);
-        auto extensions = extender.get_extensions(min_path_score);
-
-        // if the ManualSeeder is not used, then add nodes to the visited_nodes_
-        // table to allow for seed filtration
-        if (filter_seeds) {
-            extender.call_visited_nodes([&](node_index node, size_t begin, size_t end) {
-                auto emplace = visited_nodes_.emplace(node, std::make_pair(begin, end));
-                auto &range = emplace.first.value();
-                if (!emplace.second) {
-                    range.first = std::min(range.first, begin);
-                    range.second = std::max(range.second, end);
-                }
-            });
-        }
+        auto extensions = extender.get_extensions(seed, min_path_score);
 
         if (extensions.empty() && seed.get_score() >= min_path_score) {
             seed.extend_query_end(query.data() + query.size());
             seed.trim_offset();
-            assert(seed.is_valid(graph_, &config_));
             DEBUG_LOG("Alignment (seed): {}", seed);
             callback(std::move(seed));
         }
 
-        for (auto&& extension : extensions) {
-            assert(extension.is_valid(graph_, &config_));
+        for (Alignment &extension : extensions) {
+            DEBUG_LOG("Alignment (extension): {}", extension);
             callback(std::move(extension));
         }
     }
 }
 
 template <class AlignmentCompare>
-void SeedAndExtendAlignerCore<AlignmentCompare>
-::align_one_direction(DBGQueryAlignment &paths,
-                      bool orientation_to_align,
-                      const ISeeder<node_index> &seeder,
-                      IExtender<node_index>&& extender) const {
-    std::string_view query = paths.get_query(orientation_to_align);
-
-    align_aggregate(paths, [&](const auto &alignment_callback,
-                               const auto &get_min_path_score) {
-        align_core(query, seeder, extender, alignment_callback, get_min_path_score);
-    });
-}
-
-template <class AlignmentCompare>
-void SeedAndExtendAlignerCore<AlignmentCompare>
-::align_best_direction(DBGQueryAlignment &paths,
-                       const ISeeder<node_index> &seeder,
-                       const ISeeder<node_index> &seeder_rc,
-                       IExtender<node_index>&& extender,
-                       IExtender<node_index>&& extender_rc) const {
-    std::string_view forward = paths.get_query();
-    std::string_view reverse = paths.get_query(true);
-
-    align_aggregate(paths, [&](const auto &alignment_callback,
-                               const auto &get_min_path_score) {
-        align_core(forward, seeder, extender, alignment_callback, get_min_path_score);
-        align_core(reverse, seeder_rc, extender_rc, alignment_callback, get_min_path_score);
-    });
-}
-
-template <class AlignmentCompare>
-void SeedAndExtendAlignerCore<AlignmentCompare>
-::align_both_directions(DBGQueryAlignment &paths,
-                        const ISeeder<node_index> &forward_seeder,
-                        const ISeeder<node_index> &reverse_seeder,
-                        IExtender<node_index>&& forward_extender,
-                        IExtender<node_index>&& reverse_extender,
-                        const AlignCoreGenerator &rev_comp_core_generator) const {
-    std::string_view forward = paths.get_query();
-    std::string_view reverse = paths.get_query(true);
-
-    align_aggregate(paths, [&](const auto &alignment_callback,
-                               const auto &get_min_path_score) {
-        auto get_forward_alignments = [&](std::string_view query,
-                                          std::string_view query_rc,
-                                          const ISeeder<node_index> &seeder,
-                                          IExtender<node_index> &extender) {
-            std::vector<DBGAlignment> rc_of_alignments;
-
-            DEBUG_LOG("Extending in forwards direction");
-            align_core(query, seeder, extender, [&](DBGAlignment&& path) {
+void ISeedAndExtendAligner<AlignmentCompare>
+::align_both_directions(std::string_view forward,
+                        std::string_view reverse,
+                        const ISeeder &forward_seeder,
+                        const ISeeder &reverse_seeder,
+                        IExtender &forward_extender,
+                        IExtender &reverse_extender,
+                        const std::function<void(Alignment&&)> &callback,
+                        const std::function<score_t(const Alignment&)> &get_min_path_score) const {
+#if _PROTEIN_GRAPH
+    assert(false && "Only alignment in one direction supported for Protein graphs");
+#endif
+
+    RCDBG rc_dbg(graph_);
+    bool use_rcdbg = graph_.get_mode() != DeBruijnGraph::CANONICAL
+                        && config_.forward_and_reverse_complement;
+
+    const DeBruijnGraph &rc_graph = use_rcdbg ? rc_dbg : graph_;
+
+    auto is_reversible = [this](const Alignment &alignment) {
+        return graph_.get_mode() == DeBruijnGraph::CANONICAL
+            && alignment.get_orientation()
+            && !alignment.get_offset();
+    };
+
+    auto get_forward_alignments = [&](std::string_view query,
+                                      std::string_view query_rc,
+                                      const ISeeder &seeder,
+                                      IExtender &extender) {
+        size_t farthest_reach = 0;
+        score_t max_score = config_.min_cell_score;
+        std::vector<Alignment> rc_of_alignments;
+
+        DEBUG_LOG("Extending in forwards direction");
+        align_core(query, seeder, extender,
+            [&](Alignment&& path) {
                 score_t min_path_score = get_min_path_score(path);
 
-                if (path.get_score() >= min_path_score)
-                    alignment_callback(DBGAlignment(path));
+                farthest_reach = std::max(farthest_reach,
+                                          path.get_query().size() + path.get_clipping());
+                max_score = std::max(max_score, path.get_score());
+
+                if (path.get_score() >= min_path_score) {
+                    if (is_reversible(path)) {
+                        Alignment out_path = path;
+                        out_path.reverse_complement(graph_, query_rc);
+                        assert(out_path.size());
+                        callback(std::move(out_path));
+                    } else {
+                        callback(Alignment(path));
+                    }
+                }
 
-                if (!path.get_clipping())
+                if (!path.get_clipping() || path.get_offset())
                     return;
 
-                auto rev = path;
-                rev.reverse_complement(graph_, query_rc);
-                if (rev.empty()) {
-                    DEBUG_LOG("Alignment cannot be reversed, returning");
-                    if (path.get_score() >= min_path_score)
-                        alignment_callback(std::move(path));
+                Alignment rev = path;
+                rev.reverse_complement(rc_graph, query_rc);
 
+                if (rev.empty()) {
+                    DEBUG_LOG("This local alignment cannot be reversed, skipping");
                     return;
                 }
 
@@ -199,61 +209,68 @@ ::align_both_directions(DBGQueryAlignment &paths,
                 // alignment can proceed
                 assert(rev.get_end_clipping());
                 rev.trim_end_clipping();
-                assert(rev.is_valid(graph_, &config_));
+
+                assert(rev.is_valid(rc_graph, &config_));
 
                 // Pass the reverse complement of the forward alignment
                 // as a seed for extension
                 rc_of_alignments.emplace_back(std::move(rev));
-            }, [&](const auto&) { return config_.min_cell_score; });
-
-            return rc_of_alignments;
-        };
-
-        std::vector<DBGAlignment> rc_of_reverse = get_forward_alignments(
-            reverse, forward, reverse_seeder, reverse_extender
-        );
-        std::vector<DBGAlignment> rc_of_forward = get_forward_alignments(
-            forward, reverse, forward_seeder, forward_extender
+            },
+            [&](const Alignment &seed) {
+                return seed.get_clipping() <= farthest_reach
+                    && config_.rel_score_cutoff > 0
+                        ? max_score * config_.rel_score_cutoff
+                        : config_.min_cell_score;
+            }
         );
 
-        auto extend_reverse = [&](std::string_view query_rc,
-                                  const ISeeder<node_index> &seeder,
-                                  std::vector<DBGAlignment>&& rc_of_alignments) {
-            DEBUG_LOG("Extending in reverse direction");
-            rev_comp_core_generator(query_rc, seeder, std::move(rc_of_alignments),
-                                    [&](const auto &seeder_rc, auto&& extender_rc) {
-                align_core(query_rc, seeder_rc, extender_rc,
-                           alignment_callback, get_min_path_score);
-            });
-        };
-
-        extend_reverse(forward, reverse_seeder, std::move(rc_of_reverse));
-        extend_reverse(reverse, forward_seeder, std::move(rc_of_forward));
-    });
-}
-
-template <class AlignmentCompare>
-void SeedAndExtendAlignerCore<AlignmentCompare>
-::align_aggregate(DBGQueryAlignment &paths,
-                  const AlignmentGenerator &alignment_generator) const {
-    AlignmentAggregator<node_index, AlignmentCompare> path_queue(
-        paths.get_query() /* forward */,
-        paths.get_query(true) /* reverse complement */,
-        config_
-    );
-
-    alignment_generator(
-        [&](DBGAlignment&& alignment) { path_queue.add_alignment(std::move(alignment)); },
-        [&](const DBGAlignment &seed) { return path_queue.get_min_path_score(seed); }
-    );
+        std::sort(rc_of_alignments.begin(), rc_of_alignments.end(),
+                  LocalAlignmentGreater());
+
+        return rc_of_alignments;
+    };
+
+    ManualSeeder rc_of_reverse(get_forward_alignments(
+        reverse, forward, reverse_seeder, reverse_extender
+    ));
+
+    ManualSeeder rc_of_forward(get_forward_alignments(
+        forward, reverse, forward_seeder, forward_extender
+    ));
+
+    auto finish_alignment = [&](std::string_view query,
+                                std::string_view query_rc,
+                                const ManualSeeder &seeder,
+                                IExtender &extender) {
+        if (use_rcdbg)
+            extender.set_graph(rc_dbg);
+
+        align_core(query_rc, seeder, extender,
+            [&](Alignment&& path) {
+                if (use_rcdbg || is_reversible(path)) {
+                    path.reverse_complement(rc_graph, query);
+                    if (path.empty())
+                        return;
+                }
 
-    path_queue.call_alignments([&](auto&& alignment) {
-        assert(alignment.is_valid(graph_, &config_));
-        paths.emplace_back(std::move(alignment));
-    });
+                assert(path.is_valid(graph_, &config_));
+                callback(std::move(path));
+            },
+            get_min_path_score
+        );
+    };
+
+    if (rc_of_forward.data().size() && (rc_of_reverse.data().empty()
+            || rc_of_forward.data()[0].get_score() >= rc_of_reverse.data()[0].get_score())) {
+        finish_alignment(forward, reverse, rc_of_forward, reverse_extender);
+        finish_alignment(reverse, forward, rc_of_reverse, forward_extender);
+    } else {
+        finish_alignment(reverse, forward, rc_of_reverse, forward_extender);
+        finish_alignment(forward, reverse, rc_of_forward, reverse_extender);
+    }
 }
 
-template class SeedAndExtendAlignerCore<>;
+template class ISeedAndExtendAligner<>;
 
 } // namespace align
 } // namespace graph
diff --git a/metagraph/src/graph/alignment/dbg_aligner.hpp b/metagraph/src/graph/alignment/dbg_aligner.hpp
index 78edbb78b7..abae0db44c 100644
--- a/metagraph/src/graph/alignment/dbg_aligner.hpp
+++ b/metagraph/src/graph/alignment/dbg_aligner.hpp
@@ -4,9 +4,8 @@
 #include <cassert>
 #include <functional>
 
-#include <tsl/hopscotch_map.h>
-
 #include "aligner_alignment.hpp"
+#include "aligner_aggregator.hpp"
 #include "aligner_seeder_methods.hpp"
 #include "aligner_extender_methods.hpp"
 #include "graph/representation/base/sequence_graph.hpp"
@@ -20,107 +19,60 @@ namespace align {
 class IDBGAligner {
   public:
     typedef DeBruijnGraph::node_index node_index;
-    typedef Alignment<node_index> DBGAlignment;
-    typedef QueryAlignment<node_index> DBGQueryAlignment;
-    typedef typename DBGAlignment::score_t score_t;
+    typedef Alignment::score_t score_t;
 
+    typedef std::tuple<std::string /* header */,
+                       std::string /* seq */,
+                       bool /* orientation of seq */> Query;
     typedef std::function<void(std::string_view /* header */,
-                               std::string_view /* seq */,
-                               bool /* orientation of seq */)> QueryCallback;
-    typedef std::function<void(const QueryCallback&)> QueryGenerator;
-    typedef std::function<void(std::string_view /* header */,
-                               DBGQueryAlignment&& /* alignments */)> AlignmentCallback;
+                               QueryAlignment&& /* alignments */)> AlignmentCallback;
 
     virtual ~IDBGAligner() {}
 
     // Main aligner
-    virtual void align_batch(const QueryGenerator &generate_query,
+    virtual void align_batch(const std::vector<Query> &seq_batch,
                              const AlignmentCallback &callback) const = 0;
 
-    // Convenience methods
-    DBGQueryAlignment align(std::string_view query,
-                            bool is_reverse_complement = false) const;
-    void align_batch(const std::vector<std::pair<std::string, std::string>> &seq_batch,
-                     const AlignmentCallback &callback) const;
+    // Convenience method
+    QueryAlignment align(std::string_view query, bool is_reverse_complement = false) const;
 };
 
+template <class AlignmentCompare = LocalAlignmentLess>
 class ISeedAndExtendAligner : public IDBGAligner {
   public:
-    virtual ~ISeedAndExtendAligner() {}
-    virtual const DBGAlignerConfig& get_config() const = 0;
-};
-
-
-template <class AlignmentCompare = LocalAlignmentLess>
-class SeedAndExtendAlignerCore;
+    ISeedAndExtendAligner(const DeBruijnGraph &graph, const DBGAlignerConfig &config);
 
-template <class Seeder = ExactSeeder<>,
-          class Extender = DefaultColumnExtender<>,
-          class AlignmentCompare = LocalAlignmentLess>
-class DBGAligner : public ISeedAndExtendAligner {
-  public:
-    typedef IDBGAligner::node_index node_index;
-    typedef IDBGAligner::DBGAlignment DBGAlignment;
-    typedef IDBGAligner::DBGQueryAlignment DBGQueryAlignment;
-    typedef IDBGAligner::score_t score_t;
-    typedef IDBGAligner::QueryGenerator QueryGenerator;
-    typedef IDBGAligner::AlignmentCallback AlignmentCallback;
-
-    DBGAligner(const DeBruijnGraph &graph, const DBGAlignerConfig &config)
-          : graph_(graph), config_(config) {
-        assert(config_.num_alternative_paths);
-        if (!config_.check_config_scores()) {
-            throw std::runtime_error("Error: invalid scoring parameters");
-        }
-    }
+    virtual ~ISeedAndExtendAligner() {}
 
-    virtual void align_batch(const QueryGenerator &generate_query,
-                             const AlignmentCallback &callback) const override final;
+    virtual void align_batch(const std::vector<IDBGAligner::Query> &seq_batch,
+                             const AlignmentCallback &callback) const override;
 
-    virtual const DBGAlignerConfig& get_config() const override final { return config_; }
+    const DBGAlignerConfig& get_config() const { return config_; }
 
   protected:
+    typedef AlignmentAggregator<AlignmentCompare> Aggregator;
     const DeBruijnGraph &graph_;
-    DBGAlignerConfig config_;
-};
 
-template <class AlignmentCompare>
-class SeedAndExtendAlignerCore {
-  public:
-    typedef IDBGAligner::node_index node_index;
-    typedef IDBGAligner::DBGAlignment DBGAlignment;
-    typedef IDBGAligner::DBGQueryAlignment DBGQueryAlignment;
-    typedef IDBGAligner::score_t score_t;
-
-    typedef std::function<void(DBGAlignment&&)> LocalAlignmentCallback;
-    typedef std::function<score_t(const DBGAlignment&)> MinScoreComputer;
-    typedef const std::function<void(const LocalAlignmentCallback&,
-                                     const MinScoreComputer&)> AlignmentGenerator;
-
-    typedef std::function<void(const ISeeder<node_index>&,
-                               IExtender<node_index>&&)> AlignCoreCallback;
-    typedef std::function<void(std::string_view /* reverse_query */,
-                               const ISeeder<node_index> & /* forward seeder */,
-                               std::vector<DBGAlignment>&& /* rev_comp_seeds */,
-                               const AlignCoreCallback&)> AlignCoreGenerator;
-
-    SeedAndExtendAlignerCore(const DeBruijnGraph &graph, const DBGAlignerConfig &config)
-          : graph_(graph), config_(config) {}
-
-    // Align the query sequence in the given orientation (false is forward,
-    // true is reverse complement)
-    void align_one_direction(DBGQueryAlignment &paths,
-                             bool orientation_to_align,
-                             const ISeeder<node_index> &seeder,
-                             IExtender<node_index>&& extender) const;
-
-    // Align both the forward and reverse complement of the query sequence,
-    // then report the best scoring alignment.
-    void align_best_direction(DBGQueryAlignment &paths,
-                              const ISeeder<node_index> &seeder,
-                              const ISeeder<node_index> &seeder_rc,
-                              IExtender<node_index>&& extender,
-                              IExtender<node_index>&& extender_rc) const;
+    virtual std::shared_ptr<IExtender>
+    build_extender(std::string_view query, const Aggregator &aggregator) const = 0;
+
+    virtual std::shared_ptr<ISeeder>
+    build_seeder(std::string_view query,
+                 bool is_reverse_complement,
+                 const std::vector<node_index> &nodes) const = 0;
+
+    template <class Seeder>
+    std::shared_ptr<ISeeder>
+    build_seeder_impl(std::string_view query,
+                      bool is_reverse_complement,
+                      const std::vector<node_index> &nodes) const {
+        return std::make_shared<SuffixSeeder<Seeder>>(
+            graph_, query, is_reverse_complement, nodes, config_
+        );
+    }
+
+  private:
+    DBGAlignerConfig config_;
 
     // Align the forward and reverse complement of the query sequence in both
     // directions and return the overall best alignment. e.g., for the forward query
@@ -128,91 +80,46 @@ class SeedAndExtendAlignerCore {
     // 2. Given a seed, extend forwards to get alignment A
     // 3. Reverse complement the alignment to get A', treat it like a new seed
     // 4. Extend A' forwards to get the final alignment A''
-    void align_both_directions(DBGQueryAlignment &paths,
-                               const ISeeder<node_index> &forward_seeder,
-                               const ISeeder<node_index> &reverse_seeder,
-                               IExtender<node_index>&& forward_extender,
-                               IExtender<node_index>&& reverse_extender,
-                               const AlignCoreGenerator &rev_comp_core_generator) const;
-
-  protected:
-    // Generate seeds, then extend them
+    void align_both_directions(std::string_view forward,
+                               std::string_view reverse,
+                               const ISeeder &forward_seeder,
+                               const ISeeder &reverse_seeder,
+                               IExtender &forward_extender,
+                               IExtender &reverse_extender,
+                               const std::function<void(Alignment&&)> &callback,
+                               const std::function<score_t(const Alignment&)> &get_min_path_score) const;
+
+    // Generates seeds and extends them
     void align_core(std::string_view query,
-                    const ISeeder<node_index> &seeder,
-                    IExtender<node_index> &extender,
-                    const LocalAlignmentCallback &callback,
-                    const MinScoreComputer &get_min_path_score) const;
-
-    // Given alignments generated by a generator, add them to a priority queue
-    // and add the top ones to paths.
-    virtual void
-    align_aggregate(DBGQueryAlignment &paths,
-                    const AlignmentGenerator &alignment_generator) const;
-
-    const DeBruijnGraph &graph_;
-    const DBGAlignerConfig &config_;
-
-    mutable tsl::hopscotch_map<node_index, std::pair<size_t, size_t>> visited_nodes_;
+                    const ISeeder &seeder,
+                    IExtender &extender,
+                    const std::function<void(Alignment&&)> &callback,
+                    const std::function<score_t(const Alignment&)> &get_min_path_score) const;
 };
 
+template <class Extender = DefaultColumnExtender,
+          class Seeder = UniMEMSeeder,
+          class AlignmentCompare = LocalAlignmentLess>
+class DBGAligner : public ISeedAndExtendAligner<AlignmentCompare> {
+  public:
+    template <typename... Args>
+    DBGAligner(Args&&... args)
+          : ISeedAndExtendAligner<AlignmentCompare>(std::forward<Args>(args)...) {}
+
+  private:
+    typedef typename ISeedAndExtendAligner<AlignmentCompare>::Aggregator Aggregator;
+    std::shared_ptr<IExtender>
+    build_extender(std::string_view query, const Aggregator&) const override final {
+        return std::make_shared<Extender>(this->graph_, this->get_config(), query);
+    }
 
-template <class Seeder, class Extender, class AlignmentCompare>
-inline void DBGAligner<Seeder, Extender, AlignmentCompare>
-::align_batch(const QueryGenerator &generate_query,
-              const AlignmentCallback &callback) const {
-    generate_query([&](std::string_view header,
-                       std::string_view query,
-                       bool is_reverse_complement) {
-        SeedAndExtendAlignerCore<AlignmentCompare> aligner_core(graph_, config_);
-        DBGQueryAlignment paths(query, is_reverse_complement);
-        std::string_view this_query = paths.get_query(is_reverse_complement);
-        assert(this_query == query);
-
-        Seeder seeder(graph_, this_query, // use this_query since paths stores a copy
-                      is_reverse_complement, map_sequence_to_nodes(graph_, query),
-                      config_);
-
-        Extender extender(graph_, config_, this_query);
-
-        if (graph_.get_mode() == DeBruijnGraph::CANONICAL) {
-            assert(!is_reverse_complement);
-
-            auto build_rev_comp_alignment_core = [&](std::string_view reverse,
-                                                     const auto &,
-                                                     auto&& rev_comp_seeds,
-                                                     const auto &callback) {
-                ManualSeeder<node_index> seeder_rc(std::move(rev_comp_seeds));
-                callback(seeder_rc, Extender(graph_, config_, reverse));
-            };
-
-            // From a given seed, align forwards, then reverse complement and
-            // align backwards. The graph needs to be canonical to ensure that
-            // all paths exist even when complementing.
-            std::string_view reverse = paths.get_query(true);
-            Seeder seeder_rc(graph_, reverse, !is_reverse_complement,
-                             map_sequence_to_nodes(graph_, reverse), config_);
-            aligner_core.align_both_directions(paths, seeder, seeder_rc,
-                                               std::move(extender),
-                                               Extender(graph_, config_, reverse),
-                                               build_rev_comp_alignment_core);
-        } else if (config_.forward_and_reverse_complement) {
-            assert(!is_reverse_complement);
-            std::string_view reverse = paths.get_query(true);
-
-            Seeder seeder_rc(graph_, reverse, !is_reverse_complement,
-                             map_sequence_to_nodes(graph_, reverse), config_);
-
-            aligner_core.align_best_direction(paths, seeder, seeder_rc,
-                                              std::move(extender),
-                                              Extender(graph_, config_, reverse));
-        } else {
-            aligner_core.align_one_direction(paths, is_reverse_complement, seeder,
-                                             std::move(extender));
-        }
-
-        callback(header, std::move(paths));
-    });
-}
+    std::shared_ptr<ISeeder>
+    build_seeder(std::string_view query,
+                 bool is_reverse_complement,
+                 const std::vector<IDBGAligner::node_index> &nodes) const override final {
+        return this->template build_seeder_impl<Seeder>(query, is_reverse_complement, nodes);
+    }
+};
 
 } // namespace align
 } // namespace graph
diff --git a/metagraph/src/graph/annotated_dbg.cpp b/metagraph/src/graph/annotated_dbg.cpp
index 1461a9baf2..5db5ff76aa 100644
--- a/metagraph/src/graph/annotated_dbg.cpp
+++ b/metagraph/src/graph/annotated_dbg.cpp
@@ -1,14 +1,8 @@
 #include "annotated_dbg.hpp"
 
 #include <array>
-
-#ifdef __AVX2__
-#include <immintrin.h>
-#endif
-
 #include <cstdlib>
 
-#include "graph/representation/canonical_dbg.hpp"
 #include "annotation/representation/row_compressed/annotate_row_compressed.hpp"
 #include "annotation/int_matrix/base/int_matrix.hpp"
 #include "common/utils/simd_utils.hpp"
@@ -82,7 +76,8 @@ ::annotate_sequences(const std::vector<std::pair<std::string, std::vector<Label>
     for (size_t t = 0; t < data.size(); ++t) {
         // if the labels are the same, write indexes to the same array
         auto &indices = data[t].second == data[last].second ? ids[last] : ids[t];
-        indices.reserve(data[t].first.size());
+        if (!indices.size())
+            indices.reserve(data[t].first.size());
 
         graph_->map_to_nodes(data[t].first, [&](node_index i) {
             if (i > 0)
@@ -192,10 +187,62 @@ void AnnotatedDBG::add_kmer_coords(
     }
 }
 
+void AnnotatedDBG::annotate_kmer_coords(
+        const std::vector<std::tuple<std::string, std::vector<Label>, uint64_t>> &data) {
+    assert(check_compatibility());
+
+    std::vector<std::vector<row_index>> ids(data.size());
+    std::vector<std::vector<std::pair<row_index, uint64_t>>> coords(data.size());
+    size_t last = 0;
+
+    for (size_t t = 0; t < data.size(); ++t) {
+        const auto &[sequence, labels, _] = data[t];
+        uint64_t coord = std::get<2>(data[t]);
+        if (sequence.size() < dbg_.get_k())
+            continue;
+
+        // if the labels are the same, write indexes to the same array
+        bool is_same = labels == std::get<1>(data[last]);
+        auto &indices = is_same ? ids[last] : ids[t];
+        auto &coordinates = is_same ? coords[last] : coords[t];
+
+        if (!is_same)
+            last = t + 1;
+
+        if (!indices.size()) {
+            indices.reserve(sequence.size() - dbg_.get_k() + 1);
+            coordinates.reserve(sequence.size() - dbg_.get_k() + 1);
+        }
+
+        graph_->map_to_nodes(sequence, [&](node_index i) {
+            if (i > 0) {
+                indices.push_back(graph_to_anno_index(i));
+                coordinates.emplace_back(graph_to_anno_index(i), coord);
+            }
+            coord++;
+        });
+    }
+
+    std::lock_guard<std::mutex> lock(mutex_);
+
+    for (size_t t = 0; t < data.size(); ++t) {
+        if (!ids[t].size())
+            continue;
+
+        const auto &labels = std::get<1>(data[t]);
+
+        annotator_->add_labels(ids[t], labels);
+        annotator_->add_label_coords(coords[t], labels);
+    }
+}
+
 std::vector<Label> AnnotatedDBG::get_labels(std::string_view sequence,
-                                            double presence_ratio) const {
-    assert(presence_ratio >= 0.);
-    assert(presence_ratio <= 1.);
+                                            double discovery_fraction,
+                                            double presence_fraction) const {
+    assert(discovery_fraction >= 0.);
+    assert(discovery_fraction <= 1.);
+    assert(presence_fraction >= 0.);
+    assert(presence_fraction <= 1.);
     assert(check_compatibility());
 
     if (sequence.size() < dbg_.get_k())
@@ -216,7 +263,13 @@ std::vector<Label> AnnotatedDBG::get_labels(std::string_view sequence,
         }
     });
 
-    size_t min_count = std::max(1.0, std::ceil(presence_ratio
+    size_t min_count = std::max(1.0, std::ceil(presence_fraction
+                                                 * (num_present_kmers
+                                                     + num_missing_kmers)));
+    if (num_present_kmers < min_count)
+        return {};
+
+    min_count = std::max(1.0, std::ceil(discovery_fraction
                                                  * (num_present_kmers
                                                      + num_missing_kmers)));
 
@@ -261,10 +314,13 @@ AnnotatedSequenceGraph::get_labels(node_index index) const {
 std::vector<StringCountPair>
 AnnotatedDBG::get_top_labels(std::string_view sequence,
                              size_t num_top_labels,
-                             double presence_ratio,
+                             double discovery_fraction,
+                             double presence_fraction,
                              bool with_kmer_counts) const {
-    assert(presence_ratio >= 0.);
-    assert(presence_ratio <= 1.);
+    assert(discovery_fraction >= 0.);
+    assert(discovery_fraction <= 1.);
+    assert(presence_fraction >= 0.);
+    assert(presence_fraction <= 1.);
     assert(check_compatibility());
 
     if (sequence.size() < dbg_.get_k())
@@ -283,7 +339,11 @@ AnnotatedDBG::get_top_labels(std::string_view sequence,
         }
     });
 
-    uint64_t min_count = std::max(1.0, std::ceil(presence_ratio * num_kmers));
+    uint64_t min_count = std::max(1.0, std::ceil(presence_fraction * num_kmers));
+    if (num_present_kmers < min_count)
+        return {};
+
+    min_count = std::max(1.0, std::ceil(discovery_fraction * num_kmers));
     if (num_present_kmers < min_count)
         return {};
 
@@ -300,10 +360,13 @@ AnnotatedDBG::get_top_labels(std::string_view sequence,
 std::vector<std::pair<std::string, std::vector<size_t>>>
 AnnotatedDBG::get_label_count_quantiles(std::string_view sequence,
                                         size_t num_top_labels,
-                                        double presence_ratio,
+                                        double discovery_fraction,
+                                        double presence_fraction,
                                         const std::vector<double> &count_quantiles) const {
-    assert(presence_ratio >= 0.);
-    assert(presence_ratio <= 1.);
+    assert(discovery_fraction >= 0.);
+    assert(discovery_fraction <= 1.);
+    assert(presence_fraction >= 0.);
+    assert(presence_fraction <= 1.);
     assert(check_compatibility());
     if (!std::is_sorted(count_quantiles.begin(), count_quantiles.end()))
         throw std::runtime_error("Quantiles must be sorted");
@@ -322,7 +385,11 @@ AnnotatedDBG::get_label_count_quantiles(std::string_view sequence,
             rows.push_back(graph_to_anno_index(i));
     });
 
-    uint64_t min_count = std::max(1.0, std::ceil(presence_ratio * num_kmers));
+    uint64_t min_count = std::max(1.0, std::ceil(presence_fraction * num_kmers));
+    if (rows.size() < min_count)
+        return {};
+
+    min_count = std::max(1.0, std::ceil(discovery_fraction * num_kmers));
     if (rows.size() < min_count)
         return {};
 
@@ -387,9 +454,12 @@ AnnotatedDBG::get_label_count_quantiles(std::string_view sequence,
 std::vector<std::pair<std::string, std::vector<SmallVector<uint64_t>>>>
 AnnotatedDBG::get_kmer_coordinates(std::string_view sequence,
                                    size_t num_top_labels,
-                                   double presence_ratio) const {
-    assert(presence_ratio >= 0.);
-    assert(presence_ratio <= 1.);
+                                   double discovery_fraction,
+                                   double presence_fraction) const {
+    assert(discovery_fraction >= 0.);
+    assert(discovery_fraction <= 1.);
+    assert(presence_fraction >= 0.);
+    assert(presence_fraction <= 1.);
     assert(check_compatibility());
 
     if (sequence.size() < dbg_.get_k())
@@ -403,15 +473,18 @@ AnnotatedDBG::get_kmer_coordinates(std::string_view sequence,
         path.push_back(i);
     });
 
-    return get_kmer_coordinates(path, num_top_labels, presence_ratio);
+    return get_kmer_coordinates(path, num_top_labels, discovery_fraction, presence_fraction);
 }
 
 std::vector<std::pair<std::string, std::vector<SmallVector<uint64_t>>>>
 AnnotatedDBG::get_kmer_coordinates(const std::vector<node_index> &path,
                                    size_t num_top_labels,
-                                   double presence_ratio) const {
-    assert(presence_ratio >= 0.);
-    assert(presence_ratio <= 1.);
+                                   double discovery_fraction,
+                                   double presence_fraction) const {
+    assert(discovery_fraction >= 0.);
+    assert(discovery_fraction <= 1.);
+    assert(presence_fraction >= 0.);
+    assert(presence_fraction <= 1.);
     assert(check_compatibility());
 
     if (!path.size())
@@ -432,7 +505,11 @@ AnnotatedDBG::get_kmer_coordinates(const std::vector<node_index> &path,
         }
     }
 
-    uint64_t min_count = std::max(1.0, std::ceil(presence_ratio * path.size()));
+    uint64_t min_count = std::max(1.0, std::ceil(presence_fraction * path.size()));
+    if (rows.size() < min_count)
+        return {};
+
+    min_count = std::max(1.0, std::ceil(discovery_fraction * path.size()));
     if (rows.size() < min_count)
         return {};
 
@@ -501,9 +578,12 @@ AnnotatedDBG::get_kmer_coordinates(const std::vector<node_index> &path,
 std::vector<std::pair<Label, sdsl::bit_vector>>
 AnnotatedDBG::get_top_label_signatures(std::string_view sequence,
                                        size_t num_top_labels,
-                                       double presence_ratio) const {
-    assert(presence_ratio >= 0.);
-    assert(presence_ratio <= 1.);
+                                       double discovery_fraction,
+                                       double presence_fraction) const {
+    assert(discovery_fraction >= 0.);
+    assert(discovery_fraction <= 1.);
+    assert(presence_fraction >= 0.);
+    assert(presence_fraction <= 1.);
     assert(check_compatibility());
 
     if (sequence.size() < dbg_.get_k())
@@ -511,10 +591,10 @@ AnnotatedDBG::get_top_label_signatures(std::string_view sequence,
 
     size_t num_kmers = sequence.size() - dbg_.get_k() + 1;
 
-    if (presence_ratio == 1.) {
+    if (discovery_fraction == 1.) {
         std::vector<std::pair<Label, sdsl::bit_vector>> presence_vectors;
 
-        auto label_counts = get_top_labels(sequence, num_top_labels, presence_ratio);
+        auto label_counts = get_top_labels(sequence, num_top_labels, discovery_fraction, presence_fraction);
         presence_vectors.reserve(label_counts.size());
         for (auto&& [label, count] : label_counts) {
             presence_vectors.emplace_back(
@@ -542,8 +622,11 @@ AnnotatedDBG::get_top_label_signatures(std::string_view sequence,
     });
     assert(j == num_kmers);
 
-    const uint64_t min_count = std::max(1.0, std::ceil(presence_ratio * num_kmers));
+    uint64_t min_count = std::max(1.0, std::ceil(presence_fraction * num_kmers));
+    if (kmer_positions.size() < min_count)
+        return {};
 
+    min_count = std::max(1.0, std::ceil(discovery_fraction * num_kmers));
     if (kmer_positions.size() < min_count)
         return {};
 
@@ -604,7 +687,7 @@ AnnotatedDBG::get_top_label_signatures(std::string_view sequence,
 
 #ifndef NDEBUG
     // sanity check, make sure that the same matches are output by get_top_labels
-    auto top_labels = get_top_labels(sequence, num_top_labels, presence_ratio);
+    auto top_labels = get_top_labels(sequence, num_top_labels, discovery_fraction, presence_fraction);
     assert(top_labels.size() == results.size());
 
     std::unordered_map<Label, uint64_t> check(top_labels.begin(), top_labels.end());
@@ -694,13 +777,13 @@ ::call_annotated_nodes(const Label &label,
 }
 
 bool AnnotatedSequenceGraph::check_compatibility() const {
-    // TODO: add method max_canonical_index() and call it here without casts
-    if (const auto *canonical = dynamic_cast<const CanonicalDBG*>(graph_.get()))
-        return canonical->get_graph().max_index() == annotator_->num_objects();
-
     return graph_->max_index() == annotator_->num_objects();
 }
 
+bool AnnotatedDBG::check_compatibility() const {
+    return dbg_.get_base_graph().max_index() == annotator_->num_objects();
+}
+
 
 /**
  * Helper functions for score_kmer_presence_mask
diff --git a/metagraph/src/graph/annotated_dbg.hpp b/metagraph/src/graph/annotated_dbg.hpp
index 1ffd58d4d8..56e0dfa747 100644
--- a/metagraph/src/graph/annotated_dbg.hpp
+++ b/metagraph/src/graph/annotated_dbg.hpp
@@ -78,24 +78,33 @@ class AnnotatedDBG : public AnnotatedSequenceGraph {
 
     const DeBruijnGraph& get_graph() const { return dbg_; }
 
+    bool check_compatibility() const;
+
     // add k-mer counts to the annotation, thread-safe for concurrent calls
     void add_kmer_counts(std::string_view sequence,
                          const std::vector<Label> &labels,
                          std::vector<uint64_t>&& kmer_counts);
 
-    // add k-mer coordinates to the annotation
+    // add k-mer coordinates to the annotation, the binary annotation must exist
     void add_kmer_coord(std::string_view sequence,
                         const std::vector<Label> &labels,
                         uint64_t start);
 
+    // add k-mer coordinates to the annotation, the binary annotation must exist
     void add_kmer_coords(
         const std::vector<std::tuple<std::string, std::vector<Label>, uint64_t>> &data);
 
+    // annotate k-mer and their coordinates (combines annotate_sequences and add_kmer_coords)
+    void annotate_kmer_coords(
+        const std::vector<std::tuple<std::string, std::vector<Label>, uint64_t>> &data);
+
     /*********************** Special queries **********************/
 
-    // return labels that occur at least in |presence_ratio| k-mers
+    // return labels that occur at least in |discovery_fraction| k-mers
+    // but skip the sequence if fewer than |presence_fraction| k-mers are matched against the graph
     std::vector<Label> get_labels(std::string_view sequence,
-                                  double presence_ratio) const;
+                                  double discovery_fraction = 0.0,
+                                  double presence_fraction = 0.0) const;
 
     std::vector<Label> get_labels(const std::vector<std::pair<row_index, size_t>> &index_counts,
                                   size_t min_count) const;
@@ -106,7 +115,8 @@ class AnnotatedDBG : public AnnotatedSequenceGraph {
     std::vector<std::pair<Label, size_t>>
     get_top_labels(std::string_view sequence,
                    size_t num_top_labels,
-                   double presence_ratio = 0.0,
+                   double discovery_fraction = 0.0,
+                   double presence_fraction = 0.0,
                    bool with_kmer_counts = false) const;
 
     // The returned counts are weighted by the annotated relation counts if
@@ -120,23 +130,27 @@ class AnnotatedDBG : public AnnotatedSequenceGraph {
     std::vector<std::pair<Label, std::vector<size_t>>>
     get_label_count_quantiles(std::string_view sequence,
                               size_t num_top_labels,
-                              double presence_ratio,
+                              double discovery_fraction,
+                              double presence_fraction,
                               const std::vector<double> &count_quantiles) const;
 
     std::vector<std::pair<Label, std::vector<SmallVector<uint64_t>>>>
     get_kmer_coordinates(std::string_view sequence,
                          size_t num_top_labels,
-                         double presence_ratio) const;
+                         double discovery_fraction,
+                         double presence_fraction) const;
 
     std::vector<std::pair<Label, std::vector<SmallVector<uint64_t>>>>
     get_kmer_coordinates(const std::vector<node_index> &path,
                          size_t num_top_labels,
-                         double presence_ratio) const;
+                         double discovery_fraction,
+                         double presence_fraction) const;
 
     std::vector<std::pair<Label, sdsl::bit_vector>>
     get_top_label_signatures(std::string_view sequence,
                              size_t num_top_labels,
-                             double presence_ratio = 0.0) const;
+                             double discovery_fraction = 0.0,
+                             double presence_fraction = 0.0) const;
 
     int32_t score_kmer_presence_mask(const sdsl::bit_vector &kmer_presence_mask,
                                      int32_t match_score = 1,
diff --git a/metagraph/src/graph/annotated_graph_algorithm.cpp b/metagraph/src/graph/annotated_graph_algorithm.cpp
index 5d7129b4be..b5ac80791d 100644
--- a/metagraph/src/graph/annotated_graph_algorithm.cpp
+++ b/metagraph/src/graph/annotated_graph_algorithm.cpp
@@ -17,7 +17,6 @@ using mtg::common::logger;
 typedef AnnotatedDBG::node_index node_index;
 typedef AnnotatedDBG::row_index row_index;
 typedef AnnotatedDBG::Annotator::Label Label;
-typedef Alignment<DeBruijnGraph::node_index> DBGAlignment;
 
 
 std::unique_ptr<bitmap_vector>
diff --git a/metagraph/src/graph/representation/base/dbg_wrapper.hpp b/metagraph/src/graph/representation/base/dbg_wrapper.hpp
new file mode 100644
index 0000000000..89f9bbcf8f
--- /dev/null
+++ b/metagraph/src/graph/representation/base/dbg_wrapper.hpp
@@ -0,0 +1,101 @@
+#ifndef __DBG_WRAPPER__
+#define __DBG_WRAPPER__
+
+#include "sequence_graph.hpp"
+
+
+namespace mtg {
+namespace graph {
+
+/**
+ * This abstract class stores a graph internally and transfers all calls to it.
+ * This wrapper uses the default methods from Graph when available. This may be
+ * used when the nodes and edges of the wrapped graph differ from the underlying
+ * graph.
+ */
+template <class Graph = DeBruijnGraph>
+class DBGWrapper : public DeBruijnGraph {
+  public:
+    template <class InGraph>
+    DBGWrapper(std::shared_ptr<const InGraph> graph)
+          : graph_(std::dynamic_pointer_cast<const Graph>(graph)) { assert(graph_); }
+
+    template <class InGraph>
+    DBGWrapper(std::shared_ptr<InGraph> graph)
+          : graph_(std::dynamic_pointer_cast<const Graph>(graph)) { assert(graph_); }
+
+    // aliasing constructors
+    template <class InGraph>
+    explicit DBGWrapper(const InGraph &graph)
+          : graph_(std::shared_ptr<const Graph>{}, dynamic_cast<const Graph*>(&graph)) {
+        assert(graph_);
+    }
+
+    template <class InGraph>
+    explicit DBGWrapper(InGraph &graph)
+          : graph_(std::shared_ptr<const Graph>{}, dynamic_cast<const Graph*>(&graph)) {
+        assert(graph_);
+    }
+
+    virtual ~DBGWrapper() {}
+
+    /**
+     * Added methods
+     */
+    virtual const Graph& get_graph() const { return *graph_; }
+    virtual std::shared_ptr<const Graph> get_graph_ptr() const { return graph_; }
+
+    /**
+     * Methods shared by all wrappers
+     */
+    virtual std::string file_extension() const override final { return graph_->file_extension(); }
+    virtual size_t get_k() const override final { return graph_->get_k(); }
+    virtual const std::string& alphabet() const override final { return graph_->alphabet(); }
+    virtual void print(std::ostream &out) const override { graph_->print(out); }
+    virtual Mode get_mode() const override { return graph_->get_mode(); }
+    virtual const DeBruijnGraph& get_base_graph() const override final {
+        return graph_->get_base_graph();
+    }
+
+    /**
+     * Override these if the wrapper changes the graph's indexing
+     */
+    virtual uint64_t num_nodes() const override { return graph_->num_nodes(); }
+    virtual uint64_t max_index() const override { return graph_->max_index(); }
+
+    /**
+     * Not implemented
+     */
+    virtual void serialize(const std::string &) const override final {
+        throw std::runtime_error("serialize not implemented on graph wrappers");
+    }
+
+    virtual bool load(const std::string &) override final {
+        throw std::runtime_error("load not implemented on graph wrappers");
+    }
+
+    virtual void add_sequence(std::string_view,
+                              const std::function<void(node_index)> &) override final {
+        throw std::runtime_error("add_sequence not implemented on graph wrappers");
+    }
+
+    /**
+     * The Graph defaults of these are likely to break in a wrapped graph,
+     * so these should be implemented.
+     */
+    virtual bool operator==(const DeBruijnGraph &other) const override = 0;
+
+    virtual void call_nodes(const std::function<void(node_index)> &callback,
+                            const std::function<bool()> &stop_early
+                                = [](){ return false; }) const override = 0;
+
+    virtual void call_kmers(const std::function<void(node_index, const std::string&)> &callback) const override = 0;
+
+  protected:
+    std::shared_ptr<const Graph> graph_;
+};
+
+} // namespace graph
+} // namespace mtg
+
+#endif // __DBG_WRAPPER__
diff --git a/metagraph/src/graph/representation/base/sequence_graph.hpp b/metagraph/src/graph/representation/base/sequence_graph.hpp
index 0146227f07..5b011e1c74 100644
--- a/metagraph/src/graph/representation/base/sequence_graph.hpp
+++ b/metagraph/src/graph/representation/base/sequence_graph.hpp
@@ -227,6 +227,8 @@ class DeBruijnGraph : public SequenceGraph {
 
     // Call all nodes that have no incoming edges
     virtual void call_source_nodes(const std::function<void(node_index)> &callback) const;
+
+    virtual const DeBruijnGraph& get_base_graph() const { return *this; }
 };
 
 
diff --git a/metagraph/src/graph/representation/canonical_dbg.cpp b/metagraph/src/graph/representation/canonical_dbg.cpp
index e5567bc107..c20a150378 100644
--- a/metagraph/src/graph/representation/canonical_dbg.cpp
+++ b/metagraph/src/graph/representation/canonical_dbg.cpp
@@ -10,70 +10,43 @@ namespace graph {
 
 using mtg::common::logger;
 
+template <typename Graph>
+CanonicalDBG::CanonicalDBG(Graph&& graph, size_t cache_size)
+      : DBGWrapper<DeBruijnGraph>(std::forward<Graph>(graph)),
+        cache_size_(cache_size), child_node_cache_(cache_size_),
+        parent_node_cache_(cache_size_), is_palindrome_cache_(cache_size_) {
+    static_assert(!std::is_same_v<Graph, std::shared_ptr<CanonicalDBG>>);
+    static_assert(!std::is_same_v<Graph, std::shared_ptr<const CanonicalDBG>>);
+    flush();
+}
+
+template CanonicalDBG::CanonicalDBG(std::shared_ptr<DeBruijnGraph>&&, size_t);
+template CanonicalDBG::CanonicalDBG(std::shared_ptr<const DeBruijnGraph>&&, size_t);
+template CanonicalDBG::CanonicalDBG(std::shared_ptr<DeBruijnGraph>&, size_t);
+template CanonicalDBG::CanonicalDBG(std::shared_ptr<const DeBruijnGraph>&, size_t);
+template CanonicalDBG::CanonicalDBG(std::shared_ptr<DBGSuccinct>&, size_t);
 
-CanonicalDBG::CanonicalDBG(std::shared_ptr<const DeBruijnGraph> graph, size_t cache_size)
-      : const_graph_ptr_(graph),
-        offset_(graph_.max_index()),
-        k_odd_(graph_.get_k() % 2),
-        has_sentinel_(false),
-        alphabet_encoder_({ graph_.alphabet().size() }),
-        cache_size_(cache_size),
-        child_node_cache_(cache_size_),
-        parent_node_cache_(cache_size_),
-        is_palindrome_cache_(k_odd_ ? 0 : cache_size_) {
-    if (graph->get_mode() != DeBruijnGraph::PRIMARY) {
+void CanonicalDBG::flush() {
+    if (graph_->get_mode() != DeBruijnGraph::PRIMARY) {
         logger->error("Only primary graphs can be wrapped in CanonicalDBG");
         exit(1);
     }
 
-    for (size_t i = 0; i < graph_.alphabet().size(); ++i) {
-        alphabet_encoder_[graph_.alphabet()[i]] = i;
-        if (graph_.alphabet()[i] == boss::BOSS::kSentinel)
-            has_sentinel_ = true;
-    }
-}
-
-CanonicalDBG::CanonicalDBG(const CanonicalDBG &canonical)
-      : const_graph_ptr_(canonical.const_graph_ptr_),
-        offset_(canonical.offset_),
-        k_odd_(canonical.k_odd_),
-        has_sentinel_(canonical.has_sentinel_),
-        alphabet_encoder_(canonical.alphabet_encoder_),
-        cache_size_(canonical.cache_size_),
-        child_node_cache_(cache_size_),
-        parent_node_cache_(cache_size_),
-        is_palindrome_cache_(k_odd_ ? 0 : cache_size_) {}
-
-CanonicalDBG::CanonicalDBG(std::shared_ptr<DeBruijnGraph> graph, size_t cache_size)
-      : CanonicalDBG(std::dynamic_pointer_cast<const DeBruijnGraph>(graph), cache_size) {
-    graph_ptr_ = graph;
-}
-
-CanonicalDBG::CanonicalDBG(const DeBruijnGraph &graph, size_t cache_size)
-      : CanonicalDBG(std::shared_ptr<const DeBruijnGraph>(&graph, [](const auto*) {}),
-                     cache_size) {}
-
-CanonicalDBG::CanonicalDBG(DeBruijnGraph &graph, size_t cache_size)
-      : CanonicalDBG(std::shared_ptr<DeBruijnGraph>(&graph, [](const auto*) {}),
-                     cache_size) {}
-
-uint64_t CanonicalDBG::num_nodes() const {
-    logger->trace("Number of nodes may be overestimated if k is even or reverse complements are present in the graph");
-    return graph_.num_nodes() * 2;
-}
-
-void CanonicalDBG
-::add_sequence(std::string_view sequence,
-               const std::function<void(node_index)> &on_insertion) {
-    assert(graph_ptr_ && "add_sequence only supported for non-const graphs.");
-
-    graph_ptr_->add_sequence(sequence, on_insertion);
-    offset_ = graph_.max_index();
     child_node_cache_.Clear();
     parent_node_cache_.Clear();
     is_palindrome_cache_.Clear();
-}
 
+    offset_ = graph_->max_index();
+    k_odd_ = (graph_->get_k() % 2);
+    has_sentinel_ = false;
+    alphabet_encoder_.fill(graph_->alphabet().size());
+
+    for (size_t i = 0; i < graph_->alphabet().size(); ++i) {
+        alphabet_encoder_[graph_->alphabet()[i]] = i;
+        if (graph_->alphabet()[i] == boss::BOSS::kSentinel)
+            has_sentinel_ = true;
+    }
+}
 
 void CanonicalDBG
 ::map_to_nodes_sequentially(std::string_view sequence,
@@ -87,7 +60,7 @@ ::map_to_nodes_sequentially(std::string_view sequence,
 
     // map until the first mismatch
     bool stop = false;
-    graph_.map_to_nodes_sequentially(sequence,
+    graph_->map_to_nodes_sequentially(sequence,
         [&](node_index node) {
             if (node) {
                 path.push_back(node);
@@ -114,10 +87,10 @@ ::map_to_nodes_sequentially(std::string_view sequence,
     std::string rev_seq(sequence);
     ::reverse_complement(rev_seq.begin(), rev_seq.end());
     // map the reverse-complement
-    std::vector<node_index> rev_path = map_sequence_to_nodes(graph_, rev_seq);
+    std::vector<node_index> rev_path = map_sequence_to_nodes(*graph_, rev_seq);
 
     // map the forward
-    const auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(&graph_);
+    const auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(graph_.get());
     if (dbg_succ && get_k() % 2) {
         // if it's a boss table with odd k (without palindromic k-mers),
         // we can skip k-mers that have been found in the rev-compl sequence
@@ -148,7 +121,7 @@ ::map_to_nodes_sequentially(std::string_view sequence,
         assert(it == rev_path.rend());
 
     } else {
-        path = map_sequence_to_nodes(graph_, sequence);
+        path = map_sequence_to_nodes(*graph_, sequence);
     }
 
     assert(path.size() == rev_path.size());
@@ -189,7 +162,7 @@ void CanonicalDBG::append_next_rc_nodes(node_index node,
      *         TGGCTT      AAGCCA
      */
 
-    const auto &alphabet = graph_.alphabet();
+    const auto &alphabet = graph_->alphabet();
 
     //        rshift    rc
     // ATGGCT -> TGGCT* -> *AGCCA
@@ -199,7 +172,7 @@ void CanonicalDBG::append_next_rc_nodes(node_index node,
 
     // for each n, check for nAGCCA. If found, define and store the index for
     // TGGCTrc(n) as index(nAGCCA) + offset_
-    if (const auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(&graph_)) {
+    if (const auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(graph_.get())) {
         const auto &boss = dbg_succ->get_boss();
         dbg_succ->call_nodes_with_suffix_matching_longest_prefix(
             std::string_view(&rev_seq[1], get_k() - 1),
@@ -219,9 +192,9 @@ void CanonicalDBG::append_next_rc_nodes(node_index node,
                 if (k_odd_) {
                     logger->error(
                         "Primary graph contains both forward and reverse complement: {} {} -> {} {}\t{} {}",
-                        node, graph_.get_node_sequence(node),
-                        children[c], graph_.get_node_sequence(children[c]),
-                        next, graph_.get_node_sequence(next));
+                        node, graph_->get_node_sequence(node),
+                        children[c], graph_->get_node_sequence(children[c]),
+                        next, graph_->get_node_sequence(next));
                     exit(1);
                 }
 
@@ -236,7 +209,7 @@ void CanonicalDBG::append_next_rc_nodes(node_index node,
             // For non-DBGSuccinct graphs, this should be fast enough.
             if (alphabet[c] != boss::BOSS::kSentinel && children[c] == npos) {
                 rev_seq[0] = complement(alphabet[c]);
-                node_index next = graph_.kmer_to_node(rev_seq);
+                node_index next = graph_->kmer_to_node(rev_seq);
                 if (next != npos)
                     children[c] = next + offset_;
             }
@@ -257,7 +230,7 @@ ::call_outgoing_kmers(node_index node, const OutgoingEdgeCallback &callback) con
         return;
     }
 
-    const auto &alphabet = graph_.alphabet();
+    const auto &alphabet = graph_->alphabet();
 
     if (auto fetch = child_node_cache_.TryGet(node)) {
         for (size_t c = 0; c < alphabet.size(); ++c) {
@@ -269,7 +242,7 @@ ::call_outgoing_kmers(node_index node, const OutgoingEdgeCallback &callback) con
         std::vector<node_index> children(alphabet.size(), npos);
         size_t max_num_edges_left = children.size() - has_sentinel_;
 
-        graph_.call_outgoing_kmers(node, [&](node_index next, char c) {
+        graph_->call_outgoing_kmers(node, [&](node_index next, char c) {
             if (c != boss::BOSS::kSentinel) {
                 children[alphabet_encoder_[c]] = next;
                 --max_num_edges_left;
@@ -301,7 +274,7 @@ void CanonicalDBG::append_prev_rc_nodes(node_index node,
      *  AAGCCA                    TGGCTT
      */
 
-    const auto &alphabet = graph_.alphabet();
+    const auto &alphabet = graph_->alphabet();
 
     //        lshift    rc
     // AGCCAT -> *AGCCA -> TGGCT*
@@ -311,7 +284,7 @@ void CanonicalDBG::append_prev_rc_nodes(node_index node,
 
     // for each n, check for TGGCTn. If found, define and store the index for
     // rc(n)AGCCA as index(TGGCTn) + offset_
-    if (const auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(&graph_)) {
+    if (const auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(graph_.get())) {
         // Find the BOSS node TGGCT and iterate through all of its outdoing edges.
         // Then, convert the edge indices to get the DBGSuccinct node indices
         const auto &boss = dbg_succ->get_boss();
@@ -338,9 +311,9 @@ void CanonicalDBG::append_prev_rc_nodes(node_index node,
                     if (k_odd_) {
                         logger->error(
                             "Primary graph contains both forward and reverse complement: {} {} -> {} {}\t{} {}",
-                            node, graph_.get_node_sequence(node),
-                            parents[c], graph_.get_node_sequence(parents[c]),
-                            prev, graph_.get_node_sequence(prev)
+                            node, graph_->get_node_sequence(node),
+                            parents[c], graph_->get_node_sequence(parents[c]),
+                            prev, graph_->get_node_sequence(prev)
                         );
                         exit(1);
                     }
@@ -356,7 +329,7 @@ void CanonicalDBG::append_prev_rc_nodes(node_index node,
             // For non-DBGSuccinct graphs, this should be fast enough.
             if (alphabet[c] != boss::BOSS::kSentinel && parents[c] == npos) {
                 rev_seq.back() = complement(alphabet[c]);
-                node_index prev = graph_.kmer_to_node(rev_seq);
+                node_index prev = graph_->kmer_to_node(rev_seq);
                 if (prev != npos)
                     parents[c] = prev + offset_;
             }
@@ -377,7 +350,7 @@ ::call_incoming_kmers(node_index node, const IncomingEdgeCallback &callback) con
         return;
     }
 
-    const auto &alphabet = graph_.alphabet();
+    const auto &alphabet = graph_->alphabet();
 
     if (auto fetch = parent_node_cache_.TryGet(node)) {
         for (size_t c = 0; c < alphabet.size(); ++c) {
@@ -389,7 +362,7 @@ ::call_incoming_kmers(node_index node, const IncomingEdgeCallback &callback) con
         std::vector<node_index> parents(alphabet.size(), npos);
         size_t max_num_edges_left = parents.size() - has_sentinel_;
 
-        graph_.call_incoming_kmers(node, [&](node_index prev, char c) {
+        graph_->call_incoming_kmers(node, [&](node_index prev, char c) {
             if (c != boss::BOSS::kSentinel) {
                 parents[alphabet_encoder_[c]] = prev;
                 --max_num_edges_left;
@@ -441,7 +414,7 @@ void CanonicalDBG::call_sequences(const CallPath &callback,
                                   size_t num_threads,
                                   bool kmers_in_single_form) const {
     if (kmers_in_single_form) {
-        graph_.call_sequences(callback, num_threads, false);
+        graph_->call_sequences(callback, num_threads, false);
     } else {
         // TODO: port over implementation from DBGSuccinct to DeBruijnGraph
         DeBruijnGraph::call_sequences(callback, num_threads, false);
@@ -459,7 +432,7 @@ void CanonicalDBG::call_unitigs(const CallPath &callback,
 std::string CanonicalDBG::get_node_sequence(node_index index) const {
     assert(index <= offset_ * 2);
     node_index node = get_base_node(index);
-    std::string seq = graph_.get_node_sequence(node);
+    std::string seq = graph_->get_node_sequence(node);
 
     if (node != index)
         ::reverse_complement(seq.begin(), seq.end());
@@ -473,13 +446,13 @@ DeBruijnGraph::node_index CanonicalDBG::traverse(node_index node, char next_char
         node = traverse_back(node - offset_, complement(next_char));
         return node != npos ? reverse_complement(node) : npos;
     } else {
-        node_index next = graph_.traverse(node, next_char);
+        node_index next = graph_->traverse(node, next_char);
         if (next != npos)
             return next;
 
         std::string rev_seq = get_node_sequence(node).substr(1) + next_char;
         ::reverse_complement(rev_seq.begin(), rev_seq.end());
-        next = graph_.kmer_to_node(rev_seq);
+        next = graph_->kmer_to_node(rev_seq);
         return next != npos ? reverse_complement(next) : next;
     }
 }
@@ -491,28 +464,44 @@ DeBruijnGraph::node_index CanonicalDBG::traverse_back(node_index node,
         node = traverse(node - offset_, complement(prev_char));
         return node != npos ? reverse_complement(node) : npos;
     } else {
-        node_index prev = graph_.traverse_back(node, prev_char);
+        node_index prev = graph_->traverse_back(node, prev_char);
         if (prev != npos)
             return prev;
 
         std::string rev_seq = std::string(1, prev_char)
             + get_node_sequence(node).substr(0, get_k() - 1);
         ::reverse_complement(rev_seq.begin(), rev_seq.end());
-        prev = graph_.kmer_to_node(rev_seq);
+        prev = graph_->kmer_to_node(rev_seq);
         return prev != npos ? reverse_complement(prev) : prev;
     }
 }
 
 void CanonicalDBG::call_nodes(const std::function<void(node_index)> &callback,
                               const std::function<bool()> &stop_early) const {
-    graph_.call_nodes([&](node_index i) {
-                          callback(i);
-                          if (!stop_early()) {
-                              node_index j = reverse_complement(i);
-                              if (j != i)
-                                  callback(j);
-                          }
-                      }, stop_early);
+    graph_->call_nodes(
+        [&](node_index i) {
+            callback(i);
+            if (!stop_early()) {
+                node_index j = reverse_complement(i);
+                if (j != i)
+                    callback(j);
+            }
+        },
+        stop_early
+    );
+}
+
+void CanonicalDBG
+::call_kmers(const std::function<void(node_index, const std::string&)> &callback) const {
+    graph_->call_kmers([&](node_index i, const std::string &seq) {
+        callback(i, seq);
+        node_index j = reverse_complement(i);
+        if (j != i) {
+            std::string rseq(seq);
+            ::reverse_complement(rseq.begin(), rseq.end());
+            callback(j, rseq);
+        }
+    });
 }
 
 bool CanonicalDBG::operator==(const DeBruijnGraph &other) const {
@@ -546,12 +535,12 @@ DeBruijnGraph::node_index CanonicalDBG::reverse_complement(node_index node) cons
         return *fetch ? node : node + offset_;
 
     } else {
-        std::string seq = graph_.get_node_sequence(node);
+        std::string seq = graph_->get_node_sequence(node);
         std::string rev_seq = seq;
         ::reverse_complement(rev_seq.begin(), rev_seq.end());
         bool palindrome = (rev_seq == seq);
 
-        assert(palindrome || graph_.kmer_to_node(rev_seq) == npos);
+        assert(palindrome || graph_->kmer_to_node(rev_seq) == npos);
 
         is_palindrome_cache_.Put(node, palindrome);
         return palindrome ? node : node + offset_;
diff --git a/metagraph/src/graph/representation/canonical_dbg.hpp b/metagraph/src/graph/representation/canonical_dbg.hpp
index 10d1d769d4..abe2bf9110 100644
--- a/metagraph/src/graph/representation/canonical_dbg.hpp
+++ b/metagraph/src/graph/representation/canonical_dbg.hpp
@@ -7,8 +7,7 @@
 #include <cache.hpp>
 #include <lru_cache_policy.hpp>
 
-#include "graph/representation/base/sequence_graph.hpp"
-
+#include "graph/representation/base/dbg_wrapper.hpp"
 
 namespace mtg {
 namespace graph {
@@ -17,40 +16,17 @@ namespace graph {
  * CanonicalDBG is a wrapper which acts like a canonical-mode DeBruijnGraph, but
  * uses a non-canonical DeBruijnGraph as the underlying storage.
  */
-class CanonicalDBG : public DeBruijnGraph {
+class CanonicalDBG : public DBGWrapper<DeBruijnGraph> {
   public:
-    /**
-     * Constructs a CanonicalDBG
-     * @param graph a graph
-     * @param cache_size the number of graph traversal call results to be cached
-     */
-    CanonicalDBG(const DeBruijnGraph &graph, size_t cache_size = 100'000);
+    template <typename Graph>
+    explicit CanonicalDBG(Graph&& graph, size_t cache_size = 100'000);
 
-    /**
-     * Constructs a CanonicalDBG
-     * @param graph a graph
-     * @param cache_size the number of graph traversal call results to be cached
-     */
-    CanonicalDBG(DeBruijnGraph &graph, size_t cache_size = 100'000);
+    // copy constructors
+    CanonicalDBG(const CanonicalDBG &canonical)
+          : CanonicalDBG(canonical.graph_, canonical.cache_size_) {}
 
-    /**
-     * Constructs a CanonicalDBG
-     * @param graph a pointer to the graph
-     * @param cache_size the number of graph traversal call results to be cached
-     */
-    CanonicalDBG(std::shared_ptr<const DeBruijnGraph> graph, size_t cache_size = 100'000);
-    /**
-     * Constructs a CanonicalDBG
-     * @param graph a pointer to the graph
-     * @param cache_size the number of graph traversal call results to be cached
-     */
-    CanonicalDBG(std::shared_ptr<DeBruijnGraph> graph, size_t cache_size = 100'000);
-
-    /**
-     * Copy constructor for CanonicalDBG. This creates a new wrapper with empty caches.
-     * @param canonical the graph to copy
-     */
-    CanonicalDBG(const CanonicalDBG &canonical);
+    CanonicalDBG(CanonicalDBG &canonical)
+          : CanonicalDBG(canonical.graph_, canonical.cache_size_) {}
 
     // caches cannot be resized or moved, so disable these constructors
     CanonicalDBG& operator=(const CanonicalDBG &canonical) = delete;
@@ -59,108 +35,80 @@ class CanonicalDBG : public DeBruijnGraph {
 
     virtual ~CanonicalDBG() {}
 
-    virtual void add_sequence(std::string_view sequence,
-                              const std::function<void(node_index)> &on_insertion = [](node_index) {}) override;
+    /**
+     * Added methods
+     */
+    bool operator==(const CanonicalDBG &other) const { return *graph_ == *other.graph_; }
+
+    void reverse_complement(std::string &seq, std::vector<node_index> &path) const;
+    node_index reverse_complement(node_index node) const;
+
+    inline node_index get_base_node(node_index node) const {
+        assert(node);
+        assert(node <= offset_ * 2);
+        return node > offset_ ? node - offset_ : node;
+    }
 
+    /**
+     * Methods from DeBruijnGraph
+     */
     // Traverse graph mapping sequence to the graph nodes
     // and run callback for each node until the termination condition is satisfied
     virtual void map_to_nodes(std::string_view sequence,
                               const std::function<void(node_index)> &callback,
-                              const std::function<bool()> &terminate = [](){ return false; }) const override;
+                              const std::function<bool()> &terminate = [](){ return false; }) const override final;
 
     // Traverse graph mapping sequence to the graph nodes
     // and run callback for each node until the termination condition is satisfied.
     // Guarantees that nodes are called in the same order as the input sequence
     virtual void map_to_nodes_sequentially(std::string_view sequence,
                                            const std::function<void(node_index)> &callback,
-                                           const std::function<bool()> &terminate = [](){ return false; }) const override;
+                                           const std::function<bool()> &terminate = [](){ return false; }) const override final;
 
     // Given a node index, call the target nodes of all edges outgoing from it.
     virtual void adjacent_outgoing_nodes(node_index node,
-                                         const std::function<void(node_index)> &callback) const override;
+                                         const std::function<void(node_index)> &callback) const override final;
 
     virtual void call_outgoing_kmers(node_index kmer,
-                                     const OutgoingEdgeCallback &callback) const override;
+                                     const OutgoingEdgeCallback &callback) const override final;
 
     virtual void call_incoming_kmers(node_index kmer,
-                                     const IncomingEdgeCallback &callback) const override;
+                                     const IncomingEdgeCallback &callback) const override final;
 
     // Given a node index, call the source nodes of all edges incoming to it.
     virtual void adjacent_incoming_nodes(node_index node,
-                                         const std::function<void(node_index)> &callback) const override;
+                                         const std::function<void(node_index)> &callback) const override final;
 
     virtual void call_sequences(const CallPath &callback,
                                 size_t num_threads = 1,
-                                bool kmers_in_single_form = false) const override;
+                                bool kmers_in_single_form = false) const override final;
 
     virtual void call_unitigs(const CallPath &callback,
                               size_t num_threads = 1,
                               size_t min_tip_size = 1,
-                              bool kmers_in_single_form = false) const override;
-
-    virtual uint64_t num_nodes() const override;
-    virtual uint64_t max_index() const override { return graph_.max_index() * 2; }
-
-    virtual bool load(const std::string &) override {
-        throw std::runtime_error("Not implemented");
-    }
-
-    virtual void serialize(const std::string &) const override {
-        throw std::runtime_error("Not implemented");
-    }
+                              bool kmers_in_single_form = false) const override final;
 
-    virtual std::string file_extension() const override { return graph_.file_extension(); }
-
-    virtual const std::string& alphabet() const override { return graph_.alphabet(); }
+    virtual uint64_t num_nodes() const override final { return graph_->num_nodes() * 2; }
+    virtual uint64_t max_index() const override final { return graph_->max_index() * 2; }
 
     // Get string corresponding to |node_index|.
     // Note: Not efficient if sequences in nodes overlap. Use sparingly.
-    virtual std::string get_node_sequence(node_index index) const override;
-
-    virtual size_t get_k() const override { return graph_.get_k(); }
+    virtual std::string get_node_sequence(node_index index) const override final;
 
-    virtual Mode get_mode() const override { return CANONICAL; }
+    virtual Mode get_mode() const override final { return CANONICAL; }
+    virtual node_index traverse(node_index node, char next_char) const override final;
+    virtual node_index traverse_back(node_index node, char prev_char) const override final;
 
-    // Traverse the outgoing edge
-    virtual node_index traverse(node_index node, char next_char) const override;
-    // Traverse the incoming edge
-    virtual node_index traverse_back(node_index node, char prev_char) const override;
-
-    virtual size_t outdegree(node_index) const override;
-    virtual size_t indegree(node_index) const override;
+    virtual size_t outdegree(node_index) const override final;
+    virtual size_t indegree(node_index) const override final;
 
+    virtual void call_kmers(const std::function<void(node_index, const std::string&)> &callback) const override final;
     virtual void call_nodes(const std::function<void(node_index)> &callback,
-                            const std::function<bool()> &stop_early = [](){ return false; }) const override;
-
-    virtual const DeBruijnGraph& get_graph() const { return graph_; }
-
-    virtual bool operator==(const CanonicalDBG &other) const {
-        return graph_ == other.graph_;
-    }
-
-    virtual bool operator==(const DeBruijnGraph &other) const override;
-
-    void reverse_complement(std::string &seq, std::vector<node_index> &path) const;
-
-    inline node_index get_base_node(node_index node) const {
-        assert(node);
-        assert(node <= offset_ * 2);
-        return node > offset_ ? node - offset_ : node;
-    }
+                            const std::function<bool()> &stop_early = [](){ return false; }) const override final;
 
-    node_index reverse_complement(node_index node) const;
+    virtual bool operator==(const DeBruijnGraph &other) const override final;
 
   private:
-    std::shared_ptr<const DeBruijnGraph> const_graph_ptr_;
-    const DeBruijnGraph &graph_ = *const_graph_ptr_;
-    size_t offset_;
-    bool k_odd_;
-    bool has_sentinel_;
-
-    std::shared_ptr<DeBruijnGraph> graph_ptr_;
-
-    std::array<size_t, 256> alphabet_encoder_;
-
     size_t cache_size_;
 
     // cache the results of call_outgoing_kmers
@@ -175,6 +123,15 @@ class CanonicalDBG : public DeBruijnGraph {
     mutable caches::fixed_sized_cache<node_index, bool,
                                       caches::LRUCachePolicy<node_index>> is_palindrome_cache_;
 
+    size_t offset_;
+    bool k_odd_;
+    bool has_sentinel_;
+
+    std::array<size_t, 256> alphabet_encoder_;
+
+    // reset all caches
+    void flush();
+
     // find all parent nodes of node in the CanonicalDBG which are represented
     // in the reverse complement orientation in the underlying primary graph
     void append_prev_rc_nodes(node_index node, std::vector<node_index> &parents) const;
diff --git a/metagraph/src/graph/representation/masked_graph.cpp b/metagraph/src/graph/representation/masked_graph.cpp
index d9b96fa23f..fd8a109ba9 100644
--- a/metagraph/src/graph/representation/masked_graph.cpp
+++ b/metagraph/src/graph/representation/masked_graph.cpp
@@ -8,38 +8,6 @@
 namespace mtg {
 namespace graph {
 
-MaskedDeBruijnGraph
-::MaskedDeBruijnGraph(std::shared_ptr<const DeBruijnGraph> graph,
-                      std::unique_ptr<bitmap>&& kmers_in_graph,
-                      bool only_valid_nodes_in_mask,
-                      Mode mode)
-      : graph_(graph),
-        kmers_in_graph_(std::move(kmers_in_graph)),
-        only_valid_nodes_in_mask_(only_valid_nodes_in_mask),
-        mode_(mode) {
-    assert(kmers_in_graph_.get());
-    assert(kmers_in_graph_->size() == graph->max_index() + 1);
-
-    if (graph_->get_mode() == PRIMARY && mode_ != PRIMARY) {
-        throw std::runtime_error("Any subgraph of a primary graph is primary, thus"
-                                 " the mode of the subgraph must be set to PRIMARY");
-    }
-    if (graph_->get_mode() != CANONICAL && mode_ == CANONICAL) {
-        throw std::runtime_error("Canonical subgraph requires canonical base graph");
-    }
-}
-
-MaskedDeBruijnGraph
-::MaskedDeBruijnGraph(std::shared_ptr<const DeBruijnGraph> graph,
-                      std::function<bool(node_index)>&& callback,
-                      bool only_valid_nodes_in_mask,
-                      Mode mode)
-      : MaskedDeBruijnGraph(graph,
-                            std::make_unique<bitmap_lazy>(std::move(callback),
-                                                          graph->max_index() + 1),
-                            only_valid_nodes_in_mask,
-                            mode) {}
-
 // Traverse the outgoing edge
 MaskedDeBruijnGraph::node_index MaskedDeBruijnGraph
 ::traverse(node_index node, char next_char) const {
@@ -61,7 +29,9 @@ size_t MaskedDeBruijnGraph::outdegree(node_index node) const {
     assert(in_subgraph(node));
 
     size_t outdegree = 0;
-    graph_->adjacent_outgoing_nodes(node, [&](auto index) { outdegree += in_subgraph(index); });
+    graph_->adjacent_outgoing_nodes(node, [&](auto index) {
+        outdegree += in_subgraph(index);
+    });
     return outdegree;
 }
 
@@ -69,7 +39,9 @@ size_t MaskedDeBruijnGraph::indegree(node_index node) const {
     assert(in_subgraph(node));
 
     size_t indegree = 0;
-    graph_->adjacent_incoming_nodes(node, [&](auto index) { indegree += in_subgraph(index); });
+    graph_->adjacent_incoming_nodes(node, [&](auto index) {
+        indegree += in_subgraph(index);
+    });
     return indegree;
 }
 
@@ -94,31 +66,23 @@ ::adjacent_incoming_nodes(node_index node, const std::function<void(node_index)>
 }
 
 void MaskedDeBruijnGraph
-::call_outgoing_kmers(node_index kmer,
-                      const OutgoingEdgeCallback &callback) const {
+::call_outgoing_kmers(node_index kmer, const OutgoingEdgeCallback &callback) const {
     assert(in_subgraph(kmer));
 
-    graph_->call_outgoing_kmers(
-        kmer,
-        [&](const auto &index, auto c) {
-            if (in_subgraph(index))
-                callback(index, c);
-        }
-    );
+    graph_->call_outgoing_kmers(kmer, [&](const auto &index, auto c) {
+        if (in_subgraph(index))
+            callback(index, c);
+    });
 }
 
 void MaskedDeBruijnGraph
-::call_incoming_kmers(node_index kmer,
-                      const IncomingEdgeCallback &callback) const {
+::call_incoming_kmers(node_index kmer, const IncomingEdgeCallback &callback) const {
     assert(in_subgraph(kmer));
 
-    graph_->call_incoming_kmers(
-        kmer,
-        [&](const auto &index, auto c) {
-            if (in_subgraph(index))
-                callback(index, c);
-        }
-    );
+    graph_->call_incoming_kmers(kmer, [&](const auto &index, auto c) {
+        if (in_subgraph(index))
+            callback(index, c);
+    });
 }
 
 bit_vector_stat get_boss_mask(const DBGSuccinct &dbg_succ,
@@ -126,28 +90,23 @@ bit_vector_stat get_boss_mask(const DBGSuccinct &dbg_succ,
                               bool only_valid_nodes_in_mask) {
     sdsl::bit_vector mask_bv(dbg_succ.get_boss().num_edges() + 1, false);
     if (only_valid_nodes_in_mask) {
-        kmers_in_graph.call_ones(
-            [&](auto i) {
-                assert(dbg_succ.kmer_to_boss_index(i));
-                mask_bv[dbg_succ.kmer_to_boss_index(i)] = true;
-            }
-        );
+        kmers_in_graph.call_ones([&](auto i) {
+            assert(dbg_succ.kmer_to_boss_index(i));
+            mask_bv[dbg_succ.kmer_to_boss_index(i)] = true;
+        });
     } else {
-        dbg_succ.call_nodes(
-            [&](auto i) {
-                assert(dbg_succ.kmer_to_boss_index(i));
-                if (kmers_in_graph[i])
-                    mask_bv[dbg_succ.kmer_to_boss_index(i)] = true;
-            }
-        );
+        dbg_succ.call_nodes([&](auto i) {
+            assert(dbg_succ.kmer_to_boss_index(i));
+            if (kmers_in_graph[i])
+                mask_bv[dbg_succ.kmer_to_boss_index(i)] = true;
+        });
     }
     return bit_vector_stat(std::move(mask_bv));
 }
 
-void MaskedDeBruijnGraph
-::call_sequences(const CallPath &callback,
-                 size_t num_threads,
-                 bool kmers_in_single_form) const {
+void MaskedDeBruijnGraph::call_sequences(const CallPath &callback,
+                                         size_t num_threads,
+                                         bool kmers_in_single_form) const {
     if (auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(graph_.get())) {
         bit_vector_stat mask = get_boss_mask(*dbg_succ, *kmers_in_graph_,
                                              only_valid_nodes_in_mask_);
@@ -165,11 +124,10 @@ ::call_sequences(const CallPath &callback,
     }
 }
 
-void MaskedDeBruijnGraph
-::call_unitigs(const CallPath &callback,
-               size_t num_threads,
-               size_t min_tip_size,
-               bool kmers_in_single_form) const {
+void MaskedDeBruijnGraph::call_unitigs(const CallPath &callback,
+                                       size_t num_threads,
+                                       size_t min_tip_size,
+                                       bool kmers_in_single_form) const {
     if (auto *dbg_succ = dynamic_cast<const DBGSuccinct*>(graph_.get())) {
         bit_vector_stat mask = get_boss_mask(*dbg_succ, *kmers_in_graph_,
                                              only_valid_nodes_in_mask_);
@@ -200,20 +158,18 @@ ::call_nodes(const std::function<void(node_index)> &callback,
     if (only_valid_nodes_in_mask_) {
         // iterate only through the nodes marked in the mask
         // TODO: add terminate<bool(void)> to call_ones
-        kmers_in_graph_->call_ones(
-            [&](auto index) {
-                if (stop || !index)
-                    return;
+        kmers_in_graph_->call_ones([&](auto index) {
+            if (stop || !index)
+                return;
 
-                assert(in_subgraph(index));
+            assert(in_subgraph(index));
 
-                if (stop_early()) {
-                    stop = true;
-                } else {
-                    callback(index);
-                }
+            if (stop_early()) {
+                stop = true;
+            } else {
+                callback(index);
             }
-        );
+        });
     } else {
         // call all nodes in the base graph and check the mask
         graph_->call_nodes(
@@ -226,12 +182,33 @@ ::call_nodes(const std::function<void(node_index)> &callback,
     }
 }
 
+void MaskedDeBruijnGraph
+::call_kmers(const std::function<void(node_index, const std::string&)> &callback) const {
+    assert(max_index() + 1 == kmers_in_graph_->size());
+
+    if (only_valid_nodes_in_mask_) {
+        // iterate only through the nodes marked in the mask
+        kmers_in_graph_->call_ones([&](node_index index) {
+            if (index) {
+                assert(in_subgraph(index));
+                // TODO: make this more efficient
+                callback(index, get_node_sequence(index));
+            }
+        });
+    } else {
+        // call all nodes in the base graph and check the mask
+        graph_->call_kmers([&](node_index index, const std::string &seq) {
+            if (in_subgraph(index))
+                callback(index, seq);
+        });
+    }
+}
+
 // Traverse graph mapping sequence to the graph nodes
 // and run callback for each node until the termination condition is satisfied
-void MaskedDeBruijnGraph
-::map_to_nodes(std::string_view sequence,
-               const std::function<void(node_index)> &callback,
-               const std::function<bool()> &terminate) const {
+void MaskedDeBruijnGraph::map_to_nodes(std::string_view sequence,
+                                       const std::function<void(node_index)> &callback,
+                                       const std::function<bool()> &terminate) const {
     graph_->map_to_nodes(
         sequence,
         [&](const node_index &index) {
diff --git a/metagraph/src/graph/representation/masked_graph.hpp b/metagraph/src/graph/representation/masked_graph.hpp
index 3613d1bacc..20b0bacbee 100644
--- a/metagraph/src/graph/representation/masked_graph.hpp
+++ b/metagraph/src/graph/representation/masked_graph.hpp
@@ -5,34 +5,47 @@
 #include <vector>
 
 #include "common/vectors/bitmap.hpp"
-#include "graph/representation/base/sequence_graph.hpp"
+#include "graph/representation/base/dbg_wrapper.hpp"
 
 
 namespace mtg {
 namespace graph {
 
-class MaskedDeBruijnGraph : public DeBruijnGraph {
+class MaskedDeBruijnGraph : public DBGWrapper<DeBruijnGraph> {
   public:
-    MaskedDeBruijnGraph(std::shared_ptr<const DeBruijnGraph> graph,
+    template <class Graph>
+    MaskedDeBruijnGraph(Graph&& graph,
                         std::unique_ptr<bitmap>&& kmers_in_graph,
                         bool only_valid_nodes_in_mask = false,
-                        Mode mode = BASIC);
+                        Mode mode = BASIC)
+          : DBGWrapper<DeBruijnGraph>(std::forward<Graph>(graph)),
+            kmers_in_graph_(std::move(kmers_in_graph)),
+            only_valid_nodes_in_mask_(only_valid_nodes_in_mask),
+            mode_(mode) {
+        assert(kmers_in_graph_.get());
+        assert(kmers_in_graph_->size() == graph_->max_index() + 1);
+
+        if (graph_->get_mode() == PRIMARY && mode_ != PRIMARY) {
+            throw std::runtime_error("Any subgraph of a primary graph is primary, thus"
+                                     " the mode of the subgraph must be set to PRIMARY");
+        }
 
-    MaskedDeBruijnGraph(std::shared_ptr<const DeBruijnGraph> graph,
+        if (graph_->get_mode() != CANONICAL && mode_ == CANONICAL)
+            throw std::runtime_error("Canonical subgraph requires canonical base graph");
+    }
+
+    template <class Graph>
+    MaskedDeBruijnGraph(Graph&& graph,
                         std::function<bool(node_index)>&& callback,
                         bool only_valid_nodes_in_mask = false,
-                        Mode mode = BASIC);
-
-    MaskedDeBruijnGraph(MaskedDeBruijnGraph&&) = default;
-    MaskedDeBruijnGraph& operator=(MaskedDeBruijnGraph&&) = default;
+                        Mode mode = BASIC)
+          : MaskedDeBruijnGraph(std::forward<Graph>(graph),
+                                std::make_unique<bitmap_lazy>(
+                                    std::move(callback), graph->max_index() + 1),
+                                only_valid_nodes_in_mask, mode) {}
 
     virtual ~MaskedDeBruijnGraph() {}
 
-    virtual void add_sequence(std::string_view,
-                              const std::function<void(node_index)> &) override {
-        throw std::runtime_error("Not implemented");
-    }
-
     // Traverse graph mapping sequence to the graph nodes
     // and run callback for each node until the termination condition is satisfied
     virtual void map_to_nodes(std::string_view sequence,
@@ -70,26 +83,11 @@ class MaskedDeBruijnGraph : public DeBruijnGraph {
                               bool kmers_in_single_form = false) const override;
 
     virtual uint64_t num_nodes() const override { return kmers_in_graph_->num_set_bits(); }
-    virtual uint64_t max_index() const override { return graph_->max_index(); }
-
-    virtual bool load(const std::string &) override {
-        throw std::runtime_error("Not implemented");
-    }
-
-    virtual void serialize(const std::string &) const override {
-        throw std::runtime_error("Not implemented");
-    }
-
-    virtual std::string file_extension() const override { return graph_->file_extension(); }
-
-    virtual const std::string& alphabet() const override { return graph_->alphabet(); }
 
     // Get string corresponding to |node_index|.
     // Note: Not efficient if sequences in nodes overlap. Use sparingly.
     virtual std::string get_node_sequence(node_index index) const override;
 
-    virtual size_t get_k() const override { return graph_->get_k(); }
-
     virtual Mode get_mode() const override { return mode_; }
 
     // Traverse the outgoing edge
@@ -103,11 +101,8 @@ class MaskedDeBruijnGraph : public DeBruijnGraph {
     virtual void call_nodes(const std::function<void(node_index)> &callback,
                             const std::function<bool()> &stop_early = [](){ return false; }) const override;
 
-    virtual const DeBruijnGraph& get_graph() const { return *graph_; }
-    std::shared_ptr<const DeBruijnGraph> get_graph_ptr() const { return graph_; }
-
     virtual inline bool in_subgraph(node_index node) const {
-        assert(node > 0 && node <= graph_->max_index());
+        assert(node > 0 && node <= max_index());
         assert(kmers_in_graph_.get());
 
         return (*kmers_in_graph_)[node];
@@ -120,8 +115,21 @@ class MaskedDeBruijnGraph : public DeBruijnGraph {
 
     virtual const bitmap& get_mask() const { return *kmers_in_graph_; }
 
+    virtual void call_kmers(const std::function<void(node_index, const std::string&)> &callback) const override;
+
+    virtual node_index kmer_to_node(std::string_view kmer) const override {
+        node_index node = graph_->kmer_to_node(kmer);
+        return (*kmers_in_graph_)[node] ? node : npos;
+    }
+
+    virtual void call_source_nodes(const std::function<void(node_index)> &callback) const override {
+        graph_->call_source_nodes([&](node_index node) {
+            if ((*kmers_in_graph_)[node])
+                callback(node);
+        });
+    }
+
   private:
-    std::shared_ptr<const DeBruijnGraph> graph_;
     std::unique_ptr<bitmap> kmers_in_graph_;
     bool only_valid_nodes_in_mask_;
     Mode mode_;
diff --git a/metagraph/src/graph/representation/rc_dbg.hpp b/metagraph/src/graph/representation/rc_dbg.hpp
new file mode 100644
index 0000000000..2632d4f5ad
--- /dev/null
+++ b/metagraph/src/graph/representation/rc_dbg.hpp
@@ -0,0 +1,139 @@
+#ifndef __RC_DBG_HPP__
+#define __RC_DBG_HPP__
+
+#include "graph/representation/base/dbg_wrapper.hpp"
+#include "common/seq_tools/reverse_complement.hpp"
+
+namespace mtg {
+namespace graph {
+
+/**
+ * RCDBG is a wrapper which represents the reverse complement of the underlying Graph.
+ * e.g., get_node_sequence(n) := reverse_complement(graph.get_node_sequence(n))
+ * e.g., traverse(n, c) := graph.traverse_back(n, complement(c))
+ */
+class RCDBG : public DBGWrapper<DeBruijnGraph> {
+  public:
+    template <typename... Args>
+    RCDBG(Args&&... args) : DBGWrapper<DeBruijnGraph>(std::forward<Args>(args)...) {}
+
+    virtual node_index traverse(node_index node, char next_char) const override final {
+        return graph_->traverse_back(node, complement(next_char));
+    }
+
+    virtual node_index traverse_back(node_index node, char prev_char) const override final {
+        return graph_->traverse(node, complement(prev_char));
+    }
+
+    virtual void
+    map_to_nodes_sequentially(std::string_view sequence,
+                              const std::function<void(node_index)> &callback,
+                              const std::function<bool()> &terminate
+                                  = [](){ return false; }) const override final {
+        if (terminate())
+            return;
+
+        std::string rc(sequence);
+        ::reverse_complement(rc.begin(), rc.end());
+        std::vector<node_index> nodes = map_sequence_to_nodes(*graph_, rc);
+
+        for (auto it = nodes.rbegin(); it != nodes.rend() && !terminate(); ++it) {
+            callback(*it);
+        }
+    }
+
+    virtual void map_to_nodes(std::string_view sequence,
+                              const std::function<void(node_index)> &callback,
+                              const std::function<bool()> &terminate
+                                  = [](){ return false; }) const override final {
+        if (terminate() || sequence.size() < get_k())
+            return;
+
+        std::string rc(sequence);
+        ::reverse_complement(rc.begin(), rc.end());
+
+        std::vector<node_index> nodes;
+        nodes.reserve(sequence.size() - get_k() + 1);
+        graph_->map_to_nodes(rc, [&](node_index node) { nodes.push_back(node); });
+
+        for (auto it = nodes.rbegin(); it != nodes.rend() && !terminate(); ++it) {
+            callback(*it);
+        }
+    }
+
+    virtual size_t outdegree(node_index node) const override final {
+        return graph_->indegree(node);
+    }
+
+    virtual bool has_single_outgoing(node_index node) const override final {
+        return graph_->has_single_incoming(node);
+    }
+
+    virtual size_t indegree(node_index node) const override final {
+        return graph_->outdegree(node);
+    }
+
+    virtual bool has_single_incoming(node_index node) const override final {
+        return graph_->has_single_outgoing(node);
+    }
+
+    virtual void call_outgoing_kmers(node_index kmer,
+                                     const OutgoingEdgeCallback &callback) const override final {
+        graph_->call_incoming_kmers(kmer, [&](node_index prev, char c) {
+            callback(prev, complement(c));
+        });
+    }
+
+    virtual void call_incoming_kmers(node_index kmer,
+                                     const IncomingEdgeCallback &callback) const override final {
+        graph_->call_outgoing_kmers(kmer, [&](node_index next, char c) {
+            callback(next, complement(c));
+        });
+    }
+
+    virtual void
+    adjacent_outgoing_nodes(node_index node,
+                            const std::function<void(node_index)> &callback) const override final {
+        graph_->adjacent_incoming_nodes(node, callback);
+    }
+    virtual void
+    adjacent_incoming_nodes(node_index node,
+                            const std::function<void(node_index)> &callback) const override final {
+        graph_->adjacent_outgoing_nodes(node, callback);
+    }
+
+    virtual std::string get_node_sequence(node_index node) const override final {
+        std::string rc = graph_->get_node_sequence(node);
+        ::reverse_complement(rc.begin(), rc.end());
+        return rc;
+    }
+
+    virtual bool operator==(const DeBruijnGraph &other) const override final {
+        if (const auto *other_rc = dynamic_cast<const RCDBG*>(&other)) {
+            return *graph_ == *other_rc->graph_;
+        } else {
+            return DeBruijnGraph::operator==(other);
+        }
+    }
+
+    virtual void call_nodes(const std::function<void(node_index)> &callback,
+                            const std::function<bool()> &stop_early
+                                = [](){ return false; }) const override {
+        // all node IDs are the same
+        graph_->call_nodes(callback, stop_early);
+    }
+
+    virtual void call_kmers(const std::function<void(node_index, const std::string&)> &callback) const override {
+        // all node IDs are the same, but represent the reverse complement sequences
+        graph_->call_kmers([&](node_index node, const std::string &seq) {
+            std::string rseq(seq);
+            ::reverse_complement(rseq.begin(), rseq.end());
+            callback(node, rseq);
+        });
+    }
+};
+
+} // namespace mtg
+} // namespace graph
+
+#endif // __RC_DBG_HPP__
diff --git a/metagraph/src/graph/representation/succinct/dbg_succinct.cpp b/metagraph/src/graph/representation/succinct/dbg_succinct.cpp
index d15d0f2e49..f2db17b4aa 100644
--- a/metagraph/src/graph/representation/succinct/dbg_succinct.cpp
+++ b/metagraph/src/graph/representation/succinct/dbg_succinct.cpp
@@ -1035,6 +1035,10 @@ void DBGSuccinct::add_rd_successors_at_forks(size_t num_threads,
         if (i < 2 || boss_graph_->is_single_outgoing(i) || (*rd_succ)[boss_to_kmer_index(i)])
             continue;
 
+        // // make nodes with multiple incoming edges have only one successor
+        // if (indegree(boss_to_kmer_index(i)) > 1)
+        //     continue;
+
         // (*rd_succ)[i] = true;
         // continue;
         // TODO: test this
diff --git a/metagraph/tests/annotation/taxonomy/test_taxonomy.cpp b/metagraph/tests/annotation/taxonomy/test_taxonomy.cpp
new file mode 100644
index 0000000000..c0d27c9014
--- /dev/null
+++ b/metagraph/tests/annotation/taxonomy/test_taxonomy.cpp
@@ -0,0 +1,90 @@
+#include "gtest/gtest.h"
+
+#include <tsl/hopscotch_map.h>
+#include <tsl/hopscotch_set.h>
+
+#define private public
+#define protected public
+
+#include "annotation/taxonomy/tax_classifier.hpp"
+
+namespace {
+
+TEST(TaxonomyTest, ClsAnno_DfsStatistics) {
+    std::unique_ptr<mtg::annot::TaxonomyClsAnno> tax = std::make_unique<mtg::annot::TaxonomyClsAnno>();
+    tsl::hopscotch_map<uint32_t, std::vector<uint32_t>> tree {
+        {0, {1, 2, 3}},      // node 0 -> root
+        {1, {4, 5}},         // node 1
+        {2, {}},             // node 2
+        {3, {6}},            // node 3
+        {4, {7, 8}},         // node 4
+        {5, {}},
+        {6, {}},
+        {7, {}},
+        {8, {}},
+    };
+
+    std::vector<uint32_t> expected_linearization = {
+        0, 1, 4, 7, 4, 8, 4, 1, 5, 1, 0, 2, 0, 3, 6, 3, 0
+    };
+    tsl::hopscotch_map<uint32_t, uint32_t> expected_node_depths = {
+        {0, 4},
+        {1, 3},
+        {2, 1},
+        {3, 2},
+        {4, 2},
+        {5, 1},
+        {6, 1},
+        {7, 1},
+        {8, 1},
+    };
+    tsl::hopscotch_map<uint32_t, uint32_t> expected_node_to_linearization_idx = {
+        {0, 0},
+        {1, 1},
+        {2, 11},
+        {3, 13},
+        {4, 2},
+        {5, 8},
+        {6, 14},
+        {7, 3},
+        {8, 5},
+    };
+
+    std::vector<uint32_t> tree_linearization;
+    tax->dfs_statistics(0, tree, &tree_linearization);
+    EXPECT_EQ(expected_linearization, tree_linearization);
+    EXPECT_EQ(expected_node_depths, tax->node_depth_);
+    EXPECT_EQ(expected_node_to_linearization_idx, tax->node_to_linearization_idx_);
+}
+
+TEST(TaxonomyTest, ClsAnno_RmqPreprocessing) {
+    std::unique_ptr<mtg::annot::TaxonomyClsAnno> tax = std::make_unique<mtg::annot::TaxonomyClsAnno>();
+
+    tax->node_depth_ = {
+        {0, 4},
+        {1, 3},
+        {2, 1},
+        {3, 2},
+        {4, 2},
+        {5, 1},
+        {6, 1},
+        {7, 1},
+        {8, 1},
+    };
+
+    std::vector<uint32_t> linearization = {
+        0, 1, 4, 7, 4, 8, 4, 1, 5, 1, 0, 2, 0, 3, 6, 3, 0
+    };
+    std::vector<std::vector<uint32_t>> expected_rmq = {
+        {0, 1, 4, 7, 4, 8, 4, 1, 5, 1, 0, 2, 0, 3, 6, 3, 0},
+        {0, 1, 4, 4, 4, 4, 1, 1, 1, 0, 0, 0, 0, 3, 3, 0, 0},
+        {0, 1, 4, 4, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0},
+        {0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0},
+        {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}
+    };
+
+    tax->rmq_preprocessing(linearization);
+    EXPECT_EQ(expected_rmq, tax->rmq_data_);
+}
+
+}
diff --git a/metagraph/tests/annotation/test_annotated_dbg_helpers.cpp b/metagraph/tests/annotation/test_annotated_dbg_helpers.cpp
index 7412d4f39d..5e2e620d50 100644
--- a/metagraph/tests/annotation/test_annotated_dbg_helpers.cpp
+++ b/metagraph/tests/annotation/test_annotated_dbg_helpers.cpp
@@ -30,7 +30,7 @@ build_anno_graph(uint64_t k,
         anno_graph->annotate_sequence(std::string(sequences[i]), { labels[i] });
     }
 
-    if (!std::is_same<Annotation, annot::ColumnCompressed<>>::value)
+    if (!std::is_same<Annotation, annot::ColumnCompressed<>>::value) {
         anno_graph = std::make_unique<AnnotatedDBG>(
             graph,
             std::unique_ptr<AnnotatedDBG::Annotator>(
@@ -41,6 +41,7 @@ build_anno_graph(uint64_t k,
                 ))
             )
         );
+    }
 
     return anno_graph;
 }
diff --git a/metagraph/tests/annotation/test_annotation.hpp b/metagraph/tests/annotation/test_annotation.hpp
index a81ae5073c..ae7da0bb5f 100644
--- a/metagraph/tests/annotation/test_annotation.hpp
+++ b/metagraph/tests/annotation/test_annotation.hpp
@@ -44,9 +44,7 @@ class AnnotatorTest : public ::testing::Test {
 
     virtual void set(annot::ColumnCompressed<>&& column_annotator) {
         if constexpr(std::is_same_v<Annotator, annot::MultiBRWTAnnotator>) {
-            annotation = annot::convert_to_simple_BRWT(
-                std::move(column_annotator)
-            );
+            annotation = annot::convert_to_simple_BRWT(std::move(column_annotator));
 
         } else if constexpr(std::is_same_v<Annotator, annot::RowCompressed<>>) {
             annotation.reset(new annot::RowCompressed<>(column_annotator.num_objects()));
diff --git a/metagraph/tests/data/genome_MT1.fq b/metagraph/tests/data/genome_MT1.fq
index 159383d039..72223248f4 100644
--- a/metagraph/tests/data/genome_MT1.fq
+++ b/metagraph/tests/data/genome_MT1.fq
@@ -22,3 +22,7 @@ FAFFFKKKKFKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKFKKKFKKKKKKKKKKKKKKKKKAKKKKKKKKKKKK
 AACAGAGAATTGTTTAAATTACAATCTTAGCTATGGGTGCTAAAGGTGGAGTTATAGACTTTTTCACTGATTTGTCGTTGGAAAAAGCTTTTCATCTCGGGTTTACAAGTCTGGTGTATTTGTTTATACTAGAAGGACAGGCGCATTTGA
 +
 FAFFFKKKKKKKKKFKKKKKKKAKKKKKK,KKKKKKKKKKKKKKKKKKKKKKKKKKKFFKFKKK<KKKKKKKKF,K,KKKKFKKKKKKKKKKKKKKKF7KKKKKKKKKKKKKKKKKFKKKFFKKKKKKKKKFAAKKKKKKKKKFFFKFKK
+@MT-11/1 target
+AACAGAGAATAGTTTAAATTAGAATCTTAGCTTTGGGTGCTAATGGTGGAGTTAAAGACTTTTTCTCTGATTTGTCCTTGGAAAAAGGTTTTCATCTCCGGTTTACAAGACTGGTGTATTAGTTTATACTACAAGGACAGGCCCATTTGA
++
+IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII
diff --git a/metagraph/tests/graph/all/test_dbg_helpers.cpp b/metagraph/tests/graph/all/test_dbg_helpers.cpp
index 616ba595f0..578561699d 100644
--- a/metagraph/tests/graph/all/test_dbg_helpers.cpp
+++ b/metagraph/tests/graph/all/test_dbg_helpers.cpp
@@ -151,21 +151,21 @@ build_graph<DBGSuccinct>(uint64_t k,
     return graph;
 }
 
+DBGSuccinct& get_dbg_succ(DeBruijnGraph &graph) {
+    return const_cast<DBGSuccinct&>(dynamic_cast<const DBGSuccinct&>(graph.get_base_graph()));
+}
+
+BOSS& get_boss(DeBruijnGraph &graph) {
+    return const_cast<BOSS&>(dynamic_cast<const DBGSuccinct&>(graph.get_base_graph()).get_boss());
+}
+
 template <>
 std::shared_ptr<DeBruijnGraph>
 build_graph<DBGSuccinctIndexed<1>>(uint64_t k,
                                    std::vector<std::string> sequences,
                                    DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    BOSS *boss;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        DeBruijnGraph &mutable_graph = const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        );
-        boss = &dynamic_cast<DBGSuccinct&>(mutable_graph).get_boss();
-    } else {
-        boss = &dynamic_cast<DBGSuccinct&>(*graph).get_boss();
-    }
+    BOSS *boss = &get_boss(*graph);
     boss->index_suffix_ranges(1);
 
     return graph;
@@ -177,15 +177,7 @@ build_graph<DBGSuccinctIndexed<2>>(uint64_t k,
                                    std::vector<std::string> sequences,
                                    DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    BOSS *boss;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        DeBruijnGraph &mutable_graph = const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        );
-        boss = &dynamic_cast<DBGSuccinct&>(mutable_graph).get_boss();
-    } else {
-        boss = &dynamic_cast<DBGSuccinct&>(*graph).get_boss();
-    }
+    BOSS *boss = &get_boss(*graph);
     boss->index_suffix_ranges(std::min(k - 1, (uint64_t)2));
 
     return graph;
@@ -197,15 +189,7 @@ build_graph<DBGSuccinctIndexed<10>>(uint64_t k,
                                     std::vector<std::string> sequences,
                                     DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    BOSS *boss;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        DeBruijnGraph &mutable_graph = const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        );
-        boss = &dynamic_cast<DBGSuccinct&>(mutable_graph).get_boss();
-    } else {
-        boss = &dynamic_cast<DBGSuccinct&>(*graph).get_boss();
-    }
+    BOSS *boss = &get_boss(*graph);
     boss->index_suffix_ranges(std::min(k - 1, (uint64_t)10));
 
     return graph;
@@ -217,14 +201,7 @@ build_graph<DBGSuccinctBloomFPR<1, 1>>(uint64_t k,
                                        std::vector<std::string> sequences,
                                        DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter_from_fpr(1.0);
 
     return graph;
@@ -236,14 +213,7 @@ build_graph<DBGSuccinctBloomFPR<1, 10>>(uint64_t k,
                                         std::vector<std::string> sequences,
                                         DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter_from_fpr(1.0 / 10);
 
     return graph;
@@ -255,14 +225,7 @@ build_graph<DBGSuccinctBloom<4, 1>>(uint64_t k,
                                     std::vector<std::string> sequences,
                                     DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter(4.0, 1);
 
     return graph;
@@ -274,14 +237,7 @@ build_graph<DBGSuccinctBloom<4, 50>>(uint64_t k,
                                      std::vector<std::string> sequences,
                                      DeBruijnGraph::Mode mode) {
     auto graph = build_graph<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter(4.0, 50);
 
     return graph;
@@ -355,15 +311,7 @@ build_graph_batch<DBGSuccinctIndexed<1>>(uint64_t k,
                                          std::vector<std::string> sequences,
                                          DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    BOSS *boss;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        DeBruijnGraph &mutable_graph = const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        );
-        boss = &dynamic_cast<DBGSuccinct&>(mutable_graph).get_boss();
-    } else {
-        boss = &dynamic_cast<DBGSuccinct&>(*graph).get_boss();
-    }
+    BOSS *boss = &get_boss(*graph);
     boss->index_suffix_ranges(1);
 
     return graph;
@@ -375,15 +323,7 @@ build_graph_batch<DBGSuccinctIndexed<2>>(uint64_t k,
                                          std::vector<std::string> sequences,
                                          DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    BOSS *boss;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        DeBruijnGraph &mutable_graph = const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        );
-        boss = &dynamic_cast<DBGSuccinct&>(mutable_graph).get_boss();
-    } else {
-        boss = &dynamic_cast<DBGSuccinct&>(*graph).get_boss();
-    }
+    BOSS *boss = &get_boss(*graph);
     boss->index_suffix_ranges(std::min(k - 1, (uint64_t)2));
 
     return graph;
@@ -395,15 +335,7 @@ build_graph_batch<DBGSuccinctIndexed<10>>(uint64_t k,
                                           std::vector<std::string> sequences,
                                           DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    BOSS *boss;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        DeBruijnGraph &mutable_graph = const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        );
-        boss = &dynamic_cast<DBGSuccinct&>(mutable_graph).get_boss();
-    } else {
-        boss = &dynamic_cast<DBGSuccinct&>(*graph).get_boss();
-    }
+    BOSS *boss = &get_boss(*graph);
     boss->index_suffix_ranges(std::min(k - 1, (uint64_t)10));
 
     return graph;
@@ -415,14 +347,7 @@ build_graph_batch<DBGSuccinctBloomFPR<1, 1>>(uint64_t k,
                                              std::vector<std::string> sequences,
                                              DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter_from_fpr(1.0);
 
     return graph;
@@ -434,14 +359,7 @@ build_graph_batch<DBGSuccinctBloomFPR<1, 10>>(uint64_t k,
                                               std::vector<std::string> sequences,
                                               DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter_from_fpr(1.0 / 10);
 
     return graph;
@@ -453,14 +371,7 @@ build_graph_batch<DBGSuccinctBloom<4, 1>>(uint64_t k,
                                           std::vector<std::string> sequences,
                                           DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter(4.0, 1);
 
     return graph;
@@ -472,14 +383,7 @@ build_graph_batch<DBGSuccinctBloom<4, 50>>(uint64_t k,
                                            std::vector<std::string> sequences,
                                            DeBruijnGraph::Mode mode) {
     auto graph = build_graph_batch<DBGSuccinct>(k, sequences, mode);
-    DBGSuccinct *dbg_succ;
-    if (mode == DeBruijnGraph::PRIMARY) {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(const_cast<DeBruijnGraph&>(
-            std::dynamic_pointer_cast<CanonicalDBG>(graph)->get_graph()
-        ));
-    } else {
-        dbg_succ = &dynamic_cast<DBGSuccinct&>(*graph);
-    }
+    DBGSuccinct *dbg_succ = &get_dbg_succ(*graph);
     dbg_succ->initialize_bloom_filter(4.0, 50);
 
     return graph;
diff --git a/metagraph/tests/graph/test_aligner.cpp b/metagraph/tests/graph/test_aligner.cpp
index 4e02e48f7d..bb014415e2 100644
--- a/metagraph/tests/graph/test_aligner.cpp
+++ b/metagraph/tests/graph/test_aligner.cpp
@@ -22,6 +22,10 @@ using namespace mtg::kmer;
 const std::string test_data_dir = "../tests/data";
 const bool PICK_REV_COMP = true;
 
+inline bool is_exact_match(const Alignment &alignment) {
+    return alignment.get_cigar().is_exact_match(alignment.get_query().size());
+}
+
 void check_score_matrix(const DBGAlignerConfig &config,
                         const char* alphabet,
                         size_t alph_size) {
@@ -112,6 +116,7 @@ TYPED_TEST(DBGAlignerTest, align_sequence_too_short) {
 
     auto graph = build_graph_batch<TypeParam>(k, { reference });
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.min_seed_length = k;
     DBGAligner<> aligner(*graph, config);
     auto paths = aligner.align(query);
 
@@ -135,8 +140,8 @@ TYPED_TEST(DBGAlignerTest, align_big_self_loop) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("9=", path.get_cigar().to_string());
-    EXPECT_EQ(9u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(9u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -163,8 +168,8 @@ TYPED_TEST(DBGAlignerTest, align_single_node) {
     EXPECT_EQ("CAT", path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("3=", path.get_cigar().to_string());
-    EXPECT_EQ(3u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(3u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -191,8 +196,8 @@ TYPED_TEST(DBGAlignerTest, align_straight) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("14=", path.get_cigar().to_string());
-    EXPECT_EQ(14u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(14u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -202,6 +207,27 @@ TYPED_TEST(DBGAlignerTest, align_straight) {
     check_extend(graph, aligner.get_config(), paths, query);
 }
 
+TYPED_TEST(DBGAlignerTest, align_straight_max_size) {
+    size_t k = 4;
+    std::string reference = "AGCTTCGAGGCCAA";
+    std::string query = reference;
+
+    auto graph = build_graph_batch<TypeParam>(k, { reference });
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.xdrop = 4;
+    config.max_ram_per_alignment = (24.0 + (120.0 + sizeof(score_t) * 3.0 * 2.0) * 2.0) / 1'000'000.0;
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+
+    EXPECT_EQ(1ull, paths.size());
+    auto path = paths[0];
+
+    EXPECT_NE("14=", path.get_cigar().to_string());
+    EXPECT_LT(0u, path.get_cigar().get_num_matches());
+    EXPECT_GT(14u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(path.is_valid(*graph, &config));
+}
+
 TYPED_TEST(DBGAlignerTest, align_straight_min_path_score) {
     size_t k = 4;
     std::string reference = "AGCTTCGAGGCCAA";
@@ -235,8 +261,8 @@ TYPED_TEST(DBGAlignerTest, align_straight_with_N) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.score_sequences(reference, query), path.get_score());
     EXPECT_EQ("4=1X9=", path.get_cigar().to_string());
-    EXPECT_EQ(13u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -246,6 +272,8 @@ TYPED_TEST(DBGAlignerTest, align_straight_with_N) {
     check_extend(graph, aligner.get_config(), paths, query);
 }
 
+#if ! _PROTEIN_GRAPH
+
 TYPED_TEST(DBGAlignerTest, align_straight_forward_and_reverse_complement) {
     size_t k = 4;
     std::string reference = "AGCTTCGAGGCCAA";
@@ -256,7 +284,6 @@ TYPED_TEST(DBGAlignerTest, align_straight_forward_and_reverse_complement) {
 
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
     auto config_fwd_and_rev = config;
-    config_fwd_and_rev.forward_and_reverse_complement = true;
 
     DBGAligner<> aligner(*graph, config_fwd_and_rev);
     auto paths = aligner.align(query);
@@ -268,8 +295,8 @@ TYPED_TEST(DBGAlignerTest, align_straight_forward_and_reverse_complement) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("14=", path.get_cigar().to_string());
-    EXPECT_EQ(14u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(14u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -279,22 +306,24 @@ TYPED_TEST(DBGAlignerTest, align_straight_forward_and_reverse_complement) {
     check_extend(graph, aligner.get_config(), paths, query);
     auto ext_paths = get_extend(graph, config_fwd_and_rev, paths, query);
 
-    EXPECT_TRUE(std::equal(paths.begin(), paths.end(),
-                           ext_paths.begin(), ext_paths.end()));
+    EXPECT_TRUE(std::equal(paths.data().begin(), paths.data().end(),
+                           ext_paths.data().begin(), ext_paths.data().end()));
 
     // test copy
-    auto paths_copy = const_cast<const DBGAligner<>::DBGQueryAlignment&>(paths);
-    for (const auto &path : paths_copy) {
+    auto paths_copy = paths;
+    for (const auto &path : paths_copy.data()) {
         EXPECT_TRUE(path.is_valid(*graph, &config));
     }
 
     // test move
     auto paths_move = std::move(paths);
-    for (const auto &path : paths_move) {
+    for (const auto &path : paths_move.data()) {
         EXPECT_TRUE(path.is_valid(*graph, &config));
     }
 }
 
+#endif
+
 
 TYPED_TEST(DBGAlignerTest, align_ending_branch) {
     size_t k = 4;
@@ -316,8 +345,8 @@ TYPED_TEST(DBGAlignerTest, align_ending_branch) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("9=", path.get_cigar().to_string());
-    EXPECT_EQ(9u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(9u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -347,8 +376,8 @@ TYPED_TEST(DBGAlignerTest, align_branch) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("17=", path.get_cigar().to_string());
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -378,8 +407,8 @@ TYPED_TEST(DBGAlignerTest, align_branch_with_cycle) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("17=", path.get_cigar().to_string());
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -406,8 +435,8 @@ TYPED_TEST(DBGAlignerTest, repetitive_sequence_alignment) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("6=", path.get_cigar().to_string());
-    EXPECT_EQ(6u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(6u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -435,8 +464,8 @@ TYPED_TEST(DBGAlignerTest, variation) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.score_sequences(query, reference), path.get_score());
     EXPECT_EQ("5=1X6=", path.get_cigar().to_string());
-    EXPECT_EQ(11u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(11u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -471,8 +500,8 @@ TYPED_TEST(DBGAlignerTest, variation_in_branching_point) {
         << "Ref2: " << reference_2 << std::endl;
     // TODO: what about other cases?
     EXPECT_EQ("8=3X4=", path.get_cigar().to_string());
-    EXPECT_EQ(12u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(12u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -500,8 +529,8 @@ TYPED_TEST(DBGAlignerTest, multiple_variations) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.score_sequences(query, reference), path.get_score());
     EXPECT_EQ("6=1X6=1X1=1X4=", path.get_cigar().to_string());
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -521,20 +550,18 @@ TYPED_TEST(DBGAlignerTest, align_noise_in_branching_point) {
     auto graph = build_graph_batch<TypeParam>(k, { reference_1, reference_2 });
 
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3), -3, -1);
-    config.num_alternative_paths = 2;
     DBGAligner<> aligner(*graph, config);
 
     auto paths = aligner.align(query);
 
-    ASSERT_EQ(2u, paths.size());
-    EXPECT_NE(paths[0], paths[1]);
+    ASSERT_EQ(1u, paths.size());
     auto path = paths[0];
 
     EXPECT_EQ(query.size() - k + 2, path.size());
     EXPECT_EQ(reference_1 + "T", path.get_sequence());
     EXPECT_EQ("4=1D7=", path.get_cigar().to_string());
-    EXPECT_EQ(11u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(11u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -562,18 +589,16 @@ TYPED_TEST(DBGAlignerTest, alternative_path_basic) {
     auto paths = aligner.align(query);
 
     EXPECT_EQ(config.num_alternative_paths, paths.size());
-    for (const auto &path : paths) {
-        EXPECT_EQ("4=1X4=1X2=", path.get_cigar().to_string())
-            << query << "\n" << path.get_sequence();
-        EXPECT_EQ(10u, path.get_num_matches());
-        EXPECT_FALSE(path.is_exact_match());
-        EXPECT_EQ(0u, path.get_clipping());
-        EXPECT_EQ(0u, path.get_end_clipping());
-        EXPECT_EQ(0u, path.get_offset());
-        EXPECT_TRUE(path.is_valid(*graph, &config));
-        check_json_dump_load(*graph, path, paths.get_query(), paths.get_query(PICK_REV_COMP));
-    }
-
+    auto path = paths[0];
+    EXPECT_EQ("4=1X4=1X2=", path.get_cigar().to_string())
+        << query << "\n" << path.get_sequence();
+    EXPECT_EQ(10u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
+    EXPECT_EQ(0u, path.get_clipping());
+    EXPECT_EQ(0u, path.get_end_clipping());
+    EXPECT_EQ(0u, path.get_offset());
+    EXPECT_TRUE(path.is_valid(*graph, &config));
+    check_json_dump_load(*graph, path, paths.get_query(), paths.get_query(PICK_REV_COMP));
     check_extend(graph, aligner.get_config(), paths, query);
 }
 
@@ -595,8 +620,8 @@ TYPED_TEST(DBGAlignerTest, align_multiple_misalignment) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.score_sequences(query, reference), path.get_score());
     EXPECT_EQ("4=1X9=1X6=", path.get_cigar().to_string());
-    EXPECT_EQ(19u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(19u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -626,8 +651,8 @@ TYPED_TEST(DBGAlignerTest, align_insert_non_existent) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.match_score(reference) + config.gap_opening_penalty, path.get_score());
     EXPECT_EQ("5=1I5=", path.get_cigar().to_string());
-    EXPECT_EQ(10u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(10u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -658,8 +683,8 @@ TYPED_TEST(DBGAlignerTest, align_insert_multi) {
     EXPECT_EQ(config.match_score(reference)
         + config.gap_opening_penalty + config.gap_extension_penalty, path.get_score());
     EXPECT_EQ("5=2I5=", path.get_cigar().to_string());
-    EXPECT_EQ(10u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(10u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -690,8 +715,8 @@ TYPED_TEST(DBGAlignerTest, align_insert_long) {
     EXPECT_EQ(config.match_score(reference) + config.gap_opening_penalty
         + score_t(8) * config.gap_extension_penalty, path.get_score());
     EXPECT_EQ("5=9I5=", path.get_cigar().to_string());
-    EXPECT_EQ(10u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(10u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -724,8 +749,8 @@ TYPED_TEST(DBGAlignerTest, align_insert_long_offset) {
         + score_t(8) * config.gap_extension_penalty, path.get_score());
     EXPECT_TRUE(path.get_cigar().to_string() == "6=1X9I6="
         || path.get_cigar().to_string() == "6=9I1X6=") << path.get_cigar().to_string();
-    EXPECT_EQ(12u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(12u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -751,7 +776,7 @@ TYPED_TEST(DBGAlignerTest, align_delete) {
     ASSERT_EQ(1ull, paths.size());
     auto path = paths[0];
 
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(reference.size() - k + 1, path.size());
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.match_score(query) + config.gap_opening_penalty, path.get_score());
@@ -761,7 +786,7 @@ TYPED_TEST(DBGAlignerTest, align_delete) {
         || "5=1D6=" == path.get_cigar().to_string());
     // EXPECT_EQ("6=1I5=", path.get_cigar().to_string());
 
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -793,8 +818,8 @@ TYPED_TEST(DBGAlignerTest, align_gap) {
     EXPECT_EQ(config.match_score(query) + config.gap_opening_penalty
         + score_t(3) * config.gap_extension_penalty, path.get_score());
     EXPECT_EQ("10=4D9=", path.get_cigar().to_string());
-    EXPECT_EQ(19u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(19u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -825,8 +850,8 @@ TYPED_TEST(DBGAlignerTest, align_gap_after_seed) {
     EXPECT_EQ(config.match_score(query) + config.gap_opening_penalty
         + score_t(3) * config.gap_extension_penalty, path.get_score());
     EXPECT_EQ("4=4D9=", path.get_cigar().to_string());
-    EXPECT_EQ(13u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -859,8 +884,8 @@ TYPED_TEST(DBGAlignerTest, align_loop_deletion) {
     EXPECT_EQ(config.match_score(query) + config.gap_opening_penalty
         + score_t(2) * config.gap_extension_penalty, path.get_score());
     EXPECT_EQ("4=3D9=", path.get_cigar().to_string());
-    EXPECT_EQ(13u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -889,8 +914,8 @@ TYPED_TEST(DBGAlignerTest, align_straight_long_xdrop) {
     EXPECT_EQ(query, path.get_sequence());
     EXPECT_EQ(config.match_score(query), path.get_score());
     EXPECT_EQ("63=", path.get_cigar().to_string());
-    EXPECT_EQ(63u, path.get_num_matches());
-    EXPECT_TRUE(path.is_exact_match());
+    EXPECT_EQ(63u, path.get_cigar().get_num_matches());
+    EXPECT_TRUE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -921,8 +946,8 @@ TYPED_TEST(DBGAlignerTest, align_drop_seed) {
     EXPECT_EQ(reference.substr(7), path.get_sequence());
     EXPECT_EQ(config.match_score(reference.substr(7)), path.get_score());
     EXPECT_EQ("7S9=", path.get_cigar().to_string());
-    EXPECT_EQ(9u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(9u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(7u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -953,8 +978,8 @@ TYPED_TEST(DBGAlignerTest, align_long_gap_after_seed) {
     EXPECT_EQ(reference.substr(10), path.get_sequence());
     EXPECT_EQ(config.match_score(query.substr(4)), path.get_score());
     EXPECT_EQ("4S9=", path.get_cigar().to_string());
-    EXPECT_EQ(9u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(9u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(4u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -994,8 +1019,8 @@ TYPED_TEST(DBGAlignerTest, align_repeat_sequence_no_delete_after_insert) {
              || path.get_cigar().to_string() == "44=3I1=4I8=1X39="
              || path.get_cigar().to_string() == "44=4I1=3I8=1X39=")
         << path.get_cigar().to_string();
-    EXPECT_EQ(92u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(92u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1018,8 +1043,8 @@ TYPED_TEST(DBGAlignerTest, align_repeat_sequence_no_delete_after_insert) {
              || path.get_cigar().to_string() == "44=3I1=4I8=1X39="
              || path.get_cigar().to_string() == "44=4I1=3I8=1X39=")
         << path.get_cigar().to_string();
-    EXPECT_EQ(92u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(92u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1045,8 +1070,8 @@ TYPED_TEST(DBGAlignerTest, align_clipping1) {
     EXPECT_EQ(config.match_score(query.substr(2)), path.get_score());
     EXPECT_EQ("2S8=", path.get_cigar().to_string())
         << reference.substr(2) << " " << path.get_sequence();
-    EXPECT_EQ(8u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(8u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(2u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1074,8 +1099,8 @@ TYPED_TEST(DBGAlignerTest, align_clipping2) {
     EXPECT_EQ(reference.substr(3), path.get_sequence());
     EXPECT_EQ(config.match_score(query.substr(2)), path.get_score());
     EXPECT_EQ("2S14=", path.get_cigar().to_string());
-    EXPECT_EQ(14u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(14u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(2u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1104,8 +1129,8 @@ TYPED_TEST(DBGAlignerTest, align_long_clipping) {
     EXPECT_EQ(reference.substr(7), path.get_sequence());
     EXPECT_EQ(config.match_score(query.substr(7)), path.get_score());
     EXPECT_EQ("7S17=", path.get_cigar().to_string());
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(7u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1133,8 +1158,8 @@ TYPED_TEST(DBGAlignerTest, align_end_clipping) {
     EXPECT_EQ(reference.substr(0, 17), path.get_sequence());
     EXPECT_EQ(config.match_score(query.substr(0, 17)), path.get_score());
     EXPECT_EQ("17=7S", path.get_cigar().to_string());
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(7u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1164,8 +1189,8 @@ TYPED_TEST(DBGAlignerTest, align_clipping_min_cell_score) {
     EXPECT_EQ(reference.substr(5), path.get_sequence());
     EXPECT_EQ(config.match_score(query.substr(2)), path.get_score());
     EXPECT_EQ("2S13=", path.get_cigar().to_string());
-    EXPECT_EQ(13u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(2u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1192,8 +1217,8 @@ TYPED_TEST(DBGAlignerTest, align_low_similarity) {
     // EXPECT_EQ(reference.substr(5), path.get_sequence());
     // EXPECT_EQ(config.match_score(query.substr(2)), path.get_score());
     // EXPECT_EQ("2S13=", path.get_cigar().to_string());
-    // EXPECT_EQ(13u, path.get_num_matches());
-    // EXPECT_FALSE(path.is_exact_match());
+    // EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+    // EXPECT_FALSE(is_exact_match(path));
     // EXPECT_EQ(2u, path.get_clipping());
     // EXPECT_EQ(0u, path.get_end_clipping());
     // EXPECT_EQ(0u, path.get_offset());
@@ -1246,28 +1271,47 @@ TYPED_TEST(DBGAlignerTest, align_low_similarity4) {
                         "CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA"
                         "CGATCGATCGATCGATCGATCGACGATCGATCGATCGATCGATCGATCGATCGAT"
                         "CGATCGATCGATCGATCGATCGA";
-
-    for (size_t xdrop : { 27, 30 }) {
-        for (double discovery_fraction : { 0.0, 1.0 }) {
-            DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3));
-            config.gap_opening_penalty = -5;
-            config.gap_extension_penalty = -2;
-            config.xdrop = xdrop;
-            config.min_exact_match = discovery_fraction;
-            config.max_nodes_per_seq_char = 10.0;
-            config.num_alternative_paths = 2;
-            config.min_path_score = 0;
-            config.min_cell_score = 0;
-
-            DBGAligner<> aligner(*graph, config);
-            auto paths = aligner.align(query);
-
-            if (discovery_fraction == 0.0) {
-                ASSERT_EQ(2ull, paths.size());
-                EXPECT_EQ(557llu, paths[0].get_score()) << paths[0];
-                EXPECT_EQ(556llu, paths[1].get_score()) << paths[1];
-            } else {
-                EXPECT_EQ(0ull, paths.size());
+    std::string match = "TCGATCAATCGATCAATCGATCAACGATCAATCGATCAATCGATCAACGATCAAT"
+                        "CGATCAATCGATCAATCGATCAATCGATCAATCGATCAATCGATCAATCGATCAA"
+                        "TCGATCAATCGATCAACGATCAATCGATCAATCGATCAACGATCAATCGATCAAT"
+                        "CGATCAATCGATCAATCGATCAATCGATCAATCGATCAATCGATCAATCGATCAA"
+                        "TCGATCAACGATCAATCGATCAATCGATCAACGATCAATCGATCAATCGATCAAT"
+                        "CGATCAATCGATCAATCGATCAATCGATCAATCGATCAATCGATCAATCGATCAA"
+                        "CGATCAATCGATCAATCGATCAACGATCAATCGATCAATCGATCAATCGATCAAT"
+                        "CGATCAATCGATCAATCGATC";
+
+    EXPECT_TRUE(graph->find(match, 1.0));
+
+    for (double nodes_per_seq_char : { 10.0, std::numeric_limits<double>::max() }) {
+        for (size_t xdrop : { 27, 30 }) {
+            for (double discovery_fraction : { 0.0, 1.0 }) {
+                DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3));
+                config.gap_opening_penalty = -5;
+                config.gap_extension_penalty = -2;
+                config.xdrop = xdrop;
+                config.min_exact_match = discovery_fraction;
+                config.max_nodes_per_seq_char = nodes_per_seq_char;
+                config.num_alternative_paths = 2;
+                config.min_path_score = 0;
+                config.min_cell_score = 0;
+                config.min_seed_length = k;
+
+                DBGAligner<> aligner(*graph, config);
+                auto paths = aligner.align(query);
+
+                if (discovery_fraction == 0.0) {
+                    ASSERT_EQ(2ull, paths.size());
+                    EXPECT_NE(paths[0], paths[1]);
+                    EXPECT_FALSE(paths[0].get_orientation());
+                    EXPECT_GE(paths[0].get_score(), paths[1].get_score());
+                } else {
+                    EXPECT_EQ(0ull, paths.size());
+                }
+
+                paths = aligner.align(match);
+                ASSERT_LE(1ull, paths.size());
+                EXPECT_EQ(match, paths[0].get_sequence());
+                EXPECT_TRUE(is_exact_match(paths[0]));
             }
         }
     }
@@ -1308,8 +1352,7 @@ TEST(DBGAlignerTest, align_suffix_seed_snp_min_seed_length) {
         config.max_num_seeds_per_locus = std::numeric_limits<size_t>::max();
         config.min_cell_score = std::numeric_limits<score_t>::min() + 100;
         config.min_path_score = std::numeric_limits<score_t>::min() + 100;
-        config.max_seed_length = k;
-        DBGAligner<SuffixSeeder<ExactSeeder<>>> aligner(*graph, config);
+        DBGAligner<> aligner(*graph, config);
         auto paths = aligner.align(query);
         ASSERT_EQ(1ull, paths.size());
         auto path = paths[0];
@@ -1318,8 +1361,8 @@ TEST(DBGAlignerTest, align_suffix_seed_snp_min_seed_length) {
         EXPECT_EQ(reference.substr(5), path.get_sequence());
         EXPECT_EQ(config.match_score(query.substr(2)), path.get_score());
         EXPECT_EQ("2S13=", path.get_cigar().to_string());
-        EXPECT_EQ(13u, path.get_num_matches());
-        EXPECT_FALSE(path.is_exact_match());
+        EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+        EXPECT_FALSE(is_exact_match(path));
         EXPECT_EQ(2u, path.get_clipping());
         EXPECT_EQ(0u, path.get_end_clipping());
         EXPECT_EQ(0u, path.get_offset());
@@ -1342,8 +1385,7 @@ TEST(DBGAlignerTest, align_suffix_seed_snp_min_seed_length) {
         config.max_num_seeds_per_locus = std::numeric_limits<size_t>::max();
         config.min_cell_score = std::numeric_limits<score_t>::min() + 100;
         config.min_path_score = std::numeric_limits<score_t>::min() + 100;
-        config.max_seed_length = k;
-        DBGAligner<SuffixSeeder<ExactSeeder<>>> aligner(*graph, config);
+        DBGAligner<> aligner(*graph, config);
         auto paths = aligner.align(query);
         ASSERT_EQ(1ull, paths.size());
         auto path = paths[0];
@@ -1352,8 +1394,8 @@ TEST(DBGAlignerTest, align_suffix_seed_snp_min_seed_length) {
         EXPECT_EQ(reference.substr(12), path.get_sequence());
         EXPECT_EQ(config.score_sequences(query, reference.substr(12)), path.get_score());
         EXPECT_EQ("1=1X13=", path.get_cigar().to_string());
-        EXPECT_EQ(14u, path.get_num_matches());
-        EXPECT_FALSE(path.is_exact_match());
+        EXPECT_EQ(14u, path.get_cigar().get_num_matches());
+        EXPECT_FALSE(is_exact_match(path));
         EXPECT_EQ(0u, path.get_clipping());
         EXPECT_EQ(0u, path.get_end_clipping());
         EXPECT_EQ(0u, path.get_offset());
@@ -1378,20 +1420,16 @@ TEST(DBGAlignerTest, align_suffix_seed_snp_canonical) {
         auto dbg_succ = std::make_shared<DBGSuccinct>(k, mode);
         dbg_succ->add_sequence(reference_rc);
 
-        std::shared_ptr<DeBruijnGraph> graph;
-        if (mode == DeBruijnGraph::PRIMARY) {
-            graph = std::make_shared<CanonicalDBG>(*dbg_succ);
-        } else {
-            graph = dbg_succ;
-        }
+        std::shared_ptr<DeBruijnGraph> graph = dbg_succ;
+        if (mode == DeBruijnGraph::PRIMARY)
+            graph = std::make_shared<CanonicalDBG>(graph);
 
         DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
         config.max_num_seeds_per_locus = std::numeric_limits<size_t>::max();
         config.min_cell_score = std::numeric_limits<score_t>::min() + 100;
         config.min_path_score = std::numeric_limits<score_t>::min() + 100;
-        config.max_seed_length = k;
         config.min_seed_length = 13;
-        DBGAligner<SuffixSeeder<ExactSeeder<>>> aligner(*graph, config);
+        DBGAligner<> aligner(*graph, config);
         auto paths = aligner.align(query);
         ASSERT_EQ(1ull, paths.size());
         auto path = paths[0];
@@ -1413,8 +1451,8 @@ TEST(DBGAlignerTest, align_suffix_seed_snp_canonical) {
             EXPECT_EQ(5u, path.get_end_clipping());
         }
         EXPECT_EQ(5u, path.get_offset());
-        EXPECT_EQ(13u, path.get_num_matches());
-        EXPECT_FALSE(path.is_exact_match());
+        EXPECT_EQ(13u, path.get_cigar().get_num_matches());
+        EXPECT_FALSE(is_exact_match(path));
         EXPECT_TRUE(path.is_valid(*graph, &config));
         check_json_dump_load(*graph, path, paths.get_query(), paths.get_query(PICK_REV_COMP));
 
@@ -1436,7 +1474,6 @@ TYPED_TEST(DBGAlignerTest, align_both_directions) {
 
     auto graph = build_graph_batch<TypeParam>(k, { reference }, DeBruijnGraph::CANONICAL);
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
-    config.max_seed_length = k;
     DBGAligner<> aligner(*graph, config);
     auto paths = aligner.align(query);
     ASSERT_EQ(1ull, paths.size());
@@ -1453,8 +1490,8 @@ TYPED_TEST(DBGAlignerTest, align_both_directions) {
         EXPECT_EQ("12=1X5=", path.get_cigar().to_string());
     }
 
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1463,37 +1500,104 @@ TYPED_TEST(DBGAlignerTest, align_both_directions) {
 
     check_extend(graph, aligner.get_config(), paths, query);
 }
-#endif
 
-TYPED_TEST(DBGAlignerTest, align_nodummy) {
-    size_t k = 7;
-    std::string reference = "AAAAGCTTTCGAGGCCAA";
-    std::string query =     "AAAAGTTTTCGAGGCCAA";
-    //                       SSSSSS
+TYPED_TEST(DBGAlignerTest, align_both_directions2) {
+    size_t k = 11;
+    std::string reference =    "GTAGTGCTAGCTGTAGTCGTGCTGATGC";
+    std::string query =        "GTAGTGCTACCTGTAGTCGTGGTGATGC";
+    //                                   X           X
 
-    auto graph = build_graph_batch<TypeParam>(k, { reference });
+    auto graph = build_graph_batch<TypeParam>(k, { reference }, DeBruijnGraph::BASIC);
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
-    config.max_seed_length = k;
     DBGAligner<> aligner(*graph, config);
     auto paths = aligner.align(query);
     ASSERT_EQ(1ull, paths.size());
     auto path = paths[0];
 
-    EXPECT_EQ(6u, path.size());
-    EXPECT_EQ(reference.substr(6), path.get_sequence());
-    EXPECT_EQ(config.score_sequences(query.substr(6), reference.substr(6)), path.get_score());
-    EXPECT_EQ("6S12=", path.get_cigar().to_string());
-    EXPECT_EQ(12u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
-    EXPECT_EQ(6u, path.get_clipping());
-    EXPECT_EQ(0u, path.get_end_clipping());
-    EXPECT_EQ(0u, path.get_offset());
+    EXPECT_EQ(18u, path.size());
+    EXPECT_EQ(reference, path.get_sequence());
+    EXPECT_EQ(config.score_sequences(query, reference), path.get_score());
     EXPECT_TRUE(path.is_valid(*graph, &config));
     check_json_dump_load(*graph, path, paths.get_query(), paths.get_query(PICK_REV_COMP));
 
     check_extend(graph, aligner.get_config(), paths, query);
 }
 
+TYPED_TEST(DBGAlignerTest, align_low_similarity4_rep_primary) {
+    size_t k = 6;
+    std::vector<std::string> seqs;
+    mtg::seq_io::read_fasta_file_critical(test_data_dir + "/transcripts_100.fa",
+                                          [&](auto *seq) { seqs.emplace_back(seq->seq.s); });
+    auto graph = build_graph_batch<TypeParam>(k, std::move(seqs), DeBruijnGraph::PRIMARY);
+
+    std::string query = "TCGATCGATCGATCGATCGATCGACGATCGATCGATCGATCGATCGACGATCGAT"
+                        "CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA"
+                        "TCGATCGATCGATCGACGATCGATCGATCGATCGATCGACGATCGATCGATCGAT"
+                        "CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA"
+                        "TCGATCGACGATCGATCGATCGATCGATCGACGATCGATCGATCGATCGATCGAT"
+                        "CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA"
+                        "CGATCGATCGATCGATCGATCGACGATCGATCGATCGATCGATCGATCGATCGAT"
+                        "CGATCGATCGATCGATCGATCGA";
+
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3));
+    config.gap_opening_penalty = -5;
+    config.gap_extension_penalty = -2;
+    config.xdrop = 27;
+    config.min_exact_match = 0.0;
+    config.max_nodes_per_seq_char = 10.0;
+    config.num_alternative_paths = 3;
+
+    DBGAligner<> aligner(*graph, config);
+    for (size_t i = 0; i < 3; ++i) {
+        EXPECT_EQ(3u, aligner.align(query).size()) << i;
+    }
+}
+#endif
+
+TYPED_TEST(DBGAlignerTest, align_nodummy) {
+    size_t k = 7;
+    std::string reference = "AAAAGCTTTCGAGGCCAA";
+    std::string query =     "AAAAGTTTTCGAGGCCAA";
+    //                            X
+
+    auto graph = build_graph_batch<TypeParam>(k, { reference });
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+
+    for (bool both_directions : { false, true }) {
+#if _PROTEIN_GRAPH
+        if (both_directions)
+            continue;
+#endif
+        config.forward_and_reverse_complement = both_directions;
+        DBGAligner<> aligner(*graph, config);
+        auto paths = aligner.align(query);
+        ASSERT_EQ(1ull, paths.size());
+        auto path = paths[0];
+
+        if (both_directions) {
+            EXPECT_EQ(12u, path.size());
+            EXPECT_EQ(reference, path.get_sequence());
+            EXPECT_EQ(config.score_sequences(query, reference), path.get_score());
+            EXPECT_EQ("5=1X12=", path.get_cigar().to_string());
+            EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+        } else {
+            EXPECT_EQ(6u, path.size());
+            EXPECT_EQ(reference.substr(6), path.get_sequence());
+            EXPECT_EQ(config.score_sequences(query.substr(6), reference.substr(6)), path.get_score());
+            EXPECT_EQ("6S12=", path.get_cigar().to_string());
+            EXPECT_EQ(12u, path.get_cigar().get_num_matches());
+            EXPECT_EQ(6u, path.get_clipping());
+        }
+        EXPECT_FALSE(is_exact_match(path));
+        EXPECT_EQ(0u, path.get_end_clipping());
+        EXPECT_EQ(0u, path.get_offset());
+        EXPECT_TRUE(path.is_valid(*graph, &config));
+        check_json_dump_load(*graph, path, paths.get_query(), paths.get_query(PICK_REV_COMP));
+
+        check_extend(graph, aligner.get_config(), paths, query);
+    }
+}
+
 TYPED_TEST(DBGAlignerTest, align_seed_to_end) {
     size_t k = 5;
     std::string reference = "ATCCCTTTTAAAA";
@@ -1510,6 +1614,26 @@ TYPED_TEST(DBGAlignerTest, align_seed_to_end) {
     check_extend(graph, aligner.get_config(), paths, query);
 }
 
+TYPED_TEST(DBGAlignerTest, align_bfs_vs_dfs_xdrop) {
+    size_t k = 31;
+    std::string reference_1 = "TCGGGGCAAGAAACACACAGCCTTCTCATCCAAGGGCCTCAGTGATGAAGAGTACGATGAGTACAAGAGGATCAGAGAAGAAAGGAATGGCAAATACTCCATAGAAGAGTACCTTCAGGACAGGGACAGATACTATGAGGAGGTGGCCAT";
+    std::string reference_2 = "TCGGGGCAAGAAACACACAGCCTTCTCATCCAAGGGCCTCAGTGATGAAGAGTACGATGAGTACAAGAGAATCAGAGAGGAGAGGAATGGCAAATACTCAATAGAGGAATACCTCCAAGATAGGGACAGATACTATGAAGAGCTTGCCAT";
+    std::string query =       "TCGGGGCAAGAAACACACAGCCTTCTCATCCAAGGGCCTCAGTGATGATGAGTACGATGAGTACAAGAGCATCAGAGAGGAGAGGAATGGCAAATACTCAATAGAGGAATACCTCCAAGATAGGGACAGATACTATGAAGAGCTTGCCAT";
+
+    auto graph = build_graph_batch<TypeParam>(k, { reference_1, reference_2 });
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3));
+    config.xdrop = 27;
+    config.min_seed_length = 0;
+    config.max_seed_length = 0;
+    config.rel_score_cutoff = 0.8;
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    ASSERT_EQ(1ull, paths.size());
+    auto path = paths[0];
+    EXPECT_EQ("48=1X20=1X80=", path.get_cigar().to_string());
+    check_json_dump_load(*graph, path, paths.get_query(), paths.get_query(PICK_REV_COMP));
+}
+
 TEST(DBGAlignerTest, align_dummy) {
     size_t k = 7;
     std::string reference = "AAAAGCTTTCGAGGCCAA";
@@ -1518,10 +1642,10 @@ TEST(DBGAlignerTest, align_dummy) {
 
     auto graph = std::make_shared<DBGSuccinct>(k);
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
-    config.max_seed_length = k;
+    config.min_seed_length = 5;
     graph->add_sequence(reference);
 
-    DBGAligner<SuffixSeeder<ExactSeeder<>>> aligner(*graph, config);
+    DBGAligner<> aligner(*graph, config);
     auto paths = aligner.align(query);
     ASSERT_EQ(1ull, paths.size());
     auto path = paths[0];
@@ -1530,8 +1654,8 @@ TEST(DBGAlignerTest, align_dummy) {
     EXPECT_EQ(reference, path.get_sequence());
     EXPECT_EQ(config.score_sequences(query, reference), path.get_score());
     EXPECT_EQ("5=1X12=", path.get_cigar().to_string());
-    EXPECT_EQ(17u, path.get_num_matches());
-    EXPECT_FALSE(path.is_exact_match());
+    EXPECT_EQ(17u, path.get_cigar().get_num_matches());
+    EXPECT_FALSE(is_exact_match(path));
     EXPECT_EQ(0u, path.get_clipping());
     EXPECT_EQ(0u, path.get_end_clipping());
     EXPECT_EQ(0u, path.get_offset());
@@ -1548,12 +1672,11 @@ TEST(DBGAlignerTest, align_extended_insert_after_match) {
     std::string query =       "CGTGGCCCAGGCCCAGGCCCAGTGGGCGTTGGCCCAGGCGGCCACGGTGGCTGCGCAGGCCCGCCTGGCACAAGCCACGCTG";
     auto graph = std::make_shared<DBGSuccinct>(k);
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3));
-    config.max_seed_length = k;
     config.min_seed_length = 15;
     graph->add_sequence(reference_1);
     graph->add_sequence(reference_2);
 
-    DBGAligner<SuffixSeeder<ExactSeeder<>>> aligner(*graph, config);
+    DBGAligner<> aligner(*graph, config);
     auto paths = aligner.align(query);
     ASSERT_EQ(1ull, paths.size());
     auto path = paths[0];
@@ -1573,7 +1696,7 @@ TEST(DBGAlignerTest, align_suffix_seed_no_full_seeds) {
 
     auto dbg_succ = std::make_shared<DBGSuccinct>(k, DeBruijnGraph::PRIMARY);
     dbg_succ->add_sequence(reference);
-    auto graph = std::make_shared<CanonicalDBG>(*dbg_succ);
+    auto graph = std::make_shared<CanonicalDBG>(dbg_succ);
 
     DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
     config.max_num_seeds_per_locus = std::numeric_limits<size_t>::max();
@@ -1581,9 +1704,9 @@ TEST(DBGAlignerTest, align_suffix_seed_no_full_seeds) {
     config.min_path_score = std::numeric_limits<score_t>::min() + 100;
     config.min_seed_length = 13;
 
-    for (size_t max_seed_length : { k, k + 100 }) {
+    for (size_t max_seed_length : { (size_t)0, k + 100 }) {
         config.max_seed_length = max_seed_length;
-        DBGAligner<SuffixSeeder<ExactSeeder<>>> aligner(*graph, config);
+        DBGAligner<> aligner(*graph, config);
         auto paths = aligner.align(query);
         ASSERT_EQ(1ull, paths.size());
         auto path = paths[0];
diff --git a/metagraph/tests/graph/test_aligner_chain.cpp b/metagraph/tests/graph/test_aligner_chain.cpp
new file mode 100644
index 0000000000..da3c4d9ff1
--- /dev/null
+++ b/metagraph/tests/graph/test_aligner_chain.cpp
@@ -0,0 +1,281 @@
+#include <gtest/gtest.h>
+
+#include "all/test_dbg_helpers.hpp"
+#include "test_aligner_helpers.hpp"
+
+#include "graph/alignment/dbg_aligner.hpp"
+
+
+namespace {
+
+using namespace mtg;
+using namespace mtg::graph;
+using namespace mtg::graph::align;
+using namespace mtg::test;
+using namespace mtg::kmer;
+
+typedef IDBGAligner::score_t score_t;
+
+template <typename Graph>
+class DBGAlignerChainTest : public DeBruijnGraphTest<Graph> {};
+
+TYPED_TEST_SUITE(DBGAlignerChainTest, FewGraphTypes);
+
+inline void check_chain(const QueryAlignment &paths,
+                        const DeBruijnGraph &graph,
+                        const DBGAlignerConfig &config,
+                        bool has_chain = true) {
+    for (const auto &path : paths.data()) {
+        EXPECT_TRUE(path.is_valid(graph, &config)) << path;
+        if (has_chain) {
+            EXPECT_THROW(path.to_json(paths.get_query(path.get_orientation()),
+                                      graph, false, "", ""),
+                         std::runtime_error);
+        } else {
+            check_json_dump_load(graph, path, paths.get_query(), paths.get_query(true));
+        }
+    }
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_swap) {
+    size_t k = 5;
+    std::string reference = "ATGATATGATGACCCCGG";
+    std::string query     = "TGACCCCGGATGATATGA";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGACCCCGGATGATATGA", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_overlap_2) {
+    size_t k = 5;
+    std::string reference1 = "TGAGGATCAG";
+    std::string reference2 =        "CAGCTAGCTAGCTAGC";
+    std::string query      = "TGAGGATCAGCTAGCTAGCTAGC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGCTAGCTAGCTAGC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_overlap_3_prefer_mismatch_over_gap) {
+    size_t k = 5;
+    std::string reference1 = "TGAGGATCAG";
+    std::string reference2 =        "CAGCTAGCT";
+    std::string reference3 =              "GCTTGCTAGC";
+    std::string query      = "TGAGGATCAGCTAGCTTGCTAGC";
+    //                                        X
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -3, -3));
+    config.gap_opening_penalty = -5;
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+    graph->add_sequence(reference3);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGCTAGCTAGCTAGC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_insert_no_chain_if_full_coverage) {
+    size_t k = 10;
+    std::string reference = "TGAGGATCAGTTCTAGCTTGCTAGC";
+    std::string query     = "TGAGGATCAG""CTAGCTTGCTAGC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config, false);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ(reference, paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_insert1) {
+    size_t k = 10;
+    std::string reference1 = "TGAGGATCAGTTCTAGCTTG";
+    std::string reference2 =             "CTAGCTTGCTAGCGCTAGCTAGATC";
+    std::string query      = "TGAGGATCAG""CTAGCTTGCTAGCGCTAGCTAGATC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_insert_mismatch) {
+    size_t k = 10;
+    std::string reference1 = "TGAGGATCAGTTCTAGCTTG";
+    std::string reference2 =             "CTAGCTTGCTAGCGCTAGCTAGATC";
+    std::string query      = "TGAGGATCAG""CTTGCTTGCTAGCGCTAGCTAGATC";
+    //                                      X
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_insert_in_overlap) {
+    size_t k = 10;
+    std::string reference1 = "TGAGGATCAGTTCTAGCTTG";
+    std::string reference2 =             "CTAGCTTGCTAGCGCTAGCTAGATC";
+    std::string query      = "TGAGGATCAG""CTAAGCTTGCTAGCGCTAGCTAGATC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_large_overlap) {
+    size_t k = 10;
+    std::string reference1 = "TGAGGATCAGTTCTAGCTTG";
+    std::string reference2 =      "ATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC";
+    std::string query      = "TGAGGATCAGTAATCTAGCTTGCTAGCGCTAGCTAGATC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config, false);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_overlap_with_insert) {
+    size_t k = 10;
+    std::string reference1 = "TGAGGATCAGTTCTAGCTTG";
+    std::string reference2 =              "CTAGCTTGCTAGCGCTAGCTAGATC";
+    std::string query      = "TGAGGATCAGTTCTAAGCTTGCTAGCGCTAGCTAGATC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(1, -1, -1), -1, -1);
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_delete_in_overlap) {
+    size_t k = 10;
+    std::string reference1 = "TGAGGATCAGTTCTAGCTTG";
+    std::string reference2 =             "CTAGCTTGCTAGCGCTAGCTAGATC";
+    std::string query      = "TGAGGATCAGTTCTACTTGCTAGCGCTAGCTAGATC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("TGAGGATCAGTTCTAGCTTGCTAGCGCTAGCTAGATC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_disjoint) {
+    size_t k = 10;
+    std::string reference1 = "CCCCCCCCTGAGGATCAG";
+    std::string reference2 =                   "TTCACTAGCTAGCCCCCCCCC";
+    std::string query      = "CCCCCCCCTGAGGATCAGTTCACTAGCTAGCCCCCCCCC";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(2, -1, -2));
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("CCCCCCCCTGAGGATCAG$TTCACTAGCTAGCCCCCCCCC", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+TYPED_TEST(DBGAlignerChainTest, align_chain_gap) {
+    size_t k = 10;
+    std::string reference1 = "AAAAACCCCCTGAGGATCAG";
+    std::string reference2 =                        "ACTAGCTAGCCCCCCAAAAA";
+    std::string query      = "AAAAACCCCCTGAGGATCAGTTCACTAGCTAGCCCCCCAAAAA";
+
+    auto graph = std::make_shared<DBGSuccinct>(k);
+    DBGAlignerConfig config(DBGAlignerConfig::dna_scoring_matrix(1, -1, -1), -1, -1);
+    config.chain_alignments = true;
+    graph->add_sequence(reference1);
+    graph->add_sequence(reference2);
+
+    DBGAligner<> aligner(*graph, config);
+    auto paths = aligner.align(query);
+    check_chain(paths, *graph, config);
+    ASSERT_EQ(1u, paths.size());
+    EXPECT_EQ("AAAAACCCCCTGAGGATCAG$ACTAGCTAGCCCCCCAAAAA", paths[0].get_sequence());
+    check_extend(graph, aligner.get_config(), paths, query);
+}
+
+} // namespace
diff --git a/metagraph/tests/graph/test_aligner_helpers.hpp b/metagraph/tests/graph/test_aligner_helpers.hpp
index f1be4bb099..ab54c8ab6d 100644
--- a/metagraph/tests/graph/test_aligner_helpers.hpp
+++ b/metagraph/tests/graph/test_aligner_helpers.hpp
@@ -25,9 +25,8 @@ inline int8_t single_char_score(const DBGAlignerConfig &config, char a, int8_t b
     return config.get_row(a)[b];
 }
 
-template <typename NodeType>
 void check_json_dump_load(const DeBruijnGraph &graph,
-                          const Alignment<NodeType> &alignment,
+                          const Alignment &alignment,
                           const std::string &query,
                           const std::string &rc_query = "") {
     ASSERT_TRUE(!rc_query.size() || query.size() == rc_query.size());
@@ -40,7 +39,7 @@ void check_json_dump_load(const DeBruijnGraph &graph,
                           alignment.get_query().size()),
               alignment.get_query());
 
-    Alignment<NodeType> load_alignment;
+    Alignment load_alignment;
     auto load_sequence = load_alignment.load_from_json(
         alignment.to_json(path_query, graph),
         graph
@@ -53,8 +52,8 @@ void check_json_dump_load(const DeBruijnGraph &graph,
         << load_alignment.get_orientation() << "\n"
         << alignment.get_score() << " "
         << load_alignment.get_score() << "\n"
-        << alignment.get_num_matches() << " "
-        << load_alignment.get_num_matches() << "\n"
+        << alignment.get_cigar().get_num_matches() << " "
+        << load_alignment.get_cigar().get_num_matches() << "\n"
         << alignment.get_sequence() << " "
         << load_alignment.get_sequence() << "\n"
         << alignment.get_cigar().to_string() << " "
@@ -63,23 +62,20 @@ void check_json_dump_load(const DeBruijnGraph &graph,
         << load_alignment.get_query() << "\n";
 }
 
-DBGAligner<>::DBGQueryAlignment get_extend(std::shared_ptr<const DeBruijnGraph> graph,
-                                           const DBGAlignerConfig &config,
-                                           const DBGAligner<>::DBGQueryAlignment &paths,
-                                           const std::string &query) {
+QueryAlignment get_extend(std::shared_ptr<const DeBruijnGraph> graph,
+                          const DBGAlignerConfig &config,
+                          const QueryAlignment &paths,
+                          const std::string &query) {
     assert(graph.get());
     EXPECT_EQ(query, paths.get_query());
     auto uniconfig = config;
     uniconfig.max_seed_length = std::numeric_limits<size_t>::max();
-
-    return std::dynamic_pointer_cast<const DBGSuccinct>(graph)
-        ? DBGAligner<SuffixSeeder<UniMEMSeeder<>>>(*graph, uniconfig).align(query)
-        : DBGAligner<UniMEMSeeder<>>(*graph, uniconfig).align(query);
+    return DBGAligner<>(*graph, uniconfig).align(query);
 }
 
 inline void check_extend(std::shared_ptr<const DeBruijnGraph> graph,
                          const DBGAlignerConfig &config,
-                         const DBGAligner<>::DBGQueryAlignment &paths,
+                         const QueryAlignment &paths,
                          const std::string &query) {
     auto unimem_paths = get_extend(graph, config, paths, query);
 
diff --git a/metagraph/workflows/.editorconfig b/metagraph/workflows/.editorconfig
new file mode 100644
index 0000000000..d4a2c4405e
--- /dev/null
+++ b/metagraph/workflows/.editorconfig
@@ -0,0 +1,21 @@
+# http://editorconfig.org
+
+root = true
+
+[*]
+indent_style = space
+indent_size = 4
+trim_trailing_whitespace = true
+insert_final_newline = true
+charset = utf-8
+end_of_line = lf
+
+[*.bat]
+indent_style = tab
+end_of_line = crlf
+
+[LICENSE]
+insert_final_newline = false
+
+[Makefile]
+indent_style = tab
diff --git a/metagraph/workflows/.gitignore b/metagraph/workflows/.gitignore
new file mode 100644
index 0000000000..0b799d6268
--- /dev/null
+++ b/metagraph/workflows/.gitignore
@@ -0,0 +1,108 @@
+.snakemake
+metagraph_workflows/snakemake/output_dir_example
+
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+
+# C extensions
+*.so
+
+# Distribution / packaging
+.Python
+env/
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+.hypothesis/
+.pytest_cache/
+
+# Translations
+*.mo
+*.pot
+
+# Django stuff:
+*.log
+local_settings.py
+
+# Flask stuff:
+instance/
+.webassets-cache
+
+# Scrapy stuff:
+.scrapy
+
+# Sphinx documentation
+docs/_build/
+
+# PyBuilder
+target/
+
+# Jupyter Notebook
+.ipynb_checkpoints
+
+# pyenv
+.python-version
+
+# celery beat schedule file
+celerybeat-schedule
+
+# SageMath parsed files
+*.sage.py
+
+# dotenv
+.env
+
+# virtualenv
+.venv
+venv/
+ENV/
+
+# Spyder project settings
+.spyderproject
+.spyproject
+
+# Rope project settings
+.ropeproject
+
+# mkdocs documentation
+/site
+
+# mypy
+.mypy_cache/
+
+# Pycharm
+.idea
diff --git a/metagraph/workflows/LICENSE b/metagraph/workflows/LICENSE
new file mode 100644
index 0000000000..b5447c1e77
--- /dev/null
+++ b/metagraph/workflows/LICENSE
@@ -0,0 +1,24 @@
+
+
+MIT License
+
+Copyright (c) 2021, ETH Zurich, Biomedical Informatics Group; Marc Zimmermann
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
diff --git a/metagraph/workflows/MANIFEST.in b/metagraph/workflows/MANIFEST.in
new file mode 100644
index 0000000000..1b52b5db53
--- /dev/null
+++ b/metagraph/workflows/MANIFEST.in
@@ -0,0 +1,12 @@
+include LICENSE
+include requirements.txt
+
+recursive-include tests *
+recursive-exclude * __pycache__
+recursive-exclude * *.py[co]
+
+recursive-include docs *.rst conf.py Makefile make.bat *.jpg *.png *.gif
+
+recursive-include metagraph_workflows/snakemake *.smk Snakefile default.yml
+recursive-include metagraph_workflows/snakemake/test_data *.fa
+recursive-exclude **/.snakemake *
diff --git a/metagraph/workflows/README.rst b/metagraph/workflows/README.rst
new file mode 100644
index 0000000000..ab118e2e60
--- /dev/null
+++ b/metagraph/workflows/README.rst
@@ -0,0 +1,8 @@
+===================
+metagraph_workflows
+===================
+
+This package provides workflows for the `metagraph framework
+<https://metagraph.ethz.ch>`_
+
+See the `corresponding section <https://metagraph.ethz.ch/static/docs/workflows.html>`_ in the metagraph documentation.
diff --git a/metagraph/workflows/metagraph_workflows/__init__.py b/metagraph/workflows/metagraph_workflows/__init__.py
new file mode 100644
index 0000000000..e0622ba888
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/__init__.py
@@ -0,0 +1,7 @@
+# -*- coding: utf-8 -*-
+
+"""Top-level package for metagraph_workflows."""
+
+__author__ = """Marc Zimmermann"""
+__email__ = 'marc.zimmermann@inf.ethz.ch'
+__version__ = '0.1.0'
diff --git a/metagraph/workflows/metagraph_workflows/cli.py b/metagraph/workflows/metagraph_workflows/cli.py
new file mode 100644
index 0000000000..78fbe2aac0
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/cli.py
@@ -0,0 +1,196 @@
+import argparse
+import importlib
+import logging
+import shlex
+import sys
+from pathlib import Path
+from typing import Iterable, Optional, Dict, Any
+
+import snakemake
+
+from .workflow_configs import SEQS_FILE_LIST_PATH, SEQS_DIR_PATH, \
+    AnnotationLabelsSource, AnnotationFormats
+
+WORKFLOW_ROOT = Path(__file__).parent / 'snakemake'
+
+LOGGING_FORMAT='%(asctime)s - %(levelname)s: %(message)s'
+
+logging.basicConfig(format=LOGGING_FORMAT, level=logging.WARNING)
+
+
+default_path = Path(WORKFLOW_ROOT / 'default.yml')
+
+# TODO: use custom config object? fluent config?
+def run_build_workflow(
+        output_dir: Path,
+        seqs_file_list_path: Optional[Path] = None,
+        seqs_dir_path: Optional[Path] = None,
+        k: Optional[int] = None,
+        base_name: Optional[str] = None,
+        build_primary_graph: bool = False,
+        annotation_formats: Iterable[AnnotationFormats] = (),
+        annotation_labels_source: Optional[AnnotationLabelsSource] = None,
+        metagraph_cmd: Optional[str] = None,
+        threads: Optional[int] = None,
+        force: bool = False,
+        verbose: bool = False,
+        dryrun: bool = False,
+        additional_snakemake_args: Optional[Dict[str, Any]] = None
+) -> None:
+    # TODO: support str argumt?
+
+    snakefile_path = Path(WORKFLOW_ROOT / 'Snakefile')
+
+    config = snakemake.load_configfile(default_path)
+
+    if not seqs_file_list_path and not seqs_dir_path:
+        raise ValueError("seqs_file_list_path and seqs_dir_path cannot both be None")
+
+    if seqs_file_list_path:
+        config[SEQS_FILE_LIST_PATH] = str(seqs_file_list_path)
+    if seqs_dir_path:
+        config[SEQS_DIR_PATH] = str(seqs_dir_path)
+
+    config['output_directory'] = str(output_dir)
+
+    config['k'] = k if k else config['k']
+
+    if annotation_labels_source:
+        config['annotation_labels_source'] = annotation_labels_source.value
+
+    config['base_name'] = base_name if base_name else config['base_name']
+    config['build_primary_graph'] = build_primary_graph
+
+    config['annotation_formats'] = [af.value for af in
+                                    annotation_formats] if annotation_formats else config['annotation_formats']
+
+    config['metagraph_cmd'] = metagraph_cmd if metagraph_cmd else config['metagraph_cmd']
+    config['max_threads'] = threads if threads else snakemake.available_cpu_count()
+
+    if verbose:
+        importlib.reload(logging)
+        logging.basicConfig(format=LOGGING_FORMAT, level=logging.INFO)
+        logging.info("Dumping config:")
+        for k, v in sorted(config.items(), key=lambda t: t[0]):
+            logging.info(f"\t{k}: {v}")
+
+    additional_args = additional_snakemake_args if additional_snakemake_args else {}
+
+    was_successful = snakemake.snakemake(str(snakefile_path), config=config,
+                                         scheduler='greedy',
+                                         forceall=force,
+                                         dryrun=dryrun,
+                                         **additional_args
+                                         )
+
+    if not was_successful:
+        raise RuntimeError("The snakemake workflow did not terminate correctly. "
+                           "See output or log files in the output directory for more details.")
+
+
+def setup_build_parser(parser):
+    parser.add_argument('output_dir', type=Path)
+
+    input_seq_group = parser.add_argument_group('input sequence paths', '')
+
+    input_seq_group_xor = input_seq_group.add_mutually_exclusive_group(required=True)
+    input_seq_group_xor.add_argument('--seqs-file-list-path',
+                                     help='Path to text file containing paths of sequences files')
+    input_seq_group_xor.add_argument('--seqs-dir-path',
+                                     help="Path to directory containing sequence files")
+
+    graph = parser.add_argument_group('graph', 'arguments for graph building')
+    graph.add_argument('-k', type=int, default=None)
+    graph.add_argument('--base-name', default=None)
+    graph.add_argument('--build-primary-graph', default=False,
+                       action='store_true')
+
+    annotation = parser.add_argument_group('annotation',
+                                           'arguments for annotations')
+    annotation.add_argument('--annotation-format', action='append',
+                            default=[],
+                            help=f"Annotation format (can be used multiple times). "
+                                 f"Possible values: {', '.join([v.value for v in AnnotationFormats])}")
+    annotation.add_argument('--annotation-labels-source',
+                            type=AnnotationLabelsSource,
+                            default=AnnotationLabelsSource.SEQUENCE_HEADERS,
+                            help=f"What should be used as column labels. Possible values: "
+                                 f"{', '.join([v.value for v in AnnotationLabelsSource])}")
+
+    workflow = parser.add_argument_group('workflow',
+                                         'arguments for the workflow')
+    workflow.add_argument('--threads', type=int, default=None)
+    workflow.add_argument('--force', default=False, action='store_true')
+    workflow.add_argument('--verbose', default=False, action='store_true')
+    workflow.add_argument('--dryrun', default=False, action='store_true')
+    workflow.add_argument('--metagraph-cmd', type=str, default=None)
+    workflow.add_argument('--additional-snakemake-args', type=str, default='',
+                          help='Additional arguments to pass to snakemake, e.g. --additional-snakemake-args="arg1=val1 arg2=val2"')
+
+    parser.set_defaults(func=init_build)
+
+
+def _convert_type(v: str) -> Any:
+    if v.lower() == 'true' or v == '1':
+        return True
+    elif v.lower() == 'false' or v == '0':
+        return False
+
+    try:
+        return float(v)
+    except:
+        pass
+
+    return v
+
+
+def _parse_additional_snakemake_args(arg: str) -> Dict[str, Any]:
+    ret = {}
+    for a in shlex.split(arg):
+        if '=' not in a:
+            raise ValueError("ex")
+
+        k, v = a.split('=')
+        ret[k] = _convert_type(v)
+
+    return ret
+
+
+def init_build(args):
+    run_build_workflow(
+        args.output_dir,
+        seqs_file_list_path=args.seqs_file_list_path,
+        seqs_dir_path=args.seqs_dir_path,
+        k=args.k,
+        base_name=args.base_name,
+        build_primary_graph=args.build_primary_graph,
+        annotation_formats=[AnnotationFormats(af) for af in args.annotation_format],
+        annotation_labels_source=args.annotation_labels_source,
+        metagraph_cmd=args.metagraph_cmd,
+        threads=args.threads,
+        force=args.force,
+        verbose=args.verbose,
+        dryrun=args.dryrun,
+        additional_snakemake_args=_parse_additional_snakemake_args(args.additional_snakemake_args)
+    )
+
+
+def main(args=tuple(sys.argv[1:])):
+    parser = argparse.ArgumentParser(description='metagraph utils')
+
+    subparsers = parser.add_subparsers(help="Available subcommands", required=True,
+                                       dest="command")
+
+    build_parser = subparsers.add_parser("build", help="Create index")
+    setup_build_parser(build_parser)
+
+    parsed_arguments = parser.parse_args(args)
+
+    if parsed_arguments.func:
+        parsed_arguments.func(parsed_arguments)
+    else:
+        sys.exit("Unknown function call")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/metagraph/workflows/metagraph_workflows/resource_management.py b/metagraph/workflows/metagraph_workflows/resource_management.py
new file mode 100644
index 0000000000..cc2081f3d1
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/resource_management.py
@@ -0,0 +1,206 @@
+import json
+import math
+import os
+from pathlib import Path
+
+
+
+from metagraph_workflows import workflow_configs
+from metagraph_workflows.workflow_configs import MEM_MB_KEY, DISK_MB_KEY, \
+    MEM_BUFFER_MB_KEY, THREADS_KEY
+from metagraph_workflows.utils import logger, get_rule_specific_config
+
+BASE_MEM = 1 * 1024
+FALLBACK_MAX_MEM = 4 * 1024
+FALLBACK_MAX_DISK = 10 * 1024
+
+
+# obviously wrong value to work around --dryrun issues when the resources requirements
+# and other values depend on the input of rule (can be removed once is fixed
+# https://github.com/snakemake/snakemake/issues/927)
+TBD_VALUE = -1
+
+def _get_max_memory(config):
+    return config.get(workflow_configs.MAX_MEMORY_MB, FALLBACK_MAX_MEM)
+
+
+def _get_max_disk(config):
+    return config.get(workflow_configs.MAX_DISK_MB, FALLBACK_MAX_DISK)
+
+
+def columns_size_mb(columns_file):
+    with open(columns_file) as f:
+        col_file_size_bytes = sum(os.stat(l.strip()).st_size for l in f)
+        return col_file_size_bytes / 1024 ** 2
+
+
+class ResourceConfig:
+    def __init__(self, rule_name, config):
+        self.rule_name = rule_name
+        self.config = config
+
+    def get_threads(self, max_threads) -> int:
+        threads = get_rule_specific_config(self.rule_name, THREADS_KEY, self.config)
+
+        if not threads:
+            threads = max_threads
+        return threads
+
+    def get_mem(self):
+        def _get_mem(wildcards, input, threads) -> int:
+            mem_mb = get_rule_specific_config(self.rule_name, MEM_MB_KEY,
+                                              self.config)
+            if not mem_mb:
+                mem_mb = self._get_mem_estimate(wildcards, input, threads)
+
+                max_mem = _get_max_memory(self.config)
+                if mem_mb > max_mem:
+                    logger.warning(
+                        f"The estimated memory of {mem_mb} MB "
+                        f"is larger than the max memory {max_mem}.")
+
+            return mem_mb
+
+        return _get_mem
+
+    def _get_mem_estimate(self, wildcards, input, threads):
+        return _get_max_memory(self.config)
+
+    def get_disk(self):
+        def _get_disk(wildcards):
+            disk_mb = get_rule_specific_config(self.rule_name, DISK_MB_KEY,
+                                               self.config)
+            if not disk_mb:
+                disk_mb = _get_max_disk(self.config)
+            return disk_mb
+
+        return _get_disk
+
+
+class SupportsMemBufferSize(ResourceConfig):
+    MEM_OVERHEAD = BASE_MEM
+
+    CAP_MEM_FRACTION = 0.85
+
+    def get_mem_buffer_gib(self):
+        """
+        value for the `--mem-cap-gb` parameter (in GiB)
+        """
+        def _get_mem_buffer(wildcards, input, threads, resources):
+            mem_cap_mb = get_rule_specific_config(self.rule_name,
+                                                  MEM_BUFFER_MB_KEY, self.config)
+
+            if not mem_cap_mb:
+                mem_cap_mb = min(self._mem_buf_estimate(wildcards, resources, input, threads), self.config[workflow_configs.MAX_BUFFER_SIZE_MB])
+
+                if mem_cap_mb == TBD_VALUE:
+                    return TBD_VALUE
+
+            return int(math.ceil(mem_cap_mb / 1024.0))
+
+        return _get_mem_buffer
+
+    def _mem_buf_estimate(self, wildcards, resources, input, threads):
+        """
+        Default estimation for mem cap: get a percentage of the available memory
+        """
+        avail_mem_mb = get_rule_specific_config(self.rule_name, MEM_MB_KEY,
+                                          self.config)
+
+        if not avail_mem_mb:
+            avail_mem_mb = resources.get('mem_mb', _get_max_memory(self.config))
+
+        return max(int(self.CAP_MEM_FRACTION * avail_mem_mb), 1024) # TODO: parametrize constant?
+
+
+class SupportsMemBufferSizeWithEstimation(SupportsMemBufferSize):
+    """
+    Base class for cases where we have a heuristic to estimate the required mem cap.
+    """
+    def _mem_buf_estimate(self, wildcards, resources, input, threads) -> int:
+        raise NotImplementedError("Mixing in SupportsMemoryCapWithEstimation requires reimplementing mem_cap_estimate")
+
+    def _get_mem_estimate(self, wildcards, input, threads):
+        mem_cap = self.get_mem_buffer_gib()(wildcards, input, threads, None)
+
+        if mem_cap == TBD_VALUE:
+            return TBD_VALUE
+
+        mem_cap_mib = mem_cap*1024
+
+        # adjusting memory s.t. mem_cap is CAP_MEM_FRACTION of the overall memory
+        # (to be consistent with the default heuristic in SupportsMemoryCap
+        return mem_cap_mib + max(int(mem_cap_mib/self.CAP_MEM_FRACTION * (1-self.CAP_MEM_FRACTION)), BASE_MEM)
+
+
+class SupportsDiskCap(ResourceConfig):
+    def get_disk_cap(self):
+        def _get_disk_cap(wildcards):
+            return int(self.get_disk()(wildcards) / 1024)
+        return _get_disk_cap # TODO: come up with a heuristic
+
+
+class BuildGraphResources(SupportsMemBufferSize, SupportsDiskCap):
+    pass
+
+
+class BuildGraphResourcesWithKmerEstimates(SupportsMemBufferSizeWithEstimation, SupportsDiskCap):
+
+    KMC_STATS_KEY = "Stats"
+    KMC_UNIQUE_KMER_CNT = "#Unique_counted_k-mers"
+
+    def _mem_buf_estimate(self, wildcards, resources, input, threads) -> int:
+        kmc_json_path = Path(input['kmer'])
+
+        if not kmc_json_path.exists():
+            return TBD_VALUE
+
+        with open(kmc_json_path, 'r') as f:
+            kmc_data = json.load(f)
+
+        unique_kmers = kmc_data[self.KMC_STATS_KEY][self.KMC_UNIQUE_KMER_CNT]
+
+        bytes_per_kmer = 2.6
+        kmer_count = 2.6 * unique_kmers  # 2x canonical+non-canonical +  ~30% for dummy kmers (typically it's 10%)
+        required_ram = int(math.ceil(kmer_count * bytes_per_kmer / 1024**2))
+        required_ram_mb = max(required_ram, 1024)
+
+        return required_ram_mb
+
+
+class PrimarizeCanonicalGraphSingleSampleResources(ResourceConfig):
+    def __init__(self, config):
+        super().__init__('primarize_canonical_graph_single_sample', config)
+
+    def _get_mem_estimate(self, wildcards, input, threads):
+        input_path = Path(input[0])
+
+        if input_path.exists():
+            file_size_mib = max(int(math.ceil(input_path.stat().st_size / 1024.0**2)), 1)
+            logger.debug(f"File size of {input_path.name} is {file_size_mib}")
+
+            # factor 2 is based on experiments on the mouse data set.
+            # In most cases factor 1.3 to 1.5 would be enough, however, there are outliers
+            return 2*file_size_mib
+
+        return TBD_VALUE
+
+
+class TransformRdStage0Resources(SupportsMemBufferSizeWithEstimation):
+    def __init__(self, config):
+        super().__init__('transform_rd_stage0', config)
+
+    def _mem_buf_estimate(self, wildcards, resources, input, threads):
+        if Path(input.columns_file).exists():
+            return int(columns_size_mb(input.columns_file) + BASE_MEM)
+        return TBD_VALUE
+
+
+class TransformRdStage1Resources(SupportsMemBufferSize):
+    def __init__(self, config):
+        super().__init__('transform_rd_stage1', config)
+
+
+class TransformRdStage2Resources(SupportsMemBufferSize):
+    def __init__(self, config):
+        super().__init__('transform_rd_stage2', config)
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/Makefile b/metagraph/workflows/metagraph_workflows/snakemake/Makefile
new file mode 100644
index 0000000000..58026558a7
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/Makefile
@@ -0,0 +1,12 @@
+
+SMAKE_BASE="./run_snakemake_test.sh"
+
+run:
+	$(SMAKE_BASE)
+
+graph:
+	"$(SMAKE_BASE)" --forceall --dag > test_workflow/rule_graph.dot
+	dot -Tpng test_workflow/rule_graph.dot > test_workflow/rule_graph.png
+
+shell-cmds:
+	"$(SMAKE_BASE)" --forceall --dryrun --printshellcmds | grep '^        [A-Za-z]' | sed -E 's/ +/ /g'
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/Snakefile b/metagraph/workflows/metagraph_workflows/snakemake/Snakefile
new file mode 100644
index 0000000000..8f3db405e1
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/Snakefile
@@ -0,0 +1,344 @@
+import metagraph_workflows.utils
+from metagraph_workflows import workflow_configs, utils
+from metagraph_workflows.utils import take_value_or_default
+from metagraph_workflows.workflow_configs import AnnotationLabelsSource, \
+    AnnotationFormats
+from metagraph_workflows.resource_management import TransformRdStage0Resources, TransformRdStage1Resources, TransformRdStage2Resources, ResourceConfig
+
+wdir=utils.get_wdir(config)
+
+graph=config['base_name']
+build_primary=take_value_or_default('build_primary_graph', False, config)
+
+annotation_formats = config['annotation_formats'] if isinstance(config['annotation_formats'], list) else [config['annotation_formats']]
+
+# validate values
+for af in annotation_formats:
+    AnnotationFormats(af)
+    # TODO: make a nicer error
+
+annotation_labels_opt = AnnotationLabelsSource(config['annotation_labels_source']).to_annotation_cmd_option()
+
+
+metagraph_cmd=config['metagraph_cmd']
+time_cmd=utils.get_gnu_time_command(config)
+
+max_threads=take_value_or_default(workflow_configs.MAX_THREADS, workflow.cores, config)
+
+# TODO
+max_memory_mb=take_value_or_default('max_memory_mb', 4000, config)
+
+verbose_opt=' -v '
+
+DONE="DONE"
+
+## Paths
+graph_path=wdir/f'{graph}.dbg'
+annotation_cols_path=wdir/'columns'
+annotation_path_done=annotation_cols_path/DONE
+
+columns_file=wdir/'columns.txt'
+
+seqs_file_list_path=utils.get_seqs_file_list_path(wdir, config)
+
+contigs_dir=wdir/'contigs'
+
+seq_ids_dict = {}
+if not config[workflow_configs.SAMPLE_IDS_PATH]:
+    seq_ids_dict = utils.derive_sample_dictionary(seqs_file_list_path)
+
+localrules: generate_column_list
+
+rule all:
+     input:
+        graph_path,
+        [wdir/f'{graph}.{anno_type}.annodbg' for anno_type in annotation_formats]
+
+
+include: 'build.smk'
+
+ANNOTATE_RULE="annotate"
+rule annotate:
+    input:
+        seqs=utils.get_build_joint_input(config, contigs_dir, seq_ids_dict, seqs_file_list_path),
+        dbg_graph=graph_path,
+    output:
+        done=touch(annotation_path_done),
+        column_anno_files=utils.generate_col_paths(annotation_cols_path, seqs_file_list_path, config)
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(ANNOTATE_RULE, config).get_mem(),
+    params:
+        separate_build=str(bool(config[workflow_configs.PRIMARIZE_SAMPLES_SEPARATELY])).lower(),
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(ANNOTATE_RULE, config)
+    shell:
+        """
+        if {params.separate_build}; then
+            SEQ_PATHS={wdir}/seqs_paths.txt
+            echo "{input}" | tr ' ' '\n' > $SEQ_PATHS
+        else
+            SEQ_PATHS="{input.seqs}"
+        fi
+        
+        OUT_DIR=$(dirname {output.done})
+        mkdir -p $OUT_DIR
+        cat $SEQ_PATHS | {time_cmd} {metagraph_cmd} annotate \
+          {verbose_opt} \
+          --parallel {threads} \
+          -i {input.dbg_graph} \
+          {annotation_labels_opt} \
+          --anno-type column \
+          --separately \
+          -o $OUT_DIR {params.tempdir_opt} > {log} 2>&1
+        """
+
+GENERATE_COLUMN_LIST_RULE="generate_column_list"
+rule generate_column_list:
+    input: rules.annotate.output.column_anno_files
+    output: columns_file
+    run:
+        with open(output[0], 'w') as f:
+            f.write('\n'.join([str(l) for l in input]))
+
+
+max_path_length=None
+
+GENERATE_BRWT_LINKAGE_RULE="generate_brwt_linkage"
+rule generate_brwt_linkage:
+    input:
+        columns_file=columns_file,
+    output:
+        linkage=wdir/f"{graph}.linkage.txt"
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(GENERATE_BRWT_LINKAGE_RULE, config).get_mem(),
+    params:
+        subsample=config[workflow_configs.BRWT_LINKAGE_SUBSAMPLE],
+    log: utils.get_log_path(GENERATE_BRWT_LINKAGE_RULE, config)
+    shell:
+        """        
+        cat {input.columns_file} | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type brwt \
+            --linkage \
+            --greedy \
+            --subsample {params.subsample} \
+            --parallel {threads} \
+            -o {output.linkage} > {log} 2>&1
+        """
+
+ruleorder: relax_brwt > transform_annotation # more specific rule has priority
+
+TRANSFORM_ANNOTATION_RULE="transform_annotation"
+rule transform_annotation:
+    input:
+        columns_file=columns_file,
+    output:
+        annotations=wdir/f'{graph}.{{anno_type}}.annodbg',
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(TRANSFORM_ANNOTATION_RULE, config).get_mem(),
+    params:
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(TRANSFORM_ANNOTATION_RULE, config, ['anno_type'])
+    shell:
+        """        
+        cat {input.columns_file} | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type {wildcards.anno_type} \
+            --parallel {threads} \
+            -o {output.annotations} {params.tempdir_opt} > {log} 2>&1
+        """
+
+
+ANNOTATE_BRWT_RULE="annotate_brwt"
+rule annotate_brwt:
+    input:
+        linkage=wdir/f"{graph}.linkage.txt",
+        columns_file=columns_file,
+    output:
+        annotations=wdir/f'{graph}.brwt.annodbg',
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(ANNOTATE_BRWT_RULE, config).get_mem(),
+    params:
+        parallel_nodes=config[workflow_configs.BRWT_PARALLEL_NODES],
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(ANNOTATE_BRWT_RULE, config)
+    shell:
+        """        
+        cat {input.columns_file} | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type brwt \
+            --parallel-nodes {params.parallel_nodes} \
+            --greedy \
+            --parallel {threads} \
+            -o {output.annotations} {params.tempdir_opt} > {log} 2>&1
+        """
+
+
+RELAX_BRWT_RULE="relax_brwt"
+rule relax_brwt:
+    input:
+        brwt_annots=wdir/f'{graph}.{{brwt_fmt}}.annodbg',
+    output:
+        annotations=wdir/f'{graph}.relax.{{brwt_fmt}}.annodbg',
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(RELAX_BRWT_RULE, config).get_mem(),
+    params:
+        relax_arity=config[workflow_configs.BRWT_RELAX_ARITY],
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(RELAX_BRWT_RULE, config, ['brwt_fmt'])
+    shell:
+        """        
+        {time_cmd} {metagraph_cmd} relax_brwt \
+            -o {output.annotations} \
+            {verbose_opt} \
+            --relax-arity {params.relax_arity} \
+            --parallel {threads} \
+            {input.brwt_annots} {params.tempdir_opt} > {log} 2>&1
+        """
+
+rd_cols_dir = wdir/'rd_cols'
+
+from metagraph_workflows.resource_management import TransformRdStage0Resources
+
+TRANSFORM_RD_STAGE0_RULE="transform_rd_stage0"
+rule transform_rd_stage0:
+    input:
+        dbg_graph=graph_path,
+        columns_file=columns_file,
+    output:
+        columns_rd_row_count=rd_cols_dir/'vector.row_count'
+    threads: max_threads
+    resources:
+        mem_mb=TransformRdStage0Resources(config).get_mem()
+    params:
+        mem_buffer=TransformRdStage0Resources(config).get_mem_buffer_gib(),
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(TRANSFORM_RD_STAGE0_RULE,config)
+    shell:
+        """
+        COLS_DIR=$(dirname {output.columns_rd_row_count})
+        mkdir -p $COLS_DIR
+        
+        cat {input.columns_file} | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type row_diff \
+            --row-diff-stage 0 \
+            -i {input.dbg_graph} \
+            --parallel {threads} \
+            --mem-cap-gb {params.mem_buffer} \
+            -o {output.columns_rd_row_count} {params.tempdir_opt} > {log} 2>&1
+        """
+
+TRANSFORM_RD_STAGE1_RULE="transform_rd_stage1"
+rule transform_rd_stage1:
+    input:
+        dbg_graph=graph_path,
+        columns_file=columns_file,
+        columns_rd_row_count=rd_cols_dir/'vector.row_count'
+    output:
+        pred=wdir / f'{graph}.dbg.pred',
+        pred_boundary=wdir / f'{graph}.dbg.pred_boundary',
+        rd_succ=wdir / f'{graph}.dbg.rd_succ',
+        succ=wdir / f'{graph}.dbg.succ',
+        succ_boundary=wdir / f'{graph}.dbg.succ_boundary',
+        cols_rd_vectors=rd_cols_dir / 'vectors.row_reduction'
+    threads: max_threads
+    resources:
+        mem_mb=TransformRdStage1Resources(config).get_mem()
+    params:
+        mem_buffer=TransformRdStage1Resources(config).get_mem_buffer_gib(),
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(TRANSFORM_RD_STAGE1_RULE, config)
+    shell:
+        """
+        cat {input.columns_file} | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type row_diff \
+            --row-diff-stage 1 \
+            -i {input.dbg_graph} \
+            --parallel {threads} \
+            --mem-cap-gb {params.mem_buffer} \
+            -o {output.cols_rd_vectors} {params.tempdir_opt} > {log} 2>&1
+        """
+
+
+TRANSFORM_RD_STAGE2_RULE="transform_rd_stage2"
+rule transform_rd_stage2:
+    input:
+        dbg_graph=graph_path,
+        columns_file=columns_file,
+        cols_rd_vectors=rd_cols_dir / 'vectors.row_reduction'
+    output:
+        anchors=wdir/f'{graph}.dbg.anchors',
+        rd_cols_done=touch(rd_cols_dir/DONE)
+    threads: max_threads
+    resources:
+        mem_mb=TransformRdStage2Resources(config).get_mem(),
+    params:
+        mem_buffer=TransformRdStage2Resources(config).get_mem_buffer_gib(),
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(TRANSFORM_RD_STAGE2_RULE, config)
+    shell:
+        """
+        cat {input.columns_file} | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type row_diff \
+            --row-diff-stage 2 \
+            -i {input.dbg_graph} \
+            --parallel {threads} \
+            --mem-cap-gb {params.mem_buffer} \
+            -o {output.rd_cols_done} {params.tempdir_opt} > {log} 2>&1
+        """
+
+
+ANNOTATE_ROW_DIFF_BRWT_RULE="annotate_row_diff_brwt"
+rule annotate_row_diff_brwt:
+    input:
+        anchors=rules.transform_rd_stage2.output.anchors,
+        rd_cols_done=rules.transform_rd_stage2.output.rd_cols_done,
+        dbg_graph=graph_path
+    output:
+        annotations=wdir/f'{graph}.row_diff_brwt.annodbg',
+        linkage=wdir / f'{graph}.row_diff_brwt.annodbg.linkage',
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(ANNOTATE_ROW_DIFF_BRWT_RULE, config).get_mem(),
+    params:
+        parallel_nodes=config[workflow_configs.BRWT_PARALLEL_NODES],
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(ANNOTATE_ROW_DIFF_BRWT_RULE, config)
+    shell:
+        """
+        echo $(find $(dirname {input.rd_cols_done}) -name \*.annodbg)
+        find $(dirname {input.rd_cols_done}) -name \*.annodbg | {time_cmd} {metagraph_cmd} transform_anno {verbose_opt} \
+            --anno-type row_diff_brwt \
+            --greedy \
+            --fast \
+            --parallel-nodes {params.parallel_nodes} \
+            --parallel {threads} \
+            -i {input.dbg_graph} \
+            -o {output.annotations} {params.tempdir_opt} > {log} 2>&1
+        """
+
+
+RELAX_ROW_DIFF_BRWT_RULE="relax_row_diff_brwt"
+rule relax_row_diff_brwt:
+    input:
+        brwt_annots=rules.annotate_row_diff_brwt.output.annotations,
+    output:
+        annotations_relaxed=wdir/f'{graph}.relax.row_diff_brwt.annodbg',
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(RELAX_ROW_DIFF_BRWT_RULE, config).get_mem(),
+    params:
+        relax_arity = config[workflow_configs.BRWT_RELAX_ARITY],
+        tempdir_opt=utils.temp_dir_config(config),
+    log: utils.get_log_path(RELAX_ROW_DIFF_BRWT_RULE, config)
+    shell:
+        """        
+        {time_cmd} {metagraph_cmd} relax_brwt \
+            -o {output.annotations_relaxed} \
+            {verbose_opt} \
+            --relax-arity {params.relax_arity} \
+            --parallel {threads} \
+            {input.brwt_annots} {params.tempdir_opt} > {log} 2>&1
+        """
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/build.smk b/metagraph/workflows/metagraph_workflows/snakemake/build.smk
new file mode 100644
index 0000000000..d45a051e19
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/build.smk
@@ -0,0 +1,255 @@
+
+from metagraph_workflows.resource_management import BuildGraphResources, ResourceConfig, BuildGraphResourcesWithKmerEstimates, PrimarizeCanonicalGraphSingleSampleResources
+from metagraph_workflows import workflow_configs, utils
+
+if build_primary:
+    ruleorder: build_joint_primary > build
+else:
+    ruleorder: build > build_joint_primary
+
+
+BUILD_RULE="build"
+rule build:
+    input: seqs_file_list_path
+    output: graph_path
+    threads: max_threads
+    resources:
+        mem_mb=BuildGraphResources(BUILD_RULE, config).get_mem(),
+        disk_mb=BuildGraphResources(BUILD_RULE, config).get_disk(),
+    params:
+        k=config['k'],
+        tempdir_opt=utils.temp_dir_config(config),
+        mem_buffer=BuildGraphResources(BUILD_RULE, config).get_mem_buffer_gib(),
+        disk_cap=BuildGraphResources(BUILD_RULE, config).get_disk_cap(),
+    log: utils.get_log_path(BUILD_RULE, config)
+    shell:
+        """
+        cat {input} | {time_cmd} {metagraph_cmd} build {verbose_opt} \
+        --parallel {threads} \
+        -k {params.k} \
+        -o {output} \
+        --mem-cap-gb {params.mem_buffer} \
+        --disk-cap-gb {params.disk_cap} \
+        {params.tempdir_opt} > {log} 2>&1
+        """
+
+
+### Build Primary
+
+kmc_dir=wdir / "kmc"
+
+canonical_graphs_dir=wdir/f'canonical_graphs'
+canonical_graph_path=wdir/f'{graph}_canonical.dbg'
+
+joint_contigs_path=wdir/f'{graph}_primary.fasta.gz'
+
+
+sample_ids_spec = False
+orig_samples_path=wdir/'orig_samples'
+
+
+
+STAGE_SAMPLES_RULE="stage_samples"
+rule stage_samples:
+    output: temp(orig_samples_path /f"{{sample_id}}{config[workflow_configs.SAMPLE_STAGING_FILE_ENDING]}")
+    resources:
+        parallel_staging=1
+    params:
+        staging_script_path=config[workflow_configs.SAMPLE_STAGING_SCRIPT_PATH],
+        additional_options=config[workflow_configs.SAMPLE_STAGING_SCRIPT_ADDITIONAL_OPTIONS],
+    log: utils.get_log_path(STAGE_SAMPLES_RULE, config, ['sample_id'])
+    shell:
+        """
+        bash {params.staging_script_path} {wildcards.sample_id} {output} {params.additional_options} > {log} 2>&1
+        """
+
+EXTRACT_KMER_COUNTS_RULE="extract_kmer_counts"
+rule extract_kmer_counts:
+    input: utils.get_build_single_sample_input(config,orig_samples_path,seq_ids_dict)
+    output:
+        summary = kmc_dir / "{sample_id}.json",
+        kmc_pre=temp(kmc_dir/"{sample_id}.kmc_pre"),
+        kmc_suf=temp(kmc_dir/ "{sample_id}.kmc_suf"),
+        temp_dir=temp(directory(kmc_dir/"temp_{sample_id}.kmc")),
+    threads: ResourceConfig(EXTRACT_KMER_COUNTS_RULE, config).get_threads(max_threads)
+    resources:
+        mem_mb=lambda wildcards, threads: int((threads * config[workflow_configs.KMC_MEM_MB_PER_THREAD]) * config[workflow_configs.KMC_MEM_OVERHEAD_FACTOR])
+    priority: 10
+    params:
+        k=config['k'],
+        max_bins=config[workflow_configs.KMC_MAX_BINS],
+        mem_buffer=lambda wildcards, resources: max(int((resources.mem_mb * (1.0 / config[workflow_configs.KMC_MEM_OVERHEAD_FACTOR])) / 1024), 1),
+        base=lambda wildcards: kmc_dir/wildcards['sample_id'],
+    log: utils.get_log_path(EXTRACT_KMER_COUNTS_RULE, config, ['sample_id'])
+    shell:
+        """        
+        KMC_BINS=$(( $(ulimit -n) - 10))
+        KMC_BINS=$(( KMC_BINS > {params.max_bins} ? {params.max_bins} : KMC_BINS))
+
+        mkdir -p {output.temp_dir}
+                
+        INPUT="{input}"
+        SOME_INPUT_FILE="{input}"
+        if [ -d {input} ]; then
+            # in case sample is split up in several files
+            SAMPLE_FILE={output.temp_dir}/samples.lst
+            ls {input}/* > $SAMPLE_FILE
+            INPUT="$SAMPLE_FILE"
+            INPUT="@$INPUT"
+            
+            # pick arbitrary file, assuming all file in the directory are of the same type
+            SOME_INPUT_FILE=$(cat $SAMPLE_FILE | head -n 1)
+        fi
+        
+        FORMAT_FLAG="-fq"
+        if [[ "$SOME_INPUT_FILE" =~ .*(.fa|.fa.gz|.fasta|.fasta.gz|.fna|.fna.gz)$  ]]; then
+             FORMAT_FLAG="-fm"
+        fi
+        
+        {time_cmd} kmc -v -k{params.k} -m{params.mem_buffer} -sm -t{threads} -ci1 -cs65535 -n$KMC_BINS -j{output.summary} $FORMAT_FLAG $INPUT {params.base} {output.temp_dir} > {log} 2>&1
+        """
+
+kmer_estimates=True
+
+BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE="build_canonical_graph_single_sample"
+rule build_canonical_graph_single_sample:
+    input:
+        seq=utils.get_build_single_sample_input(config, orig_samples_path, seq_ids_dict),
+        kmer=kmc_dir/"{sample_id}.json" if kmer_estimates else []
+    output:
+        graph=temp(canonical_graphs_dir/"{sample_id}.dbg"),
+        temp_dir=temp(directory(wdir / "temp_build_canonical_{sample_id}")),
+    threads: BuildGraphResourcesWithKmerEstimates(BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config).get_threads(max_threads)
+    resources:
+        mem_mb=BuildGraphResourcesWithKmerEstimates(BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config).get_mem(),
+        disk_mb=BuildGraphResourcesWithKmerEstimates(BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config).get_disk(),
+    priority: 50
+    params:
+        k=config['k'],
+        tempdir_opt=utils.temp_dir_config(config),
+        temp_file=wdir,
+        mem_buffer=BuildGraphResourcesWithKmerEstimates(BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config).get_mem_buffer_gib(),
+        disk_cap=BuildGraphResourcesWithKmerEstimates(BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config).get_disk_cap(),
+    log: utils.get_log_path(BUILD_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config, ['sample_id'])
+    shell:
+        """
+        
+        INPUT_CMD="echo {input.seq}"
+        
+        mkdir -p {output.temp_dir}
+        
+        SAMPLE_FILE={output.temp_dir}/samples.lst
+        if [ -d {input.seq} ]; then
+            ls {input.seq}/* > $SAMPLE_FILE
+            INPUT_CMD="cat $SAMPLE_FILE"
+        fi
+        
+        $INPUT_CMD | {time_cmd} {metagraph_cmd} build {verbose_opt} \
+        --parallel {threads} \
+        --mode canonical \
+        -k {params.k} \
+        -o {output.graph} \
+        --mem-cap-gb {params.mem_buffer} \
+        --disk-cap-gb {params.disk_cap} \
+        {params.tempdir_opt} > {log} 2>&1  
+        """
+
+
+PRIMARIZE_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE="primarize_canonical_graph_single_sample"
+rule primarize_canonical_graph_single_sample:
+    input: canonical_graphs_dir/"{sample_id}.dbg"
+    output: temp(contigs_dir/"{sample_id}_primary.fasta.gz")
+    threads: PrimarizeCanonicalGraphSingleSampleResources(config).get_threads(max_threads)
+    resources:
+        mem_mb=PrimarizeCanonicalGraphSingleSampleResources(config).get_mem(),
+    priority: 100
+    log: utils.get_log_path(PRIMARIZE_CANONICAL_GRAPH_SINGLE_SAMPLE_RULE, config, ['sample_id'])
+    shell:
+        """
+        echo "{input}" | {time_cmd} {metagraph_cmd} transform {verbose_opt} \
+        --to-fasta \
+        --primary-kmers \
+        --parallel {threads} \
+        -o {output} > {log} 2>&1
+        """
+
+
+BUILD_JOINT_GRAPH_RULE="build_joint_graph"
+rule build_joint_graph:
+    input: utils.get_build_joint_input(config, contigs_dir, seq_ids_dict, seqs_file_list_path)
+    output: temp(canonical_graph_path)
+    threads: max_threads
+    resources:
+        mem_mb=BuildGraphResources(BUILD_JOINT_GRAPH_RULE, config).get_mem(),
+        disk_mb=BuildGraphResources(BUILD_JOINT_GRAPH_RULE, config).get_disk(),
+    params:
+        k=config['k'],
+        separate_build=str(bool(config[workflow_configs.PRIMARIZE_SAMPLES_SEPARATELY])).lower(),
+        tempdir_opt=utils.temp_dir_config(config),
+        mem_buffer=BuildGraphResources(BUILD_JOINT_GRAPH_RULE, config).get_mem_buffer_gib(),
+        disk_cap=BuildGraphResources(BUILD_JOINT_GRAPH_RULE, config).get_disk_cap(),
+    log: utils.get_log_path(BUILD_JOINT_GRAPH_RULE, config)
+    shell:
+        """
+        if {params.separate_build}; then
+            SEQ_PATHS={wdir}/seqs_paths.txt
+            echo "{input}" | tr ' ' '\n' > $SEQ_PATHS
+        else
+            SEQ_PATHS="{input}"
+        fi
+
+        cat $SEQ_PATHS | {time_cmd} {metagraph_cmd} build {verbose_opt} \
+        --parallel {threads} \
+        --mode canonical \
+        -k {params.k} \
+        -o {output} \
+        --mem-cap-gb {params.mem_buffer} \
+        --disk-cap-gb {params.disk_cap} \
+        {params.tempdir_opt} > {log} 2>&1
+        
+        """
+
+PRIMARIZE_JOINT_GRAPH_RULE="primarize_joint_graph"
+rule primarize_joint_graph:
+    input: canonical_graph_path
+    output: temp(joint_contigs_path)
+    threads: max_threads
+    resources:
+        mem_mb=ResourceConfig(PRIMARIZE_JOINT_GRAPH_RULE, config).get_mem(),
+    log: utils.get_log_path(PRIMARIZE_JOINT_GRAPH_RULE, config)
+    shell:
+        """
+        echo "{input}" | {time_cmd} {metagraph_cmd} transform {verbose_opt} \
+        --to-fasta \
+        --primary-kmers \
+        --parallel {threads} \
+        -o {output} > {log} 2>&1
+        """
+
+
+BUILD_JOINT_PRIMARY_RULE="build_joint_primary"
+rule build_joint_primary:
+    input: joint_contigs_path
+    output: graph_path
+    threads: max_threads
+    resources:
+        mem_mb=BuildGraphResources(BUILD_JOINT_PRIMARY_RULE, config).get_mem(),
+        disk_mb=BuildGraphResources(BUILD_JOINT_PRIMARY_RULE, config).get_disk(),
+    params:
+        k=config['k'],
+        tempdir_opt=utils.temp_dir_config(config),
+        mem_buffer=BuildGraphResources(BUILD_JOINT_PRIMARY_RULE, config).get_mem_buffer_gib(),
+        disk_cap=BuildGraphResources(BUILD_JOINT_PRIMARY_RULE, config).get_disk_cap()
+    log: utils.get_log_path(BUILD_JOINT_PRIMARY_RULE, config)
+    shell:
+        """
+        {time_cmd} {metagraph_cmd} build {verbose_opt} \
+        --parallel {threads} \
+        --mode primary \
+        -k {params.k} \
+        -o {output} \
+        --mem-cap-gb {params.mem_buffer} \
+        --disk-cap-gb {params.disk_cap} \
+        {input} \
+        {params.tempdir_opt} > {log} 2>&1
+        """
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/default.yml b/metagraph/workflows/metagraph_workflows/snakemake/default.yml
new file mode 100644
index 0000000000..3dae43d756
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/default.yml
@@ -0,0 +1,30 @@
+# graph options
+k: 31
+base_name: 'graph'
+build_primary_graph: False
+
+primarize_samples_separately: False
+
+kmc_mem_mb_per_thread: 2048
+kmc_max_bins: 2000
+kmc_mem_overhead_factor: 1.1
+
+# annotation options
+annotation_formats: ['relax.row_diff_brwt']
+annotation_labels_source: 'sequence_headers'
+
+brwt_relax_arity: 32
+brwt_parallel_nodes: 5
+brwt_linkage_subsample: 100000
+
+metagraph_cmd: 'metagraph'
+gnu_time_cmd: '/usr/bin/time'
+
+default_disk_mb: 10000
+max_memory_mb: 4048
+max_buffer_size_mb: 51200
+
+sample_ids_path: ''
+sample_staging_script_path: ''
+sample_staging_script_additional_options: ''
+sample_staging_file_ending: '.fastq'
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/run_snakemake_test.sh b/metagraph/workflows/metagraph_workflows/snakemake/run_snakemake_test.sh
new file mode 100755
index 0000000000..a3c6776f16
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/run_snakemake_test.sh
@@ -0,0 +1,7 @@
+#!/usr/bin/env bash
+
+SCRIPT_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
+cd ${SCRIPT_DIR}
+
+CORES=2
+snakemake --configfile default.yml test_workflow/test.yml -p --cores ${CORES} "$@"
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/test_data/metasub_fake_data.fa b/metagraph/workflows/metagraph_workflows/snakemake/test_data/metasub_fake_data.fa
new file mode 100644
index 0000000000..5ba43a6650
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/test_data/metasub_fake_data.fa
@@ -0,0 +1,18 @@
+>kl_sample;metasub_name=nan;city=kuala_lumpur;latitude=3.11318;longitude=101.68186;surface_material=metal
+CTTGGATCACACTCTTCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAG
+AACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAGGGCCATCAGGCACCAAAGGGAT
+TCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACATGCTG
+TTGGCCTGGATCTGAGCCCTCGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCT
+GTGTGGAAGTTCACTCAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGC
+TGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGG
+>zh_sample;metasub_name=nan;city=zurich;latitude=nan;longitude=nan;surface_material=nan;station=nan;num_reads=1303795.0
+CTTGGATCACACTCTTCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAG
+AACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAGGGCCATCAGGCACCAAAGGGAT
+TCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACATGCTG
+TTGGCCTGGATCTGAGCCCTCGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCT
+GTGTGGAAGTTCACTCAAGTAGGCCTCTTCCTG
+>tk_sample;metasub_name=nan;city=tokyo;latitude=35.6973;longitude=139.6339;surface_material=plastic
+TCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACATGCTG
+TTGGCCTGGATCTGAGCCCTCGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCT
+GTGTGGAAGTTCACTCAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGC
+TGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGC
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/test_data/transcripts_100.fa b/metagraph/workflows/metagraph_workflows/snakemake/test_data/transcripts_100.fa
new file mode 100644
index 0000000000..00313cb29f
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/test_data/transcripts_100.fa
@@ -0,0 +1,1649 @@
+>ENST00000456328.2|ENSG00000223972.5|OTTHUMG00000000961.2|OTTHUMT00000362751.1|DDX11L1-202|DDX11L1|1657|processed_transcript|
+GTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTC
+TCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGA
+TGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTG
+CAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGG
+GCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCAT
+AGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAG
+TGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACG
+ACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGCAGGGCCATCA
+GGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTG
+TCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTT
+CTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACC
+ACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTC
+TTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTG
+GAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGATCCTGCTACAAAGGTGAAACCCAGG
+AGAGTGTGGAGTCCAGAGTGTTGCCAGGACCCAGGCACAGGCATTAGTGCCCGTTGGAGA
+AAACAGGGGAATCCCGAAGAAATGGTGGGTCCTGGCCATCCGTGAGATCTTCCCAGGGCA
+GCTCCCCTCTGTGGAATCCAATCTGTCTTCCATCCTGCGTGGCCGAGGGCCAGGCTTCTC
+ACTGGGCCTCTGCAGGAGGCTGCCATTTGTCCTGCCCACCTTCTTAGAAGCGAGACGGAG
+CAGACCCATCTGCTACTGCCCTTTCTATAATAACTAAAGTTAGCTGCCCTGGACTATTCA
+CCCCCTAGTCTCAATTTAAGAAGATCCCCATGGCCACAGGGCCCCTGCCTGGGGGCTTGT
+CACCTCCCCCACCTTCTTCCTGAGTCATTCCTGCAGCCTTGCTCCCTAACCTGCCCCACA
+GCCTTGCCTGGATTTCTATCTCCCTGGCTTGGTGCCAGTTCCTCCAAGTCGATGGCACCT
+CCCTCCCTCTCAACCACTTGAGCAAACTCCAAGACATCTTCTACCCCAACACCAGCAATT
+GTGCCAAGGGCCATTAGGCTCTCAGCATGACTATTTTTAGAGACCCCGTGTCTGTCACTG
+AAACCTTTTTTGTGGGAGACTATTCCTCCCATCTGCAACAGCTGCCCCTGCTGACTGCCC
+TTCTCTCCTCCCTCTCATCCCAGAGAAACAGGTCAGCTGGGAGCTTCTGCCCCCACTGCC
+TAGGGACCAACAGGGGCAGGAGGCAGTCACTGACCCCGAGACGTTTGCATCCTGCACAGC
+TAGAGATCCTTTATTAAAAGCACACTGTTGGTTTCTG
+>ENST00000450305.2|ENSG00000223972.5|OTTHUMG00000000961.2|OTTHUMT00000002844.2|DDX11L1-201|DDX11L1|632|transcribed_unprocessed_pseudogene|
+GTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGTTGGAGGAAAGA
+TGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTGTGTGGTGATGCCAGGCATGC
+CCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTC
+TTCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAA
+GGCTGTCAACCAGTCCATAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGT
+GCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTG
+AGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAATTTCAC
+CAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTT
+TGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGATCCTGCTACAA
+AGGTGAAACCCAGGAGAGTGTGGAGTCCAGAGTGTTGCCAGGACCCAGGCACAGGCATTA
+GTGCCCGTTGGAGAAAACAGGGGAATCCCGAA
+>ENST00000488147.1|ENSG00000227232.5|OTTHUMG00000000958.1|OTTHUMT00000002839.1|WASH7P-201|WASH7P|1351|unprocessed_pseudogene|
+ATGGGAGCCGTGTGCACGTCGGGAGCTCGGAGTGAGCGCACCATGACTCCTGTGAGGATG
+CAGCACTCCCTGGCAGGTCAGACCTATGCCGTGCCCTTCATCCAGCCAGACCTGCGGCGA
+GAGGAGGCCGTCCAGCAGATGGCGGATGCCCTGCAGTACCTGCAGAAGGTCTCTGGAGAC
+ATCTTCAGCAGGTAGAGCAGAGCCGGAGCCAGGTGCAGGCCATTGGAGAGAAGGTCTCCT
+TGGCCCAGGCCAAGATTGAGAAGATCAAGGGCAGCAAGAAGGCCATCAAGGTGTTCTCCA
+GTGCCAAGTACCCTGCTCCAGGGCGCCTGCAGGAATATGGCTCCATCTTCACGGGCGCCC
+AGGACCCTGGCCTGCAGAGACGCCCCCGCCACAGGATCCAGAGCAAGCACCGCCCCCTGG
+ACGAGCGGGCCCTGCAGGAGAAGCTGAAGGACTTTCCTGTGTGCGTGAGCACCAAGCCGG
+AGCCCGAGGACGATGCAGAAGAGGGACTTGGGGGTCTTCCCAGCAACATCAGCTCTGTCA
+GCTCCTTGCTGCTCTTCAACACCACCGAGAACCTGTAGAAGAAGTATGTCTTCCTGGACC
+CCCTGGCTGGTGCTGTAACAAAGACCCATGTGATGCTGGGGGCAGAGACAGAGGAGAAGC
+TGTTTGATGCCCCCTTGTCCATCAGCAAGAGAGAGCAGCTGGAACAGCAGGTCCCAGAGA
+ACTACTTCTATGTGCCAGACCTGGGCCAGGTGCCTGAGATTGATGTTCCATCCTACCTGC
+CTGACCTGCCCGGCATTGCCAACGACCTCATGTACATTGCCGACCTGGGCCCCGGCATTG
+CCCCCTCTGCCCCTGGCACCATTCCAGAACTGCCCACCTTCCACACTGAGGTAGCCGAGC
+CTCTCAAGACCTACAAGATGGGGTACTAACACCACCCCCACCGCCCCCACCACCACCCCC
+AGCTCCTGAGGTGCTGGCCAGTGCACCCCCACTCCCACCCTCAACCGCGGCCCCTGTAGG
+CCAAGGCGCCAGGCAGGACGACAGCAGCAGCAGCGCGTCTCCTTCAGTCCAGGGAGCTCC
+CAGGGAAGTGGTTGACCCCTCCGGTGGCTGGCCACTCTGCTAGAGTCCATCCGCCAAGCT
+GGGGGCATCGGCAAGGCCAAGCTGCGCAGCATGAAGGAGCGAAAGCTGGAGAAGCAGCAG
+CAGAAGGAGCAGGAGCAAGTGAGAGCCACGAGCCAAGGTGGGCACTTGATGTCGCTCCAT
+GGGGGGACGGCTCCACCCAGCCTGCGCCACTGTGTTCTTAAGAGGCTTCCAGAGAAAACG
+GCACACCAATCAATAAAGAACTGAGCAGAAA
+>ENST00000619216.1|ENSG00000278267.1|-|-|MIR6859-1-201|MIR6859-1|68|miRNA|
+TGTGGGAGAGGAACATGGGCTCAGGACAGCGGGTGTCAGCTTGCCTGACCCCCATGTCGC
+CTCTGTAG
+>ENST00000473358.1|ENSG00000243485.5|OTTHUMG00000000959.2|OTTHUMT00000002840.1|MIR1302-2HG-202|MIR1302-2HG|712|lincRNA|
+GTGCACACGGCTCCCATGCGTTGTCTTCCGAGCGTCAGGCCGCCCCTACCCGTGCTTTCT
+GCTCTGCAGACCCTCTTCCTAGACCTCCGTCCTTTGTCCCATCGCTGCCTTCCCCTCAAG
+CTCAGGGCCAAGCTGTCCGCCAACCTCGGCTCCTCCGGGCAGCCCTCGCCCGGGGTGCGC
+CCCGGGGCAGGACCCCCAGCCCACGCCCAGGGCCCGCCCCTGCCCTCCAGCCCTACGCCT
+TGACCCGCTTTCCTGCGTCTCTCAGCCTACCTGACCTTGTCTTTACCTCTGTGGGCAGCT
+CCCTTGTGATCTGCTTAGTTCCCACCCCCCTTTAAGAATTCAATAGAGAAGCCAGACGCA
+AAACTACAGATATCGTATGAGTCCAGTTTTGTGAAGTGCCTAGAATAGTCAAAATTCACA
+GAGACAGAAGCAGTGGTCGCCAGGAATGGGGAAGCAAGGCGGAGTTGGGCAGCTCGTGTT
+CAATGGTTTTGTCCGCCTTCCCTGCCTCCTCTTCTGGGGGAGTTAGATCGAGTTGTAACA
+AGAACATGCCACTGTCTCGCTGGCTGCAGCGTGTGGTCCCCTTACCAGAGTGAGGATGCG
+AAGAGAAGGTGGCTGTCTGCAAACCAGGAAGAGAGCCCTCACCGGGAACCCGTCCAGCTG
+CCACCTTGAACTTGGACTTCCAAGCCTCCAGAACTGTGAGGGATAAATGTAT
+>ENST00000469289.1|ENSG00000243485.5|OTTHUMG00000000959.2|OTTHUMT00000002841.2|MIR1302-2HG-201|MIR1302-2HG|535|lincRNA|
+TCATCAGTCCAAAGTCCAGCAGTTGTCCCTCCTGGAATCCGTTGGCTTGCCTCCGGCATT
+TTTGGCCCTTGCCTTTTAGGGTTGCCAGATTAAAAGACAGGATGCCCAGCTAGTTTGAAT
+TTTAGATAAACAACGAATAATTTCGTAGCATAAATATGTCCCAAGCTTAGTTTGGGACAT
+ACTTATGCTAAAAAACATTATTGGTTGTTTATCTGAGATTCAGAATTAAGCATTTTATAT
+TTTATTTGCTGCCTCTGGCCACCCTACTCTCTTCCTAACACTCTCTCCCTCTCCCAGTTT
+TGTCCGCCTTCCCTGCCTCCTCTTCTGGGGGAGTTAGATCGAGTTGTAACAAGAACATGC
+CACTGTCTCGCTGGCTGCAGCGTGTGGTCCCCTTACCAGAGTGAGGATGCGAAGAGAAGG
+TGGCTGTCTGCAAACCAGGAAGAGAGCCCTCACCGGGAACCCGTCCAGCTGCCACCTTGA
+ACTTGGACTTCCAAGCCTCCAGAACTGTGAGGGATAAATGTATGATTTTAAAGTC
+>ENST00000607096.1|ENSG00000284332.1|-|-|MIR1302-2-201|MIR1302-2|138|miRNA|
+GGATGCCCAGCTAGTTTGAATTTTAGATAAACAACGAATAATTTCGTAGCATAAATATGT
+CCCAAGCTTAGTTTGGGACATACTTATGCTAAAAAACATTATTGGTTGTTTATCTGAGAT
+TCAGAATTAAGCATTTTA
+>ENST00000417324.1|ENSG00000237613.2|OTTHUMG00000000960.1|OTTHUMT00000002842.1|FAM138A-201|FAM138A|1187|lincRNA|
+CACACAACGGGGTTTCGGGGCTGTGGACCCTGTGCCAGGAAAGGAAGGGCGCAGCTCCTG
+CAATGCGGAGCAGCCAGGGCAGTGGGCACCAGGCTTTAGCCTCCCTTTCTCACCCTACAG
+AGGGCAGGCCCTTCAGCTCCATTCTCCTCCAAGGCTGCAGAGGGGGCAGGAATTGGGGGT
+GACAGGAGAGCTGTAAGGTCTCCAGTGGGTCATTCTGGGCCCAGAGATGGGTGCTGAAGC
+TCCCACGCCTGCCTGTGAAAATGGAGTCCTCTCTCACCTGGGAGAGCCAGGTGCTGCCCC
+GAGAAGGATGCATTTATGGCTTCGTGAAGTCTTTCCTGACCCCCGATGCTGCTGACTATA
+GAGACAAAGTCTCACTATGTTGCTCAGGCTGGTCTTGAACTCCTGGCCTCAAGCGATCCT
+CCCACCTCAGCCTCCCAAAGTGTTGGGATTATAGACATGAGCCACTGCACCTGGCCGACC
+TTGGGCAAGTTCTTAAACCCTTCAAAGCCTCATTTTTCTCCAATCACAAAAGGGAAAGAT
+GGTAATATTTTCCCCACCAAATTCTTGTCGGATGCCCTCACAGAATTGAGATTATGTACG
+TAAAACACCAGGTGCCTAACCCGGCACAGAGCAGGAGGGCTAAGCGTGACATCCAGCACG
+TGGTCAGTGGAATCCAGTATTCCTACCCACCTCTCTAGTCTCCCCTCCACCCCTCTCCCT
+TTCAGAGGCACCAAGCTGCTTGTGGTCTTGTCTATTCCCACTCCCTGCCTGACTGAACAT
+TTTCTCCACCTCCTGATCATCAGCAGCAGAAACTGGCTGCTCTTCCTCCTGGGTAGACAG
+CCAGACTGTATTTCCCAGCTGCCCCTGCAGTGAGATGTGGCCATCGGAGCCAGCATTGGC
+CAATGGACTCTGCATGGGAGTGACGCATGCTGCCTCCAGGCTTGTCCCTAAAACCTCCCA
+CGTGTCCTCCGCCTGCTCTTCCCACCTCCAAGGAGCACGGCAATTGTGGAAGACCCAGAT
+TAGTGATGGCAGAACCATAGATGGGAGGAACCTGGGTCCCTGACTTAAAGTATCATGGAT
+TTGGATGTTCCCTTAGTGAGAAATAAACTTCCATTGTGTTTAAGCCTTTATTTGTTTATA
+GTTGGTTACAGCAACTGCCTTCTTTTAATTAAAACACTCCTGCTGCT
+>ENST00000461467.1|ENSG00000237613.2|OTTHUMG00000000960.1|OTTHUMT00000002843.1|FAM138A-202|FAM138A|590|lincRNA|
+GGGGTTTCGGGGCTGTGGACCCTGTGCCAGGAAAGGAAGGGCGCAGCTCCTGCAATGCGG
+AGCAGCCAGGGCAGTGGGCACCAGGCTTTAGCCTCCCTTTCTCACCCTACAGAGGGCAGG
+CCCTTCAGCTCCATTCTCCTCCAAGGCTGCAGAGGGGGCAGGAATTGGGGGTGACAGGAG
+AGCTGTAAGGTCTCCAGTGGGTCATTCTGGGCCCAGAGATGGGTGCTGAAGCTCCCACGC
+CTGCCTGTGAAAATGGAGTCCTCTCTCACCTGGGAGAGCCAGGTGCTGCCCCGAGAAGGA
+TGCATTTATGGCTTCGTGAAGTCTTTCCTGACCCCCGATGCTGCTGACTATAGAGACAAA
+GTCTCACTATGTTGCTCAGGCTGGTCTTGAACTCCTGGCCTCAAGCGATCCTCCCACCTC
+AGCCTCCCAAAGTGTTGGGATTATAGACATGAGCCACTGCACCTGGCCGACCTTGGGCAA
+GTTCTTAAACCCTTCAAAGCCTCATTTTTCTCCAATCACAAAAGGGAAAGATGGTAATAT
+TTTCCCCACCAAATTCTTGTAAGTATTAAACATTGTATATGTATTTTGAA
+>ENST00000606857.1|ENSG00000268020.3|OTTHUMG00000185779.1|OTTHUMT00000471235.1|AL627309.6-201|AL627309.6|840|unprocessed_pseudogene|
+GCGGTATCTAAATTTGTATTGATTGGACTTTCAAGCTCTTGGGAGATGCATCTTTTTCTT
+TTTTGGTTCTTCTCTGTGTTCTACATGGGAATTATCCTGGAAAATCTCTTCATTGTGTTC
+ACAGTAATTATTGACTCTCATTTAAATTCCCCAGGTACTGCCTACTGGCCAACATTTATC
+TTCTTGATCTGGGTCTTCTCCTACAGTTCTGACTTTTTCACTAACTGCAGCATCATTTCT
+TTTCCAAGATGCATCATACAGATATTTTTCATTTGTGTCATGCGTAAAAATTGAGATGGT
+GCTGCTCATAACCATGGCATAGAGCAGGTACACTGCCAATCTGTAAGCCTCCCCATTACC
+TGACCACAATGAACCCCAAAATGTGTGTTTCCTTTGTTGGAGGCATCCTGGATAGTCAGG
+ATAATCCATGCTGTATCTCAGTTTGTTTTTGCCATAAACTTGCCTTTTTGTGGCCCTAAT
+AGAGTAGGTAGTTTTCACTGTGATTTTCCTTATGTCATGAAACTTGCTTGTGTAGACACT
+TACAAACTAGAGGTTGTAGTCACTGCTAACAGTGGGCTTATATCCATAGCTACCTGTTTC
+TTATTAATAATATCCTATATTTTCATTTCGGTAACCGTCTAGAATCCTTCTTCAGGAGAC
+TTATCTAAAGCATTTGTGTCATGTTAGATCACATCACAGTAGGGATTTTGTTTTTTATGC
+CATGTATATTTCTGTATGTGTAGCCTTTGCCTAAAACAACACATGATTAATATTTGTTCA
+TTGTTCCTTTTGCTATCACCCCTGTCTAGGATCTACACATTAAGAAACAAAGACATGAAC
+>ENST00000642116.1|ENSG00000240361.2|OTTHUMG00000001095.3|OTTHUMT00000492680.1|OR4G11P-202|OR4G11P|1414|processed_transcript|
+AGCTATCTGAATTTCTCCTTCTCCTAAAAATGCACATCCTATGACTGAAAAGACAGGAAA
+GATGACAAACTCTATGGAAACTTGGCTTCTGAAGAACTCCTAGAAGCTTTCCAAAGTCAT
+CAGTGTTTCCTAAGAAGGCAGAGAAATCAAACACATGGTCTTTTCCTCCAGACAAGCTCC
+TTTGGGTCATCAGGATTTCTTCAACAATAAAATGTTGCTTCAGAGTCTTCCCTTCTATCT
+GATTCAGTGGACCAAGTAAATGACTCTCTGGTAACAGAATTTGTATTACTTGGACTTGCA
+CAATCCTTGGAAATGCAGTTTTTCCTTTTTCTCTTCTTCTCTTTATTCTATGTGGGAATT
+ATCCTGGGAAAACTCTTCATTGTGTTCACAGTGATCTTTGATCCTCACTTACACTCCCCC
+ATGTATATTCTGCTGGCCAACCTATCGCTCATTGACTTGAGCCTTTCATCTACCACAGTT
+CCTAGGTTGATCTACGATCTTTTTACTGATTGTAAAGTTATTTCCTTCCATAATTGCATG
+ATACAAAAGTTCTTTATCCATGTTATGGGAGGAGTTGAAATGGTGCTGCTGATAGTCATG
+GCATATGATAGGTACACTGCGATCTGCAAGCCTCTCCACTATCCAACTATTATGAATCCC
+AAAATGTGCATGTTTTTGGTAGCAGCAGCTTGGGTCATTGGGGTGATTCATGCTATGTCT
+CAGTTTGTTTTTGTCATAAATTTACCCTTCTGTGGCCCTAATAATGTGGGGAGCTTTTAT
+TGTGATTTTCCTCGGGTTATTAAACTTGCATGCATGGACACTTATGGGCTAGAATTTGTG
+GTCACTGCCAACAGTGGATTCATATCGATGGGCACCTTCTTTTTCTTAATTGTATCATAC
+ATTTTTATTCTGGTCACTGTCCAACGACATTCCTCAAATGATTTATCCAAAGCATTCTTC
+ACTTCGTCGGCTCACATCACCGTAGTGGTTTTGTTTTTTGCTCCATGCATGTTTCTCTAC
+GTGTGGCCTTTCCCTACTAAGTCATTGGATAAATTTTTTGCCATCATGAACTTTGTTGTC
+ACCCCTGTCGTAAATCCTGCCATCTATACTTTAAGGAACAAAGATATGAAGTTTGCAATG
+AGAAGGCTGAATCAACATATTTTAAATTCTATGGAGACGACATAACACATTTGGTTGATG
+AGAGCACAGGATAAATGCCATGGACCATCAAGACTCCTGTGATCACCATGATCACTATGG
+AACGCGCACATTTTTAGTATTGCCTGAAAAAACTGAAAAATCTGCAAAAAGGATGCATTA
+AATCTAAGAATTGTATTTCAGATAAAGTTGCAACATTTTTTGTTAATCATAAAAAGTATA
+TATTTCTATCTAATGTGTGTATCTAATTAACAGC
+>ENST00000492842.2|ENSG00000240361.2|OTTHUMG00000001095.3|OTTHUMT00000003224.3|OR4G11P-201|OR4G11P|939|transcribed_unprocessed_pseudogene|
+GTGGACCAAGTAAATGACTCTCTGGTAACAGAATTTGTATTACTTGGACTTGCACAATCC
+TTGGAAATGCAGTTTTTCCTTTTTCTCTTCTTCTCTTTATTCTATGTGGGAATTATCCTG
+GGAAAACTCTTCATTGTGTTCACAGTGATCTTTGATCCTCACTTACACTCCCCCATGTAT
+ATTCTGCTGGCCAACCTATCGCTCATTGACTTGAGCCTTTCATCTACCACAGTTCCTAGG
+TTGATCTACGATCTTTTTACTGATTGTAAAGTTATTTCCTTCCATAATTGCATGATACAA
+AAGTTCTTTATCCATGTTATGGGAGGAGTTGAAATGGTGCTGCTGATAGTCATGGCATAT
+GATAGGTACACTGCGATCTGCAAGCCTCTCCACTATCCAACTATTATGAATCCCAAAATG
+TGCATGTTTTTGGTAGCAGCAGCTTGGGTCATTGGGGTGATTCATGCTATGTCTCAGTTT
+GTTTTTGTCATAAATTTACCCTTCTGTGGCCCTAATAATGTGGGGAGCTTTTATTGTGAT
+TTTCCTCGGGTTATTAAACTTGCATGCATGGACACTTATGGGCTAGAATTTGTGGTCACT
+GCCAACAGTGGATTCATATCGATGGGCACCTTCTTTTTCTTAATTGTATCATACATTTTT
+ATTCTGGTCACTGTCCAACGACATTCCTCAAATGATTTATCCAAAGCATTCTTCACTTCG
+TCGGCTCACATCACCGTAGTGGTTTTGTTTTTTGCTCCATGCATGTTTCTCTACGTGTGG
+CCTTTCCCTACTAAGTCATTGGATAAATTTTTTGCCATCATGAACTTTGTTGTCACCCCT
+GTCGTAAATCCTGCCATCTATACTTTAAGGAACAAAGATATGAAGTTTGCAATGAGAAGG
+CTGAATCAACATATTTTAAATTCTATGGAGACGACATAA
+>ENST00000641515.1|ENSG00000186092.5|OTTHUMG00000001094.3|OTTHUMT00000003223.3|OR4F5-202|OR4F5|2618|protein_coding|
+CCCAGATCTCTTCAGTTTTTATGCCTCATTCTGTGAAAATTGCTGTAGTCTCTTCCAGTT
+ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGAAACGAATAAC
+TCTATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGAACTCCAGACCTTC
+CTATTTATGTTGTTTTTTGTATTCTATGGAGGAATCGTGTTTGGAAACCTTCTTATTGTC
+ATAACAGTGGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTC
+TCACTCATTGATCTGTCTCTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTC
+AGCCAGCGCAAAGTCATCTCTTTCAAGGGCTGCCTTGTTCAGATATTTCTCCTTCACTTC
+TTTGGTGGGAGTGAGATGGTGATCCTCATAGCCATGGGCTTTGACAGATATATAGCAATA
+TGCAAGCCCCTACACTACACTACAATTATGTGTGGCAACGCATGTGTCGGCATTATGGCT
+GTCACATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCGTTTGCCGTGCACTTA
+CTCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAA
+CTTGCCTGTACAGATACCTACAGGCTAGATATTATGGTCATTGCTAACAGTGGTGTGCTC
+ACTGTGTGTTCTTTTGTTCTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAG
+CATCGCCCTTTAGATAAGTCGTCCAAAGCTCTGTCCACTTTGACTGCTCACATTACAGTA
+GTTCTTTTGTTCTTTGGACCATGTGTCTTTATTTATGCCTGGCCATTCCCCATCAAGTCA
+TTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTGAACCCAATTATA
+TACACACTGAGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATGCA
+CATTCTAGTGTAAAGTTTTAGATCTTATATAACTGTGAGATTAATCTCAGATAATGACAC
+AAAATATAGTGAAGTTGGTAAGTTATTTAGTAAAGCTCATGAAAATTGTGCCCTCCATTC
+CCATATAATTTAGTAATTGTCTAGGAACTTCCACATACATTGCCTCAATTTATCTTTCAA
+CAACTTGTGTGTTATATTTTGGAATACAGATACAAAGTTATTATGCTTTCAAAATATTCT
+TTTGCTAATTCTTAGAACAAAGAAAGGCATAAATATATTAGTATTTGTGTACACCTGTTC
+CTTCCTGTGTGACCCTAAGTTTAGTAGAAGAAAGGAGAGAAAATATAGCCTAGCTTATAA
+ATTTAAAAAAAAATTTATTTGGTCCATTTTGTGAAAAACATAAAAAAAGAACTGTCACAT
+CTTAATTTAAAAAATATATGCTTAGTGGTAAGGAGATATATGTCAACTTTTAAGAGGTTG
+AAAAACAAACGCCTCCCATTATAAGTTTATACTTCACCTCCCACCACTATAACAACCCAG
+AATCCATGAGGGCATTATCAGGAGTGAGTGGAAGAGTAAGTTTGCCAATGTGAAATGTGC
+CTTCTAGGTCCTAGACGTCTGTGGTATAACTGCTCATAAGCAGTAGAAAGAATTTAGAGG
+GATCCAGGCTCTCATCACGTTGGCACAAAGTATATTACTTGGATCCATCTATGTCATTTT
+CCATGGTTAATGTTTAAAAGCACAGGCTTTAAAGTAAAAAACAAAGAGCTGGATTCAACT
+CTACTGACTCTTATTAATCATGATTTTGGGCACATTACGTAGCTTTCATGAGCTTTAGTT
+TCTACATTTATAAACAGGAGATTATACCTATTATGCATGGTTATTATGAAGGAAAATGAC
+AAAATAGATATAAATCAAATAGCCCACTTCGAGACATATTAAGCATGAATAAACATTAGA
+TACTATTAAAATCCTATATATTAACAAAGCCAAAAGTTTCAAACTTTACTTTTTCCCAAC
+ATTCTTGTGAAATATGACACATCCCAATCTTAACAGATGCTCATTTGGGATACTGTACTT
+GTGAGTGGAAGTGTGTATATTTGTGTGCAAGTGTGTACTCATATACTTCCACCTTACCAC
+CCTAGAAAGGCATGATGAAAATTTAAGATAGAAGGAAAATATAAATTGAAAAAAAAAAAC
+CTTAACAAATGATTCTGACAAATATCTTCTCTTTCCAGGGAGAATCACTGAGCCAGAATA
+AAATTGAACACTAAATATTCTAAGAAAAAAGGAATCTAGTTTGTCAAAATGTGACTTGAA
+TTAATAGATAAGGAGAGTCAGATGATAAGAGGGTCAAAATTATGTTTATCTTAGGAAAAG
+TAGAATAGAAAATTTATAAGCAGATTAAAAACACATAATAAAAGTAGTAAATAATAATGA
+CAGTATCTCAAATCAGTGCAGGGGGGAAAGGCCTACTAATGTGATGGTGGGATAATTGGA
+TAGCAATATGGGAAAAGATATATTTAATTTATTTGCTACACCAAATGCCAGGACAATCTC
+TAAGTGAATTCAAGACATAACTCTTTTTTCAAAAAAAC
+>ENST00000335137.4|ENSG00000186092.5|OTTHUMG00000001094.3|-|OR4F5-201|OR4F5|1054|protein_coding|
+TCCTGGAATGAATCAACGAGTGAAACGAATAACTCTATGGTGACTGAATTCATTTTTCTG
+GGTCTCTCTGATTCTCAGGAACTCCAGACCTTCCTATTTATGTTGTTTTTTGTATTCTAT
+GGAGGAATCGTGTTTGGAAACCTTCTTATTGTCATAACAGTGGTATCTGACTCCCACCTT
+CACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCTCTGTCTTCA
+GTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAG
+GGCTGCCTTGTTCAGATATTTCTCCTTCACTTCTTTGGTGGGAGTGAGATGGTGATCCTC
+ATAGCCATGGGCTTTGACAGATATATAGCAATATGCAAGCCCCTACACTACACTACAATT
+ATGTGTGGCAACGCATGTGTCGGCATTATGGCTGTCACATGGGGAATTGGCTTTCTCCAT
+TCGGTGAGCCAGTTGGCGTTTGCCGTGCACTTACTCTTCTGTGGTCCCAATGAGGTCGAT
+AGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTGTACAGATACCTACAGGCTA
+GATATTATGGTCATTGCTAACAGTGGTGTGCTCACTGTGTGTTCTTTTGTTCTTCTAATC
+ATCTCATACACTATCATCCTAATGACCATCCAGCATCGCCCTTTAGATAAGTCGTCCAAA
+GCTCTGTCCACTTTGACTGCTCACATTACAGTAGTTCTTTTGTTCTTTGGACCATGTGTC
+TTTATTTATGCCTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTAT
+TCTGTGATCACCCCTCTCTTGAACCCAATTATATACACACTGAGGAACAAAGACATGAAG
+ACGGCAATAAGACAGCTGAGAAAATGGGATGCACATTCTAGTGTAAAGTTTTAGATCTTA
+TATAACTGTGAGATTAATCTCAGATAATGACACAAAATATAGTGAAGTTGGTAAGTTATT
+TAGTAAAGCTCATGAAAATTGTGCCCTCCATTCC
+>ENST00000466430.5|ENSG00000238009.6|OTTHUMG00000001096.2|OTTHUMT00000003225.1|AL627309.1-201|AL627309.1|2748|lincRNA|
+CTGATCCATATGAATTCCTCTTATTAAGAAAAATAAAGCATCCAGGATTCAATGAAGAAC
+TGACTATCACCTTGTTAATCATTCAGAAACATGTTGCAGGCTTAAGCCATTTTTGATATA
+GATACTGAAACAATTACTTGCTAAGAGCAAACTTGAAGTAACAATTTGGACAAGACAGCA
+AATGCTATTGTCCAAGTTTTCTAAAGAAGAATCTGAAGTGAAATGACATCAAGAGACCTA
+TCAAGACCTGTATCCAGGAAAAGACCAAACCAATGCAGACCAAACCAATGCAGAACTCCT
+ATGTGCTGATGGTGGTCTTACATTTCCCTAAGTTTCTGCCGACTAAACTGTGCACACGTT
+CTCAGGACCTCCTGAAGCTGCGTCACAGGCACTAATCAAAGAACACAACCAAGAGTTTGG
+CCTTTTCTTCAGCACTGGGAATTGTGATCCAAAGCTTTTCCCGATGAAGCACAAAGTTGG
+AGAAAAAAAAACGCAAACTAAACAACCACAATGAAACAGAACAGAGTTAATCTGCTGTAG
+CTCAAGAGAGGATGTACCTGCCCCCACCCCGCATCCCTGGGCTCGGGTTTGCCTTGCTGA
+CCTCTGCTGCCACCTGGTGCCACACAGAGAAACTGAGGAGAAACCACATCAGTCTCCTTC
+AGCCTCAGCTTCACATCTGTGGGTCAAGCAACCCTTTCAGAAGCTGTATAATGTGGGAAA
+GCTTTCCTCTCAGGAAAATGCACACATCCAACTTTGAGAAGATGCCCTTGGGGGCGCTTC
+AAGGATTCTAGATAATAACCCCCTTTCCCGAACATCCAAGAACCTAAGATTTTTTTTTTT
+TTGAGAAAGTCTCGCTCTCTCTCCCAGTCTGGAGTGCAGTGGCGTGATCTTGGCTCACTG
+CCAGCTCCACCTCCCAGGTTCACGCCATTCTCCTGCTTCAGCCTCCCAAGTAGCTGGGGC
+TACAGGCACCTGCCACCAAACCCGGCTAATTTTTTTGTATTTTTAGTAGAGACGGGGTTT
+CACCGTGTTAGCCAGGATCGTCTTGATCTCCTGACCTTGTGATCCACCCGCCTCGGCCTC
+CCAAATTGCTGGGATTACAGATGTGAGCCACCGCACCTGGTCCAAGAACCCAAGTTTTAG
+ATCTAGAGTGATGTCAGCATGACATTGATTTCCTGAGGCCCAGGGGCGAAGGAGCTGAGG
+ACAGCAGAGGGGTGAAGGAACTCAGCTACAGACAGCAGCAGCTGATGCACAGGCCTCCCA
+GCGCCTGAAGTCACCCGGAATTGGGAAGTGCTCAGAAGCTTACAAAGCTGCCTCGAGGTG
+GGAACATGACATAAATCCAAGAGCAGATCCCTGATCCTATAAAAATGTACTAGATGCAGT
+GGGGGCATTTTAAATGAGCAGAGAAGGACAGACAGATAAACAGAAGGACAAACAGTATTG
+GGATTGGGATAAATGCTCAGCTTTTGCCCAAATCTTAGTGACTTAAGCATCACTTATTTG
+CTCACGATTCTGTGGCTGGACCATTTGGTTTGGCTCACAGGGCAGGGACTGTGCTGGTCT
+TACCTGAGCAGACCTGCATGTCTGCGGTCAACTGGGTTGGCAGAGACAGAGTGACTGTCT
+TCCTCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACAGAGGGACTGTCTT
+CCTCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACAGAGGGACTGTCTTC
+CTCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACTGAGGGACTGTCTTCC
+TCCATGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACTGAGGGACTGTCTTCCT
+CCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACTGAGGGACTGTCTTCCTC
+CAGGAAGCAGCAGGTTAACTGATTGGCAGAGACAGAGGGACTGAGGGACTGTCTCCCCCC
+AGGAAGCAGCAGGTTGGCTCTGTTTCCTTCGTGGGGCAGCTGGTCTCCAGGGCAGCAAGA
+GAGACCAAGCCCCAGTGCACATTCTACAGCCTCTGTGCACATCAGACTTGTTAATATCCC
+ATTGGCCAGTGTAAGTCACTTGGCCAAGCCCAGATTAAGGAGTGGAAAGATGGAGGCTAT
+CTCCTCCTGGGAGAGGAGGCAAAGGAGGTGGGAGTATTATGTGGCCACTTATGTTTGCAA
+TCTACCATACTTAGCACTTTGAGAAAAGAATTAACTGAGAAACTTGCTTCAAATAGGGCC
+AGTAAAATGAAGCCCCAATTGAAGTAAAATGCATATATAAAAAATGAAACTGTGACCGAT
+TTTAAGGACAGTATTGGCAAATATTTCTGTGCTCTTGGAGGAGAAGACCCTTATTGGCAT
+GACATGTCAGAAACCACAATGAAAGAATTATTTTAACTTGCATTCATAAAAATTAAAATT
+ATTCATTAAAAACATCGTGAATGAAATTAAAAGTCAAAATGTAAGCCAGAAAATTATTTA
+CAACGTATGTGTCAGGAAAAGACAATACCCTTCAAACTTTGAGAGTTTACATCAGAAAGA
+AAACAGCAAATGACATGATCCAAACTTGATAAAGGACATGAAAAAGAGCCAGCACTTAGT
+ATGTTTTCTGAATGAATAAGTAGCCAACAGCACATGAAAATGCGTGTAATCCATTTGTAA
+GCAGAGAAATGCAAACTAAAACAGTAAAGTGTCATTTTCACTTCCTGG
+>ENST00000477740.5|ENSG00000238009.6|OTTHUMG00000001096.2|OTTHUMT00000003688.1|AL627309.1-202|AL627309.1|491|lincRNA|
+GACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAGCTCGAGGAAGAG
+AAAAAAAAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCTGCCTCTGAAGCA
+CTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCCTGATCCATATGAATTC
+CTCTTATTAAGAAAAATAAAGCATCCAGGATTCAATGAAGAACTGACTATCACCTTGTTA
+ATCATTCAGAAACATGTTGCAGGCTTAAGCCATTTTTGATATAGATACTGAAACAATTAC
+TTGCTAAGAGCAAACTTGAAGGTATGGATAAGGCCCTGAGTCATCTTCCTGAGCTGAATG
+ATAGTTAAGCTGAATTAACAATTTGGACAAGACAGCAAATGCTATTGTCCAAGTTTTCTA
+AAGAAGAATCTGAAGTGAAATGACATCAAGAGACCTATCAAGACCTGTATCCAGGAAAAG
+ACCAAACCAAT
+>ENST00000471248.1|ENSG00000238009.6|OTTHUMG00000001096.2|OTTHUMT00000003687.1|AL627309.1-203|AL627309.1|629|lincRNA|
+GAAGCTCGAGGAAGAGAAAAAAAAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAA
+AGCTGCCTCTGAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCT
+AACAATTTGGACAAGACAGCAAATGCTATTGTCCAAGTTTTCTAAAGAAGAATCTGAAGT
+GAAATGACATCAAGAGACCTATCAAGACCTGTATCCAGGAAAAGAGTCTTGCTCTTGTTG
+CCCAGGCTGGAGTGCAATGGCATGATTTTGGCTCACTGTAAACTCCACCTCCTGGGTTCA
+AGCGATTCTCCTGCCTCAGCCTCCCTAGTAGCTGGTATTACAGGTGCCTGCCACCACACC
+CAGCTAATTTTTGTATTTTTAGTAGAGATGGGGGTTTCACCATGTTGGCCAGCCTGGTCC
+CGAACTCCTGACCTTAGGTGATCCACCAGCATCGGCCTCCCAAAGTGCTGGGATTACAGG
+TGTGAGCCACTGTGTCCAGCCAGTGGTGGGTCTCATATCTCAATGTGGACTTTTACTAAC
+TCCCAATGCCTCAGTTTCCTCATCAGTTGAAAGGAATGAATGAAAGATATGTGTTTTTCA
+TATTACCAGGTAGATGATAAGGAGATTTT
+>ENST00000610542.1|ENSG00000238009.6|OTTHUMG00000001096.2|-|AL627309.1-205|AL627309.1|723|lincRNA|
+TGCACACATCTTCTTCTCCAAGGTTTGTGTGCAGAACATCCTGCCCATGCTGCCCCAGCA
+GCTTCAGTTGGCACCTGCCTCAGTCCAGCCTCTGGGAACCATGCAGCAGCTCCCAGCGGC
+CCTGCACCCACCACCAGCATCCGTTTCACCTGCAGTTGAAGATCCGTGAGGTGCCCAGAA
+GATCATGCAGTCATCAGTCCCACGGAGCAGCCTGCGAGGCTGAGGCTCCTCCCACTGGAC
+CGCCCCCCAACTGGCACCACTGCTGCCCCTGCCCCTACTCTCAGCCTCACGTGACTCTCG
+GGCAGAAGCACTGGTGGGGCAGCCAGGGCAGCGTCAAGAGTCTGAGCCAGCTGCAGGACA
+AGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAGCTCGAGGAAGAGAAAA
+AAAAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCTGCCTCTGAAGCACTGC
+AGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCCTGATCCATATGAATTCCTCT
+TATTAAGAAAAATAAAGCATCCAGGATTCAATGAAGAACTATCACCTTGTTAATCATTCA
+GAAACATGTTGCAGGCTTAAGCCATTTTTGATATAGATACTGAAACAATTACTTGCTAAG
+AGCAAACTTGAAGGTATGGATAAGGCCCTGAGTCATCTTCCTGAGCTGAATGATAGTTAA
+GCT
+>ENST00000453576.2|ENSG00000238009.6|OTTHUMG00000001096.2|OTTHUMT00000003689.1|AL627309.1-204|AL627309.1|336|lincRNA|
+GAAGATCCGTGAGGTGCCCAGAAGATCATGCAGTCATCAGTCCCACGGAGCAGCCTGCGA
+GGCTGAGGCTCCTCCCACTGGACCGCCCCCCAACTGGCACCACTGCTGCCCCTGCCCCTA
+CTCTCAGCCTCACGTGACTCTCGGGCAGAAGCACTGGTGGGGCAGCCAGGGCAGCGTCAA
+GAGTCTGAGCCAGCTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGAT
+AAGGAAGCTCGAGGAAGAGAAAAAAAAACTGGAAGGAGAAATCATAGATTTTTATAAAAT
+GAAAGCTGCCTCTGAAGCACTGCAGACTCAGCTGAG
+>ENST00000495576.1|ENSG00000239945.1|OTTHUMG00000001097.2|OTTHUMT00000003226.2|AL627309.3-201|AL627309.3|1319|lincRNA|
+TCAGCCTCCCAAGTAGCTGGGGCTACAGGCACCTGCCACCAAACCCGGCTAATTTTTTTG
+TATTTTTAGTAGAGACGGGGTTTCACCGTGTTAGCCAGGATCGTCTTGATCTCCTGACCT
+TGTGATCCACCCGCCTCGGCCTCCCAAATTGCTGGGATTACAGATGTGAGCCACCGCACC
+TGGTCCAAGAACCCAAGTTTTAGATCTAGAGTGATGTCAGCATGACATTGATTTCCTGAG
+GCCCAGGGGCGAAGGAGCTGAGGACAGCAGAGGGGTGAAGGAACTCAGCTACAGACAGCA
+GCAGCTGATGCACAGGCCTCCCAGCGCCTGAAGTCACCCGGAATTGGGAAGTGCTCAGAA
+GCTTACAAAGCTGCCTCGAGGTGGGAACATGACATAAATCCAAGAGCAGATCCCTGATCC
+TATAAAAATGTACTAGATGCAGTGGGGGCATTTTAAATGAGCAGAGAAGGACAGACAGAT
+AAACAGAAGGACAAACAGTATTGGGATTGGGATAAATGCTCAGCTTTTGCCCAAATCTTA
+GTGACTTAAGCATCACTTATTTGCTCACGATTCTGTGGCTGGACCATTTGGTTTGGCTCA
+CAGGGCAGGGACTGTGCTGGTCTTACCTGAGCAGACCTGCATGTCTGCGGTCAACTGGGT
+TGGCAGAGACAGAGTGACTGTCTTCCTCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGA
+CAGAGGGACAGAGGGACTGTCTTCCTCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGAC
+AGAGGGACAGAGGGACTGTCTTCCTCCAGGAAGCAGCAGGTTGGCTCTGTTTCCTTCGTG
+GGGCAGCTGGTCTCCAGGGCAGCAAGAGAGACCAAGCCCCAGTGCACATTCTACAGCCTC
+TGTGCACATCAGACTTGTTAATATCCCATTGGCCAGTGTAAGTCACTTGGCCAAGCCCAG
+ATTAAGGAGTGGAAAGATGGAGGCTATCTCCTCCTGGGAGAGGAGGCAAAGGAGGTGGGA
+GTATTATGTGGCCACTTATGTTTGCAATCTACCATACTTAGCACTTTGAGAAAAGAATTA
+ACTGAGAAACTTGCTTCAAATAGGGCCAGTAAAATGAAGCCCCAATTGAAGTAAAATGCA
+TATATAAAAAATGAAACTGTGACCGATTTTAAGGACAGTATTGGCAAATATTTCTGTGCT
+CTTGGAGGAGAAGACCCTTATTGGCATGACATGTCAGAAACCACAATGAAAGAATTATTT
+TAACTTGCATTCATAAAAATTAAAATTATTCATTAAAAACATCGTGAATGAAATTAAAA
+>ENST00000442987.3|ENSG00000233750.3|OTTHUMG00000001257.3|OTTHUMT00000003691.3|CICP27-201|CICP27|3812|processed_pseudogene|
+CCCCTTCTCTGGGCCCAAGCCACCTTGGCTGAGGAGGGGGCGAGGAGGTGTGAGCCCCTG
+CCAGGAACCCCCTGCCCGGACCAAGTGCTCGGCCCCCAGGCCTGCGTTCAGTGAGGCCTC
+CCGTGGCGTCAGCATGTTCGTGTGGAGGAATGTGGAAGGTCACTCTGCGGCCGTGTTCTC
+CTGGTACTCCATCCCCTTCCTGACCCCTCCCTGCAGCCACACGAGGCCCAGCAACCTGCC
+AGTCACTCAGTGGCCTCCAACCAGAGAAAACAACCTGCCAAGTTGGCAGCTGTTGCTCAT
+GAGCGTCCACCAGGTGGGACAGGGAGTGTTGACCCTGGGCGGCCCCCTGGAGCCACCTGC
+CCTGAAAGCCCAGGGCCCGCAACCCCACACACTTTGGGGTTGGTGGAACCTGGTAAAAGC
+TCACCTCCCACCATGGAGGAGGAGCCCTGGGCCCCTCAGGGGAGTCCCTGCTGGACAGTG
+AGACAGAGAATGACCATGATGATGCTTTCCTCTCCATCATGTCTCCTGACACCCAGTTGC
+CTCTACCACTCAGATGATGTCAGGCCCAGTCCCTCAGTGCCCTGCGCAAGGAACAGGACT
+CATCTTCTGAGAAGGATGGACGCAGCCCCAACAAATCAGACAAGGACCACATCCGGTGGC
+CCATGAGTGGCGCTCATGATCTTCAGCAGGCGGCACCAGGCCCTGGCGGGGCGCACCAGG
+GTCACCCCAACCAGGATAACCGGACCGTCAGCCAGATGCTGAGCGAGCGGTGGTACACCC
+TGGGGCCCAATGAGATGCAGAAATACAACCTGGCCTTCCAGGTGAAGGTGGCCCACTTGC
+AACAAGGACCGAAAGAAGTCCAGCTCAGAGGCCAAGCCCACAAGCCAGGGGCTAGCAGGA
+GTGTAACAAGGGCTCGTGGGAGCGGAGCATATCAGAGACGGGCACTGCCACTGCCCCTGG
+GGTGTCCTCTGAACTCCTGTCAGTTGCAGCCCAAACACTCCAGAGCTCGGATACCAAGGA
+GCAGCTTCTGTGGGGCAGAACGGCTGCACACAGTCAGGGAACCTGGCTCAGCCTGGCCCA
+AGCCTTCTCCCACAGCGGGGTACACAGCCTGGACGGCAGGGAAATAGACCGTCAGGCACT
+ACGGGAACTGACACAGGTGGTGTCTGGCACTGCATCATACTCTGGCCCAAAGCCTTCTAC
+TCAGCATGGAGCTCCAGGCCACTTTGCAGCCCCTGGTGAGGGAGGTGACCCGTGGGCAGC
+CCTGCTGCCGCCCACGTGAGCTGCTCATTCCCAGCACATGGCCAGCGAGGTCATAGCGAG
+TGACGAAGAGCACACGGTCATCCATGAGGAGGAGGGGGTGATGATGTCATTGCTGATGAT
+GGCTTTAGCACCACCGACACCGATCTCAAGTTCAAGGAGTGGGTGACCGACTGAGAGTGG
+GGACAACTCTGGGGAGGAGCCAGAGGGCAACAAGGGCTTTGGTGGGAAGGTATTTGCACC
+TGTCATTCCTTCCTCCTTTACTCCTGCCGCCCCTTGCTGGATCCTGAGCCCCCAGGGTCC
+CCCGATCCACCTGCAGCTTTTGGCAGTCTATGGTCACACCCTGTCCTCCTCCTACACATA
+CTCGGATGCTTCCTCCTCAACCTTGGCACCCACCTCCTTCTTACTGGGCCCAGGAGCCTT
+CAAAGCCCAGGAGTCTGGTCAACGCAGCAGAGCGGGCCCCCTACGGCCCCAACCCCTGGG
+GATGGGGGCCCAGGGACGCCTTCCAAGGTGGCCTGTTTCCTCCCAATGGATCCTGCCACC
+TTCTGGTGCAAGAGACCTGAAAGTGTGGGCGACCTGGAGCTACCAGGCTCCTCAGTCATC
+AGGGTCCCTCCCAACACTAAGGCTTTCCTAGGCAGGAGCTGGGCTGAGCCACCCGGGGGG
+CAGAGCCTGAAGAGAAACTGACTGGGCTTTCGGGGTCGGGGCAGAGGGAACCCCACGGAC
+ATGGACCCCACACTGGAGGACCCCACCGCGCCCAAATGCAAGATGAGAAGATGCTCCAGC
+TGCAGTCCAAAGCCCAACACCCCCAAGTGTGCCATGTGTGATGGGGACAGCTTCCCCTTT
+GCCTGTACAGGTGGAGAAGCCGAGGACAGGCTCAGGGAACCGGAGACCAAGAAGGCGCTG
+TCCTCTTCACTGCATGTACCCTGGACCAGTGCCGGCCCTGATCATGCAGCTCTTCCAGGC
+CCACTGCTTCTTCCTGTCCACTAGGCCACAGCCGCCCTCCAGGCCCACTATGCACACATC
+TTCCCCTCCAAGGTTTGTTCTGCCCCTGCCCTGACTCCCAGCCCTGTGGGGGTCCTGACC
+GCACCTCACCTGGCTCAGACTCTTGACGCTGCCCTGGCTGCCCCACCAGTGCTTCTGCCC
+GAGAGTCACGTGAGGCTGAGAGTAGGGGCAGGGGCAGCAGTGGTGCCAGTTGGGGGGCGG
+TCCAGTGGGAGGAGCCTCAGCCTCGCAGGCTGCTCCGTGGGACTGATGACTGCATGATCT
+TCTGGGCACCTCACGGATCTTCAACTGCAGGTGAAACGGATGCTGGTGGTGGGTGCAGGG
+CCGCTGGGAGCTGCTGCATGGTTCCCAGAGGCTGGACTGAGGCAGGTGCCAACTGAAGCT
+GCTGGGGCAGCATGGGCAGGATGTTCTGCACACAAACCTTGGAGAAGAAGATGTGTGCAT
+AGCAGGTCCACTGCTGCTGCCCCTGCCCTGACTCCCAGCCCTGCCTGACCCCACCTCAAC
+CTGCTCAGGCTCTGGCACAACCCTGGCTGCCCTGCCACTGCCTCTGCCCCAGAGTTGGTG
+CCTTGACAGCCTGGTTGGAAGGGGACACCCCAGCCCTGCCTCAACACCTGGGGGTCTCCA
+TAACTAGCACAGGCAGGTGGGCAACCCCAAAGATCCCAGGACTCACAGTACCCCCTGAGA
+ACATGGACAGTATGTGGGGGTAGCAATGGAGGGCAGGATGGTTATCTTCTCCCAGGTGAA
+GCCATTTAATCCTTTCAGTTTGGGACGGAGTAAGGCCTTCCTTTTTTTTTTTTTTTTTTT
+TTTTTTTTTTGAGACCGAGTCTTGCTCTGTCGCCCAGGCTGGAGTGCAGTGGTGCGATCT
+TGGCTCACTGCAACCTCTTCCCGCTGGGTTCACGCCATTCTCCTGCCTCAGCCTTCCGGG
+TAGCTAGGATTACAGGTGGACGCTACCACGTCCGGCTAATTTTTGTATTTTTAGTACAGA
+CGGGGCTTCATCATCTTGGCCAGGCTGATTTCGATCTCCTGACATCGTGATCTGCCTGCC
+TCCCCCTCCCAAAGTGCTGGGATTACAGGCGTGAGCCACCACGCCTGGCCAAGGCCTGCT
+CCTCTTATCTATACCCCCTACCCCTGCAGCTGTGCCGGGGGAAAGCTGGGCAGTTTCCCT
+CCTCCGAGCCCCTGTACATACCATGAATTGTGGGACCTTCAGAGCTTTTCACTTTTCGGA
+AAATAGCTCCTGCTGGGGCTACAAGATGGAGTGTGAAGAGGGCCTTGGGCCACAGGGAGG
+CGCCTGTGGACTAGGGGGAGTTCATGCACCCCTTCTTTCCCCAGAGGGGCTGGACTCAGG
+TGAGTATGGGGGTGGGGGCTCCTGCACTTCGACACAGGCAGCAGGAGGGTTTTCTCCCCA
+TTCCCTCTGCACTCCCAACTTGAGCTATACTTTTTAAGAAAGTGATTCACCCTGCCTTTG
+CCCCCTTCCCCAGAACAGAACACGTTGATCGTGGGCGATATTTTTCATTGTGCCAAAAAG
+TTGCCATGACCGTCATTAAACCTGTTTAACAC
+>ENST00000494149.2|ENSG00000268903.1|OTTHUMG00000182518.2|OTTHUMT00000461982.2|AL627309.7-201|AL627309.7|755|processed_pseudogene|
+ATGCGGGAGGCAGAGGCCAGGCCTCCTCAAGTTGGCCTCTCAGACCCACTTGCAGCCTCC
+CGGCGCCCCCTCCGGGCCCAGCTCTTCCTCCCGGCTGCATCTCCAGGCCGGACTCTGGCC
+CGACTCCAGGTCCCAACAACGTCTTTGGACTCAGCTCCTGCCCAGCTCCCAGCGGCCCTG
+GTAGGCCCACAACTTCCCTAAGCCAAGCTCCCCAGGCCCAGCTCAGGCCTCGCGGTGGCC
+TCTCCAGGCTCAGCTCCTGGCCCTCCGATGACATCTGCAGGCCCCAAATGGCCTCCGGTC
+GGTGGGCTCCTCTAGGCCCAGCTTGGGCCTCCCGGCGGCCTCCGCAGGCCCAAATCGTCC
+CGAAGTCAGTCTCTCCAGGCTTAGCTCCAGCCTCCCGGCGGCCTCTGCAGGCCCAAGTCG
+TCCTCAAGTCGGCCTGGAAGTGGGCCTGGAAGAGCAGCAAGTCGGCCTCCCTGGGCCCAG
+CTCCGTCCTCTCGACGGCCTCTCCAGGTGCAAAACTTCCTCGAGTCAGCCTCTCCAGGCC
+CAGCTCCTCCTGCCTCCCAGTGGCCTCTTTCGGCCCAGCCCAGCTCATGGCTCTCGGCGG
+CCTTCCCAGGCCCCGCTTTTGACTTTTGGCAGCCTCTTCAGGCGCAGAACTTGATCTCCA
+GTCGGCCTTTGCAGGCCCGGCCTCCTGCGTCTCGAAGGCCTGCACGGGCCCAGCCTCGGC
+CTCGGCCTCACAGCGGACTCTCCACGCCCAGCTAG
+>ENST00000595919.1|ENSG00000269981.1|OTTHUMG00000182738.2|OTTHUMT00000463398.2|AL627309.8-201|AL627309.8|284|processed_pseudogene|
+TCCTCAAGTCGGCCTCTCCAGACCCACTTGCACCCTCCGGGCGTTCTCTCCGGGCCCAGC
+TCTTCTTCCTGGTTGGGTCTCCAGGCCCGATTCCTGCCTCTCAACAACCTCTTTGGACTC
+AGTGCCTACCCATCTCCTGGCGGCCTTGGTCGGTCCACAGCTTCCTCAAGCCAAGCTCCC
+CAGGCCCAGGTCAGGCCTCACGGTGGCCTCTCCAGGATGAGCTCCTGCCCTCCGATGGCA
+TCTCCAGGCCCCAAATGGTCTCCGGTCGGTGGGCTCCTCCACGC
+>ENST00000493797.1|ENSG00000239906.1|OTTHUMG00000002481.1|OTTHUMT00000007038.1|AL627309.2-201|AL627309.2|323|antisense_RNA|
+TTGGTTTCCCAGGGGGCAGTGCTGAGCTCTTTGCCAGTGGGAAATGGGATGCTGGTGATT
+TCCAGTAGGTGACCTCACAGTGACTCAAGCTACCACTTACTGTTGATTGTGACGAAATGC
+CAGCTGAGGCACATGCCTTGGGAGCTAAGTGGTTGCTGCCCTTGACCACTGTGAAGACTG
+GTGTGGGAAGGGTCGTTTTGGATGCACTTGAGCAGGGGTCCCCAACCCCTGAGCCATGGA
+GCCGCAAGGAGCCACACAGCAGGAGGTGGGAACATCCAGTTGCAGGAAAACAAGCTTAAC
+ACGCCCACTGATTCTACATTATG
+>ENST00000484859.1|ENSG00000241860.6|OTTHUMG00000002480.3|OTTHUMT00000007035.1|AL627309.5-201|AL627309.5|4860|antisense_RNA|
+GCCATTTCTTTTTTTTCTTTTTTTTTTTAAGATAAGAGTCTTTCTCTTGTCACCCAGGCT
+GGAGTGCAATGGTGCGATTTTGGCTCACTGCAACCTTCACCTTCTGGGTTCAAGCAATTC
+TCCTGCCTCAGCCTCCCGAGTAGCTGGGATTACAGGTGCCCGCCACCATACCCAGCTAAT
+TTTTGTATTTTTAGTAGAGATGGGATTTCACCATGTTGGCCAGGCTCCTCTGGAGCTCCT
+GACCTCAGGCAATCTGCCTGCCTCAGCCTCCCAAAATTCAAGGAGTACAGATGTGAACAA
+CCACGCCCGGCCTCCATTTCTTTTTTGTAGTCTTTAATAAACAGCTGCTATCATTGCAGA
+CTTGCTGTTTAGGCACTTAGGAATTTTTCACTAGAAGGCATGTAAATAAAGACCATGGGC
+AATTGTAATGAATTTCGCCTTCATTCTTTGACTACATGACTGTCCCCAGAGCTGTAACTT
+TATTGAATTTTTTAGAAGCCATTTAGCTAGCAACTGAGCCTAACCAGCCACTCACTGTCA
+TTATTCAGTGCTCTTTTATTATTGTCTATTTCTCCTCCAACTTGGCTACACTCACAAAGT
+GATAAAAACTTGCATTTGTTTTCTTTCCTTTTCAGAGACAGCGTCTTGCTCTGTTGCTTA
+GGCTACAGTACAGTGACATGATCATGGTTCACTGTAGCCTCAAACTCCTGGGCTCAAGTG
+GTTCTCTCACTTCAGTCTCCCAAGTAGCTGGGACTACAGACATGTGCCACCATGTCCAGC
+TAATTTTTTATCATAGAGACGGGATCTTGCCATGTTGCTCCGACTGGGCTCAAAACTCCT
+GACCTCAAGTGATCCTCCTGCCTCAGCCTCCCAAAGTGCTGGGATTACAGGCAGGCATGA
+CCACCTGTGCCCAGCCCCCTATTATTATTATTTTAAATAATAGCTTTATTAAAATATTCA
+CATACCATTCACTTTATTTATTGAAATCTGCAATTCAGTAGGTTTTAGAATATTCACAGA
+GCTGTGCATCGATCACCACAGTCACTTTTAGAACCTTTCATTACCCTATAGAGAAATCCA
+TACCCCTTAGCCACTACCTCCTACTCTCCCCACCTACCTTTGCCCCCAGCCTTAGGCAAC
+CATTGATTAATTTTTTTGTCACTATAGATTTGCCTAATCTGGACAAATAGAATTGTACAA
+TATGTGATCTTTTGTGGCTTTTTTTCCCTCTTAGCACAGTGTTTTCAAAGTTCCTTTATG
+TCATAGTGTGTATCAATATTTCATTCCTTCTATGGCAGTATTCCATGGTAGAGACACACT
+GCATTTTGTTTATCTGTTCATCAGTTGGTGGATATTTGGGTTGTTTCCATGTATTCCATG
+TATTGGTCATTATGAATAATGCTGCTATGAAGATTGTTGTACAAGTTTTTGTGTGGACAT
+ATATTTTTATTTTTCTGGGATATATGCCTAGGAGTGAAATTGTTGCATTATAGGATGACT
+GTACATTTAGCCTTTTGAGAAACTGCCAGAATGTTTTCTAACGTGGCTATACCAGTTGGG
+TGCAATGGCTCACACCTGTAATCCCAGCTACTCAGGAGGCTCAGCTAGGAGGATGGCTTG
+AGCCCGTGAATTCAAGACCAGCCTGGGCAAGATAGTGAAACCCCGTCTTGATTTTTTAAA
+AATCCAATTAAAATGACAAGAAAAGAAATACCCAAACAAAATGGTTACACAATTTTATGT
+TCCCACCAGTAATGTTTGTGGGTTCCAATTCCTCCACATCTTCACTGACATTTTTTTTTT
+CTAGATAGGGGCTTGCTCTGTCTCTCAGGCCGCAGTGCAATGATGCCATCACAGTTCACT
+GCAGCCGTGACCTCCCAGGCACAAGTGATTCTCTCATCTCAGCCTCCTGGGTAGCTGAAA
+ATTACAGGTGTACGCCACCATGCCTGGCTAATTTTTAGATTTTTCTGTAGTGGTGGGATT
+TTACCATGTTGCCCAGGCTGGTCTCATACTCCTGGCCTCAAGTGATCTGCCCACCTCAGC
+CTCCCTAAGTTCTGGAATTACAGGCTGCCACCATGCCCGGCCTTCACCAACATTTGCCAT
+TATCTGTTTTTTTTTTCTTCCTTTATACCTTAAAGCAGTATAAGAACAAGTGTCTTCAAT
+TATAGGAAACAGTATAATCCCAGGGCTTTGGGAGGCTAAGACAGGAAGATGTCTTGATGC
+CAGGAGTTTTTTTTGTTGTTGTTGTTTTTGTTTTTGTTGTTGTTGTTGTTGTTGACAGTC
+TCGCTCTGTCACCCAGGGTGGAGTGCAGTGATGGGGTCCACTGCAACCTCCACCTCCCAG
+GTTCAAGTGATTCTCCTGCCTCAGCCTCCCGAGTAGGTGAGACTACAGGCACACGCCACT
+ACTGCCCAGCTGATTTTTGTATTTTTGATAGAGTCAGAGTTTCACCGTGTTGGCCAGGCT
+GGTCTCGAACTCCAGACTTCAGGTGATTTGCCTGCCTTAGCTTCCCAAAGTGCTGCGATT
+ACAAGCATGAGCCACCATGCCCAGCCTGATGCCAGGAGTTTTAGACTAGCCTGGGCAACC
+TAGCAAGACCTTGTCTCTACAGAATATTTAAAAATTAGCCAAATGTGGTGGTGCCTGTGT
+ATAGTCTCTCTCCCTCTCTCTTTTTTTTTTCTAACTTTTTGTGACATGGTCTGGCTCTGT
+CACCCAGGCTGAAGTGCAGTGGTGTGATCATGGCTCACTGCAGCCTGAAACTCCTGGGAT
+CAAGTGATCAATCCTCCCACCTCATCCTACCAAGTAGTAGGGACCACAGGTGTGTGCCAC
+CCAGGTCTTGCTATGTTGTCCAGGCTGGTCTTGAGCTCCTGGCCTCAAGCAATCCTCTCA
+CCTTGGCCCCCCACAGTGCAAGGATTACAGGTATGAGCCACCATGCCTGGCCCCTACCCT
+GCCTACTGAGAACCAAAGGAAGGATCCAAATTCTCCTTAGCTCAACTCGAGCCATTTCCT
+GATTGCTTCATCAGCGAGGAGCTGGTTATTGGGCTGTCCAGGCCTCCCAAGCAGCACAGA
+AATGAGGTGAAGGAGTTTTCCTGTTGCTCCACTCTGTAAGGAGTTGGAGGGTGATGTTTA
+CTCGTTTGCAGAGAGAGATGCCTTGTAGGCACCTCAGGATGGAGAGGGCCCTGATTCCAA
+TGTCCTTTTTTTCTTCAGAAACAGGACCTTGCCCTGTCACTCAGGATGGAGTTCAGTGGT
+CCTATCATGGCTCATTATAGCCTCAAACTCCCAGGCTCAAGCAATCCTACCATGTCAGCC
+TTCCCAGTAGCTGGGACTACAGCTGGATCTACCATGAAAGACTTGTGAATCCAGGAAGAG
+AGACTGACTGGGCAACATGTTATTCAGGTACAAAAAGATTTGGACTGTAACTTAAAAATG
+ATCAAATTATGTTTCCCATGCATCAGGTGCAATGGGAAGCTCTTCTGGAGAGTGAGAGAA
+GCTTCCAGTTAAGGTGACATTGAAGCCAAGTCCTGAAAGATGAGGAAGAGTTGTATGAGA
+GTGGGGAGGGAAGGGGGAGGTGGAGGGATGGGGAATGGGCCGGGATGGGATAGCGCAAAC
+TGTCCGGGAAGGGAAACCAGCACTGTACAGACCTGAACAACGAAGATGGCATATTCTGTT
+CAGGGAATGGTGAATTAAGTGTGGCAGGAATGCTTTGTAGACACAGTAATTTGCTTGTAT
+GGAATTTTGCCTGAGAGACCTCATTGCAGTTTCTGATTTTTTGATGTCTTCATCCATCAC
+TGTCCTTGTCAAATAGTTTGGAACAGGTATAATGATCACAATAACCCCAAGCATAATATT
+TCGTTAATTCTCACAGAATCACATGTAGGTGCCACAGTTATCCCCATTTTATGAATGGAG
+TGATGAAAACCTTAGGAATAATGAATGATTTGCGCAGGCTCACCTGGATATTAAGACTGA
+GTCAAATGTTGGGTCTGGTCTGACTTTAATGTTTGCTTTGTTCATGAGCACCACATATTG
+CCTCTCCTATGCAGTTAAGCAGGTAGGTGACAGAAAAGCCCATGTTTGTCTCTACTCACA
+CACTTCCGACTGAATGTACGTATGGAGTTTCTACACCAGATTCTTCAGTGCTCTGGATAT
+TAACTGGGTATCCCATGACTTTATTCTGACACTACCTGGAGTTAGCACAGACCCCACAAG
+TTAGGGGCTCAGTCCCACGAGGCCATCCTCACTTCAGATGACAATGGCAAGTCCTAAGTT
+GTCACCATACTTTTGACCAACCTGTTACCAATCGGGGGTTCCCGTAACTGTCTTCTTGGG
+TTTAATAATTTGCTAGAACAGTTTACGGAACTCAGAAAAACAGTTTATTTTCTTTTTTTC
+TGAGAGAGAGGGTCTTATTTTGTTGCCCAGGCTGGTGTGCAATGGTGCAGTCATAGCTCA
+TTGCAGCCTTGATTGTCTGGGTTCCAGTGGTTCTCCCACCTCAGCCTCCCTAGTAGCTGA
+GACTACATGCCTGCACCACCACATCTGGCTAGTTTCTTTTATTTTTTGTATAGATGGGGT
+CTTGTTGTGTTGGCCAGGCTGGCCACAAATTCCTGGTCTCAAGTGATCCTCCCACCTCAG
+CCTCTGAAAGTGCTGGGATTACAGATGTGAGCCACCACATCTGGCCAGTTCATTTCCTAT
+TACTGGTTCATTGTGAAGGATACATCTCAGAAACAGTCAATGAAAGAGACGTGCATGCTG
+GATGCAGTGGCTCATGCCTGTAATCTCAGCACTTTGGGAGGCCAAGGTGGGAGGATCGCT
+TAAACTCAGGAGTTTGAGACCAGCCTGGGCAACATGGTGAAAACCTGTCTCTATAAAAAA
+>ENST00000490997.5|ENSG00000241860.6|OTTHUMG00000002480.3|OTTHUMT00000007036.1|AL627309.5-202|AL627309.5|518|antisense_RNA|
+CTCACCTTGGCCCCCCACAGTGCAAGGATTACAGGTATGAGCCACCATGCCTGGCCCCTA
+CCCTGCCTACTGAGAACCAAAGGAAGGATCCAAATTCTCCTTAGCTCAACTCGAGCCATT
+TCCTGATTGCTTCATCAGCGAGGAGCTGGTTATTGGGCTGTCCAGGCCTCCCAAGCAGCA
+CAGAAATGAGAAACAGGACCTTGCCCTGTCACTCAGGATGGAGTTCAGTGGTCCTATCAT
+GGCTCATTATAGCCTCAAACTCCCAGGCTCAAGCAATCCTACCATGTCAGCCTTCCCAGT
+AGCTGGGACTACAGCTGGATCTACCATGAAAGACTTGTGAATCCAGGAAGAGAGACTGAC
+TGGGCAACATGTTATTCAGGTACAAAAAGATTTGGACTGTAACTTAAAAATGATCAAATT
+ATGTTTCCCATGCATCAGGTGCAATGGGAAGCTCTTCTGGAGAGTGAGAGAAGCTTCCAG
+TTAAGGTGACATTGAAGCCAAGTCCTGAAAGATGAGGA
+>ENST00000466557.6|ENSG00000241860.6|OTTHUMG00000002480.3|OTTHUMT00000007037.2|AL627309.5-203|AL627309.5|1301|lincRNA|
+ATGATGATTATTCCCCACCTTCTAAGAGACAAAGACCAACGAGCCACCACAGCCACCAGT
+CCCAGAACCTGCCAATGCTGGGGAACGGAAAATGAGGGAGTTCAACTCTGGCCCTCACAA
+TCCAGTGGAGGAGACGAAACTCATCTGCCTCTGTCCCTCTGGGCACGCCTCATGCCAGGT
+GCATCTGTGGACAGGGGCCATGCCCCTGGGCTTCCAAAGTTGGAGAGAGCTGCCAGGCTC
+AGGTCTGAAGGCCAGAATTCTACAGTAAGTCCTACTGAGTCAAGGTGGGAGCAGGGTCGG
+TAGCTTCCGAGGCTCTGCGGGAGAATCCGTTTCCTGGCCGTAGAGGTGGCCTGCACTCCG
+CAGCTTGTGCTGCCCGTCTCGAATGACTGGAGTTTCCTGCTTCTGTCACTACACCTCCCA
+CCCTCTCCATCACCTGCTCTGCTCTTACAAGGATCCGAAGAAATGGAATCATCGTATCGC
+TGATCTACGTAAACAAACTGAAGAATTGTCTGAAAGAAAATATGACATGAACTTATGAAT
+TCAACAGGTGAAGATTTACAACTTGATAAATCAACTTTGTCAGCTCGAGCTGTAAAAGCC
+AAAGGTCCGGTGATGATCCCATACCCTTTTTTCCAGTCTCATGTTGAAGATTTTTATGTA
+GAAGGCCTTCCCAAAGGAATTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTTTCACTCT
+TATCGCCCAGGCTGGGGTGCAATGGCGCAACCTTGCTGGTCACTGCAACCTCTGCCTCCT
+GGGTTCAAGAAATTCTCCTGCCTTAGCCTCCCAAGTCACTGGGATTACAGGTGCCCACCA
+CCATACCAGGCTAATTTTTGTATTTTTAGTGGAGATGCGGTTTCACCATGTTGGCCGGGC
+CAGTCTCGAACTCCTGACGTCAAGTGATCTTCCCGCCTCGACTCCTGATATCAAGTGATC
+TTCCCGCCTCGGCCTCCCAGAGTGCTGAGATTACAGACGTGAACCCATGCCTGGCCAGGA
+ATTTTGTTTTTTAGGAAGGCTTTCTACTAATGGAATTCCTGGCCTTGAGAGGATGTTACT
+TTAGAAGGAAAGGATTTTTTTGTTATTAAAAGCTGGACCTACCATGAAAGACTTCTGAAT
+CCAGGAAGAGAAACTGACTGGGCAACATGTTATTCAGAAACAGGACCTTGCCCTGTCACT
+CAGGATGGAGTTCAGTGGTCCTATCATGGCTCATTATAGCCTCAAACTCCCAGGCTCAAG
+CAATCCTACCATGTCAGCCTTCCCAGTAGCTGGGACTACAG
+>ENST00000491962.1|ENSG00000241860.6|OTTHUMG00000002480.3|OTTHUMT00000007168.1|AL627309.5-204|AL627309.5|278|lincRNA|
+TGAGGTGGAGTCTTGCTCTGTCATCCAGGCTGGCAGTGGCGTGATCTTGGCTCACTGCAA
+TGTCTGCCTCCTGGGTTCAGGTGATTCTCCTGCCTCAGCCTCCTGAGTAGCTGGGACTAC
+AGGCGCCCGCCACCATGCCCTGCTGTTTTGTATTTTTGAGAAATGGAATCATCGTATCGC
+TGATCTACGTAAACAAACTGAAGAATTGTCTGAAAGAAAATATGACATGAACTTATGAAT
+TCAACAGGTGAAGATTTACAACTTGATAAATCAACTTT
+>ENST00000410691.1|ENSG00000222623.1|-|-|RNU6-1100P-201|RNU6-1100P|104|snRNA|
+ATGCTTGCCTCAGTAGCACACATACTTAAGTTGGAACAATAGAGAGATTGGCACGGCCTC
+TGTGAAAGAATGACATGCAAATTTGTGAAGCATTCCATATTTTT
+>ENST00000496488.1|ENSG00000241599.1|OTTHUMG00000002525.1|OTTHUMT00000007169.1|AL627309.4-201|AL627309.4|457|lincRNA|
+ATTCAAATGGGCCCTGCTGCCAAGCCTTTTTTTTTTTTTTTTAACAATGCCATCTCTTCA
+TATTGTTCCATTTAACAAAACTGCAGCCCTTCATCTATCCTTAAGTCCCTTGGCCAGTGG
+TACAGAGCCAGAGTATGCTACTCCCTAGCAGGAAATCAACAGGATGACCTACTAAACACC
+ATTCAGAAGATGCTAAGACCCATGAATTGCAACAGGAAAGAAAAGACAGAGAATTAGTCA
+GACAGGAATCAAGGTTCCCTAGAGAAATGGCTGACTCCATGTATGGTGCAGTATATTGAT
+CCTGGAACATCTGTTTTGCCAGAAAGCAAGGAAGCCATCAAAGTCCAACAGGATCACTTC
+AAAAAGACATGAAAGTCAACTTGAAGAGATAATTATTAACCTAGATGAGACAATCTAAGC
+ATCCAAAACAATAAAGACTGCAATGGCCTGAAATACA
+>ENST00000624431.2|ENSG00000279928.2|OTTHUMG00000191962.1|OTTHUMT00000491420.1|FO538757.2-201|FO538757.2|570|unprocessed_pseudogene|
+GATTGGAGGAAAGATGAGTGACAGCATCAACTTCTCTCACAACCTAGGCCAGTGTGTGGT
+GATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGA
+CTTGGATCACACTCTTCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAG
+AACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAGGGCCATCAGGCACCAAAGGGAT
+TCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACATGCTG
+TTGGCCTGGATCTGAGCCCTCGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCT
+GTGTGGAAGTTCACTCAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGC
+TGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGG
+GATCCTGCTACAAAGGTGAAACCCAGGAGAGTGTGGAGTCCAGAGTGTTGCCAGGACCCA
+GGCACAGGCATTAGTGCCCGTTGGAGAAAA
+>ENST00000623083.4|ENSG00000279457.4|OTTHUMG00000191963.1|OTTHUMT00000491421.1|FO538757.1-201|FO538757.1|1397|unprocessed_pseudogene|
+ATGACTCCTGTGAGGATGCAGCACTCCCTGGCAGGTCAGACCTATGCCGTGCCCCTCATC
+CAGCCAGACCTGCGGCGAGAGGAGGCCGTCCAGCAGATGGCGGATGCCCTGCAGTACCTG
+CAGAAGGTCTCTGGAGACATCTTCAGCAGGATCTCCCAGCAGGTAGAGCAGAGCCGGAGC
+CAGGTGCAGGCCATTGGAGAGAAGGTCTCCTTGGCCCAGGCCAAGATTGAGAAGATCAAG
+GGCAGCAAGAAGGCCATCAAGGTGTTCTCCAGTGCCAAGTACCCTGCTCCAGGGCGCCTG
+CAGGAATATGGCTCCATCTTCACGGGCGCCCAGGACCCTGGCCTGCAGAGACGCCCCCGC
+ACAGGATCCAGAGCAAGCACCGCCCCCTGGACGAGCGGGCCCTGCAGGAGAAGCTGAAGG
+ACTTTCCTGTGTGCGTGAGCACCAAGCCGGAGCCCGAGGACGATGCAGAAGAGGGACTTG
+GGGGTCTTCCCAGCAACATCAGCTCTGTCAGCTCCTTGCTGCTCTTCAACACCACCGAGA
+ACCTGTAGAAGAAGTATGTCTTCCTGGACCCCCTGGCTGGTGCTGTAACAAAGACCCATG
+TGATGCTGGGGGCAGAGACAGAGGAGAAGCTGTTTGATGCCCCCTTGTCCATCAGCAAGA
+GAGAGCAGCTGGAACAGCAGGTCCCAGAGAACTACTTCTATGTGCCAGACCTGGGCCAGG
+TGCCTGAGATTGATGTTCCATCCTACCTGCCTGACCTGTCCGGCATTGCCAACGACCTCA
+TGTACATTGCCGACCTGGGCCCCGGCATTGCCCCCTCTGCCCCTGGCACCATTCCAGAAC
+TGCCCACCTTCCACACTGAGGTAGCCGAGCCTCTCAAGGTAGACCTACAAGATGGGGTAC
+TAACACCACCCCCACCGCCCCCACCACCACCCCCAGCTCCTGAGGTGCTGGCCAGTGCAC
+CCCCACTCCCACCCTCAACCGCGGCCCCTGTAGGCCAAGGCGCCAGGCAGGACGACAGCA
+GCAGCAGCGCGTCTCCTTCAGTCCAGGGAGCTCCCAGGGAAGTGGTCGACCCCTCCGGTG
+GCCGGGCCACTCTGCTAGAGTCCATCCGCCAAGCTGGGGGCATCGGCAAGGCCAAGCTGC
+GCAGCATGAAGGAGCGAAAGCTGGAGAAGAAGAAGCAGAAGGAGCAGGAGCAAGTGAGAG
+CCACGAGCCAAGGTGGGCACTTGATGTCGGATCTCTTCAACAAGCTGGTCATGAGGCGCA
+AGGGCATCTCTGGGAAAGGACCTGGGGCTGGTGAGGGGCCCGGAGGAGCCTTTGCCCGCG
+TGTCAGACTCCATCCCTCCTCTGCCGCCACCGCAGCAGCCACAGGCAGAGGAGGACGAGG
+ACGACTGGGAATCCTAG
+>ENST00000612080.1|ENSG00000273874.1|-|-|MIR6859-2-201|MIR6859-2|68|miRNA|
+TGTGGGAGAGGAACATGGGCTCAGGACAGCGGGTGTCAGCTTGCCTGACCCCCATGTCGC
+CTCTGTAG
+>ENST00000442116.1|ENSG00000228463.10|OTTHUMG00000002552.2|OTTHUMT00000007244.1|AP006222.1-201|AP006222.1|1292|processed_transcript|
+AGGACCCACCCGAGGGTGGGTCACCATGGCTTTGGAGCGCCTGGTAGTGTGGTGTGTCCA
+CAGTGAAGACCAGAGTTTCATTGTCCTTAAGACTGACCTGGGGAGATGTGGCTGTAGGCC
+ATTGAGGAAGACGGCACCGAAAGCGAAGGAAGCTCCTGCTCCTCCTAAAGCCGAAGCCAA
+AGCGAAGGCCTTAAAGGCCAAGAAGGCAGTGTTGAAAGGTGTCCGCAGCCACACGCAAAA
+AAGAAGATCCGCATGTCACTCACCTTCAGGCGGCCCAAGACACTGCGACTCCGGAGGCAG
+CCCAGATATCCTCGGAAGAGCACCCCCAGGAGAAACAAGCTTGGCCACTATGCTATCATC
+AAGTTTCCGCTGACCACTGAGTCGGCCGTGAAGAAGATAGAAGAAAACAACACGCTTGTG
+TTCACTGTGGATGTTAAAGCCAACAAGCACCAGATCAGACAGGCTGTGAAGAAGCTCTAT
+GACAGTGATGTGGCCAAGGTCACCACCCTGATTTGTCCTGATAAAGAGAAGGCATATGTT
+CGACTTGCTCCTGATTATGATGCTTTCGATGTTGTAACAAAATTGGGATCACCTAAACTG
+AGTCCAGCTGGCTAACTCTAAATATATGTGTATCTTTTCAGCATAAAAAAAATAATGTTT
+TTCATAAGAATGACAACTTAATTAGAATCAAATCTATAAGCTTTAAGATTTTACGTTTCT
+AGTAAGTATAATATTAGCTTATTTGACTAGAACTCAAGCAGAATAGGAATTTATGCTTGT
+TTTATATTCAATAATGATAATTTTGAAGATATAGTTGTTTTATTACACCAAAAATACTAT
+ATTAATCTTATTTAACTAAGTTTTATCCAAATCATGTTAACTTAAGAAACATTTGATCAG
+TTCCTATATTTCTAGGAGTTTGGTGAATATTTATTTATAAATGCTTATTTTTTTCCAAGC
+CAAGTTAGAATAGAGCACTTTTAGAGGTTTTCATAAATGAATTTTGCAATGCTCTCTGGA
+GTTAAGAAAATATCACATATACATAACATACATTAATAGATACACAAACACAAATAGAGA
+TTTCATAGCTTTCATCCTGAAATTTCAGCCATGAATCAGGCATAAATATTCTGATGGTTA
+ATTTCAGACATCTACTTGATCGGATTGAGAGACACACATAGCTGGTCAAACACGATTTCA
+GCCATGAATCAGGCATAAATATTCTGATGGTTAATTTTAGACATCTACTTGACTGGATTA
+AGAGACACACATAGCTGGTCAAACGTGATTTC
+>ENST00000448958.2|ENSG00000228463.10|OTTHUMG00000002552.2|OTTHUMT00000488654.2|AP006222.1-202|AP006222.1|2250|processed_transcript|
+ACCAAACCAATGCAGACCAAACCAATGCAGAACTCCTATGTGCTGATGGTGGTCTTACAT
+TTCCCTAAGTTTCTGCCGACTAAACTGTGCACACGTTCTCAGGACCTCCTGAAGCTGCGT
+CACAGGCACTAATCAAAGAACACAACCAAGAGTTTGGCCTTTTCTTCAGCACTGGGAATT
+GTGATCCAAAGCTTTTCCTGATGAGGCACAAAGTTGGAGAAACACAACGCAAACTAAACA
+ACAATGAAACAGAACAGAGTGAATCTGCTGTAGCTCAAGAGAGGACGTAGCTGCCCCCAC
+TCCGCATCCCCGGGCTCGGGTTTGCCTTGCTGACCTCTGCTGCCACCTGGTGCTGCACAG
+AGAAACTGAGGAGAAACCACATCAGTCTCCTTCAGCCTCAGCTTCACATCTGTGGGTCAA
+GCAACCCTTTCAGAAGCTGTATAATGTGGGAAAGCTTTCCTCTCAGGAAAATGCACACAT
+CCAACTTTGAGAAGATGCCCTTGGGGGTGCTTCAAGGATCCTAGATAATAACCCCCTTTC
+CCGAACATCCAAGAACCTAAGTTTTTTTTTTTTTTTTGAGAAAGTCTCGCTCTCTCTCCC
+ATTCTGGAGTGCAGTGGCGTGATCTTGGCTCACTGCAAGCTCCACCTCCCAGGTTCAAGC
+CATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGGCTACAGGCACCTGCCACCACACCCGG
+CTAATTTTTTTGTATTTTTAGTAGAGACGGGGTTTCACCGTGTTAGCCAGAATCGTCTTG
+ATCTCCTGACCTTGTGATCCACCCGCCTCGGCCTCCCAAAGTGCTGGGATTACAGGTGTG
+AGCCACCACGCCTGGTCCAAGAACCCAACTTTTAGATCTAGAGTGATGTCAGCATGACAT
+TGATTTCCTGAGGCCCAGGGGTGAAGGAGCTGAGGACAGCAGAGGGGTGAAGGAAGTCAG
+CTACAGACAGCAGCAGCTGATGCACAGGCCTCCCAGTGCCTGAAGTCACCCGGAATTGGG
+AAGTGCTCAGAAGCTTACAAAGCTGCCTCGAGGAATCATTCTAGCCTTCTCGTCTTGCTA
+ATTTGTAACCTCCCACTTCAACAGTGAGAAAGCTGGTTCCCACCATCTGCGACTTATACG
+GCACCGAAAGCGAAGGAAGCTCCTGCTCCTCCTAAAGCCGAAGCCAAAGCGAAGGCCTTA
+AAGGCCAAGAAGGCAGTGTTGAAAGGTGTCCGCAGCCACACGCAAAAAAGAAGATCCGCA
+TGTCACTCACCTTCAGGCGGCCCAAGACACTGCGACTCCGGAGGCAGCCCAGATATCCTC
+GGAAGAGCACCCCCAGGAGAAACAAGCTTGGCCACTATGCTATCATCAAGTTTCCGCTGA
+CCACTGAGTCGGCCGTGAAGAAGATAGAAGAAAACAACACGCTTGTGTTCACTGTGGATG
+TTAAAGCCAACAAGCACCAGATCAGACAGGCTGTGAAGAAGCTCTATGACAGTGATGTGG
+CCAAGGTCACCACCCTGATTTGTCCTGATAAAGAGAAGGCATATGTTCGACTTGCTCCTG
+ATTATGATGCTTTCGATGTTGTAACAAAATTGGGATCACCTAAACTGAGTCCAGCTGGCT
+AACTCTAAATATATGTGTATCTTTTCAGCATAAAAAAAATAATGTTTTTCATAAGAATGA
+CAACTTAATTAGAATCAAATCTATAAGCTTTAAGATTTTACGTTTCTAGTAAGTATAATA
+TTAGCTTATTTGACTAGAACTCAAGCAGAATAGGAATTTATGCTTGTTTTATATTCAATA
+ATGATAATTTTGAAGATATAGTTGTTTTATTACACCAAAAATACTATATTAATCTTATTT
+AACTAAGTTTTATCCAAATCATGTTAACTTAAGAAACATTTGATCAGTTCCTATATTTCT
+AGGAGTTTGGTGAATATTTATTTATAAATGCTTATTTTTTTCCAAGCCAAGTTAGAATAG
+AGCACTTTTAGAGGTTTTCATAAATGAATTTTGCAATGCTCTCTGGAGTTAAGAAAATAT
+CACATATACATAACATACATTAATAGATACACAAACACAAATAGAGATTTCATAGCTTTC
+ATCCTGAAATTTCAGCCATGAATCAGGCATAAATATTCTGATGGTTAATTTCAGACATCT
+ACTTGATCGGATTGAGAGACACACATAGCTGGTCAAACACGATTTCAGCCATGAATCAGG
+CATAAATATTCTGATGGTTAATTTTAGACA
+>ENST00000441866.2|ENSG00000228463.10|OTTHUMG00000002552.2|OTTHUMT00000346905.2|AP006222.1-203|AP006222.1|2256|processed_transcript|
+AATATCTCGTCATGGACTGTGCCCCGCTCGAGCCTCTCCACATGCAGCAGGAAGGAAAGT
+GGAGGGAGCTGCTCCTTTCCGTAGCCGGGGTGCCCACCCCAACCAGGCTGCCTCTGCCAC
+CCAAGACAGAGGTTCTCTGATAATAATTTGTGGGGCTTGTTTCCAGAGACCACACCTGAA
+GCTGCCAACTCCCCGGAGGGAAGGTCCTGATTAATGGCCGATGAATTTCTCCTTAAGGCC
+CTGAAACTGCCTACTCAGAACCAAGCCAGTTTTTCCTGCCTGTCCTGTTTGGGCAGGCAG
+AGGAGGCAGCTAGAAACCCATTATGCAGGGGATGGGGACCAAACCAATGCACAACTCCTA
+CGTACTGATGGTGGTCTTACGTTTCCCTAAGTTTCTGCCGACTAAACTGTGCACACGTTC
+TCAGGACCTCCTGAAGCTGCGTCACAGGCGCTGATCAAAGAACACAACCAAGAGTTTGGC
+CTTTTCTTCAGCACTGGGAATTGTGATCCAAAGCTTTTCCTGATGAGGCACAAAGTTGGA
+GAAACAAAACGCAAACTAAGCAACAATGAAACAGAACAGAGTGAATCTGCTGTAGCTCAA
+GAGAGGACGTAGCTGCCCCCACCCCGCATCCCTGGGCTCGGGTTTGCCTTGCTGACCTCT
+GCTGCCACCTGGTGCCGCACAGAGAAACTGAGGAGAAACCACATCAGTCTCCTTCAGCCT
+CAGCTTCACATCTGTGGGTCAAGCAACCCTTTCAGAAGCTGTATAATGTGGGAAAGCTTT
+CCTCTCAGGAAAATGCACACATCCAACTTTGAGAAGATGCCCTTGGGGGCGCTTCAAGGA
+TCCTAGATAATAACCCCCTTTCCCGAACATCCAAGAACCTAAGTTTTTTTTTTTTTTTTG
+AGAAAGTCTCGCTCTCTCTCCCATTCTGGAGTGCAGTGGCGTGATCTTGGCTCACTGCAA
+GCTCCACCTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGGCTAC
+AGGCACCTGCCACCACACCCGGCTAATTTTTTTGTATTTTTAGTAGAGACGGGGTTTCAC
+CGTGTTAGCCAGAATCGTCTTGATCTCCTGACCTTGTGATCCACCCGCCTCGGCCTCCCA
+AAGTGCTGGGATTACAGGTGTGAGCCACCACACCTGGTCCAAGAACCCAACTTTTAGATC
+TAGAGTGATGTCAGCATGACATTGATTTCCTGAGGCCCAGGGGTGAAGGAGCTGAGGACA
+GCAGAGGGGTGAAGGAAGTCAGCTACAGACAGCAGCAGCTGATGCACAGGCCTCCCAGCG
+CCTGAAGTCACCCGGAATTGGGAAGTGCTCAGAAGCTTACAAAGCTGCCTCGAGACGGCA
+CCGAAAGCGAAGGAAGCTCCTGCTCCTCCTAAAGCCGAAGCCAAAGCGAAGGCCTTAAAG
+GCCAAGAAGGCAGTGTTGAAAGGTGTCCGCAGCCACACGCAAAAAAGAAGATCCGCATGT
+CACTCACCTTCAGGCGGCCCAAGACACTGCGACTCCGGAGGCAGCCCAGATATCCTCGGA
+AGAGCACCCCCAGGAGAAACAAGCTTGGCCACTATGCTATCATCAAGTTTCCGCTGACCA
+CTGAGTCGGCCGTGAAGAAGATAGAAGAAAACAACACGCTTGTGTTCACTGTGGATGTTA
+AAGCCAACAAGCACCAGATCAGACAGGCTGTGAAGAAGCTCTATGACAGTGATGTGGCCA
+AGGTCACCACCCTGATTTGTCCTGATAAAGAGAAGGCATATGTTCGACTTGCTCCTGATT
+ATGATGCTTTCGATGTTGTAACAAAATTGGGATCACCTAAACTGAGTCCAGCTGGCTAAC
+TCTAAATATATGTGTATCTTTTCAGCATAAAAAAAATAATGTTTTTCATAAGAATGACAA
+CTTAATTAGAATCAAATCTATAAGCTTTAAGATTTTACGTTTCTAGTAAGTATAATATTA
+GCTTATTTGACTAGAACTCAAGCAGAATAGGAATTTATGCTTGTTTTATATTCAATAATG
+ATAATTTTGAAGATATAGTTGTTTTATTACACCAAAAATACTATATTAATCTTATTTAAC
+TAAGTTTTATCCAAATCATGTTAACTTAAGAAACATTTGATCAGTTCCTATATTTCTAGG
+AGTTTGGTGAATATTTATTTATAAATGCTTATTTTTTTCCAAGCCAAGTTAGAATAGAGC
+ACTTTTAGAGGTTTTCATAAATGAATTTTGCAATGC
+>ENST00000634344.2|ENSG00000228463.10|OTTHUMG00000002552.2|OTTHUMT00000007243.3|AP006222.1-204|AP006222.1|1554|processed_transcript|
+ACCAAACCAATGCAGACCAAACCAATGCAGAACTCCTATGTGCTGATGGTGGTCTTACAT
+TTCCCTAAGTTTCTGCCGACTAAACTGTGCACACGTTCTCAGGACCTCCTGAAGCTGCGT
+CACAGGCACTAATCAAAGAACACAACCAAGAGTTTGGCCTTTTCTTCAGCACTGGGAATT
+GTGATCCAAAGCTTTTCCTGATGAGGCACAAAGTTGGAGAAACACAACGCAAACTAAACA
+ACAATGAAACAGAACAGAGTGAATCTGCTGTAGCTCAAGAGAGGACGTAGCTGCCCCCAC
+TCCGCATCCCCGGGCTCGGGTTTGCCTTGCTGACCTCTGCTGCCACCTGGTGCTGCACAG
+AGAAACTGAGGAGAAACCACATCAGTCTCCTTCAGCCTCAGCTTCACATCTGTGGGTCAA
+GCAACCCTTTCAGAAGCTGTATAATGTGGGAAAGCTTTCCTCTCAGGAAAATGCACACAT
+CCAACTTTGAGAAGATGCCCTTGGGGGTGCTTCAAGGATCCTAGATAATAACCCCCTTTC
+CCGAACATCCAAGAACCTAAGTTTTTTTTTTTTTTTTGAGAAAGTCTCGCTCTCTCTCCC
+ATTCTGGAGTGCAGTGGCGTGATCTTGGCTCACTGCAAGCTCCACCTCCCAGGTTCAAGC
+CATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGGCTACAGGCACCTGCCACCACACCCGG
+CTAATTTTTTTGTATTTTTAGTAGAGACGGGGTTTCACCGTGTTAGCCAGAATCGTCTTG
+ATCTCCTGACCTTGTGATCCACCCGCCTCGGCCTCCCAAAGTGCTGGGATTACAGGTGTG
+AGCCACCACGCCTGGTCCAAGAACCCAACTTTTAGATCTAGAGTGATGTCAGCATGACAT
+TGATTTCCTGAGGCCCAGGGGTGAAGGAGCTGAGGACAGCAGAGGGGTGAAGGAAGTCAG
+CTACAGACAGCAGCAGCTGATGCACAGGCCTCCCAGTGCCTGAAGTCACCCGGAATTGGG
+AAGTGCTCAGAAGCTTACAAAGCTGCCTCGAGACGGCACCGAAAGCGAAGGAAGCTCCTG
+CTCCTCCTAAAGCCGAAGCCAAAGCGAAGGCCTTAAAGGCCAAGAAGGCAGTGTTGAAAG
+GTGTCCGCAGCCACACGCAAAAAAGAAGATCCGCATGTCACTCACCTTCAGGCGGCCCAA
+GACACTGCGACTCCGGAGGCAGCCCAGATATCCTCGGAAGAGCACCCCCAGGAGAAACAA
+GCTTGGCCACTATGCTATCATCAAGTTTCCGCTGACCACTGAGTCGGCCGTGAAGAAGAT
+AGAAGAAAACAACACGCTTGTGTTCACTGTGGATGTTAAAGCCAACAAGCACCAGATCAG
+ACAGGCTGTGAAGAAGCTCTATGACAGTGATGTGGCCAAGGTCACCACCCTGATTTGTCC
+TGATAAAGAGAAGGCATATGTTCGACTTGCTCCTGATTATGATGCTTTCGATGTTGTAAC
+AAAATTGGGATCACCTAAACTGAGTCCAGCTGGCTAACTCTAAATATATGTGTA
+>ENST00000450734.1|ENSG00000228463.10|OTTHUMG00000002552.2|OTTHUMT00000007241.1|AP006222.1-205|AP006222.1|457|transcribed_processed_pseudogene|
+CGGCACCGAAAGCGAAGGAAGCTCCTGCTCCTCCTAAAGCCGAAGCCAAAGCGAAGGCCT
+TAAAGGCCAAGAAGGCAGTGTTGAAAGGTGTCCGCAGCCACACGCAAAAAAGAAGATCCG
+CATGTCACTCACCTTCAGGCGGCCCAAGACACTGCGACTCCGGAGGCAGCCCAGATATCC
+TCGGAAGAGCACCCCCAGGAGAAACAAGCTTGGCCACTATGCTATCATCAAGTTTCCGCT
+GACCACTGAGTCGGCCGTGAAGAAGATAGAAGAAAACAACACGCTTGTGTTCACTGTGGA
+TGTTAAAGCCAACAAGCACCAGATCAGACAGGCTGTGAAGAAGCTCTATGACAGTGATGT
+GGCCAAGGTCACCACCCTGATTTGTCCTGATAAAGAGAAGGCATATGTTCGACTTGCTCC
+TGATTATGATGCTTTCGATGTTGTAACAAAATTGGGA
+>ENST00000424587.7|ENSG00000228463.10|OTTHUMG00000002552.2|OTTHUMT00000007242.3|AP006222.1-206|AP006222.1|5603|processed_transcript|
+CTGATCCATATGAATTCCTCTTATTAAGAAAAATAAAGCATCCAGGATTCAATGAAGAAC
+TGACTATCACCTTGTTAATCATTCAGAAACATGTTGCAGGCTTAAGCCATTTTTGATATA
+GATACTGAAACAATTACTTGCTAAGAGCAAACTTGAAGTAACAATTTGGACAAGACAGCA
+AATGCTATTGTCCAAGTTTTCTAAAGAAGAATCTGAAGTGAAATGACATCAAGAGACCTA
+TCAAGACCTGTATCCAGGAAAAGACCAAACCAATGCAGACCAAACCAATGCAGAACTCCT
+ATGTGCTGATGGTGGTCTTACATTTCCCTAAGTTTCTGCCGACTAAACTGTGCACACGTT
+CTCAGGACCTCCTGAAGCTGCGTCACAGGCACTAATCAAAGAACACAACCAAGAGTTTGG
+CCTTTTCTTCAGCACTGGGAATTGTGATCCAAAGCTTTTCCTGATGAGGCACAAAGTTGG
+AGAAACACAACGCAAACTAAACAACAATGAAACAGAACAGAGTGAATCTGCTGTAGCTCA
+AGAGAGGACGTAGCTGCCCCCACTCCGCATCCCCGGGCTCGGGTTTGCCTTGCTGACCTC
+TGCTGCCACCTGGTGCTGCACAGAGAAACTGAGGAGAAACCACATCAGTCTCCTTCAGCC
+TCAGCTTCACATCTGTGGGTCAAGCAACCCTTTCAGAAGCTGTATAATGTGGGAAAGCTT
+TCCTCTCAGGAAAATGCACACATCCAACTTTGAGAAGATGCCCTTGGGGGTGCTTCAAGG
+ATCCTAGATAATAACCCCCTTTCCCGAACATCCAAGAACCTAAGTTTTTTTTTTTTTTTT
+GAGAAAGTCTCGCTCTCTCTCCCATTCTGGAGTGCAGTGGCGTGATCTTGGCTCACTGCA
+AGCTCCACCTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGGCTA
+CAGGCACCTGCCACCACACCCGGCTAATTTTTTTGTATTTTTAGTAGAGACGGGGTTTCA
+CCGTGTTAGCCAGAATCGTCTTGATCTCCTGACCTTGTGATCCACCCGCCTCGGCCTCCC
+AAAGTGCTGGGATTACAGGTGTGAGCCACCACGCCTGGTCCAAGAACCCAACTTTTAGAT
+CTAGAGTGATGTCAGCATGACATTGATTTCCTGAGGCCCAGGGGTGAAGGAGCTGAGGAC
+AGCAGAGGGGTGAAGGAAGTCAGCTACAGACAGCAGCAGCTGATGCACAGGCCTCCCAGT
+GCCTGAAGTCACCCGGAATTGGGAAGTGCTCAGAAGCTTACAAAGCTGCCTCGAGGTGGG
+AACACAACATTAATCCAAGAGCAGATCCCTGATCCTATAAAAATGTACTAGATGCAGTGG
+GGGCATTTTAAATGAGCAGGGAAGGACAGACAGATAAACAGAAGGACAAACAGTATTGGG
+ATTGGGATAAATGCTCAGCTTTTGCCCAAATCTTAGTGACTTAAGCATCACTTATTTGCT
+CACGATTCTGTGGCTGGACCATTTGGTTTGGCTCACAGGGCAGGGACTGTGCTGGTCTTA
+CCTGAGCAGACCTGCATGTCTGCGGTCAACTGGGTTGGCAGAGACAGAGTGACTGTCTTC
+CTCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACTGAGGGACTGTCTCCC
+TCCAGGAAGCAGCAGGTTAACTGGTTGGCAGAGACAGAGGGACAGAGGGACTGTCTTCCT
+CCAGGAAGCAGCAGGTTGGCTCTGGTTCCTTCGTGGGGCAGCTGGTCTCCAGGGCAGCAA
+GAGAGACCAAGCCCCCGTGCACATTCTACAGCCTCTGTGCACATCAGACTTGTTAATATC
+CCATTGGCCAGTGCAAGTCACACGGCCAAGCCCAGATTAAGGAGTGGAAAGATGGACGCT
+ATCTCCTCCTGGGAGAGGAGGCAAAGGAGGTGAGAGCATTATGTGGCCACTTATGTTTGC
+AATCTACCATACTTAGCCCTTTGAGAAAAGAATTAACTGAGAAACTTGCTTCAAATAGGG
+CATTCAGTAAAATGAAGCCCCAATTGAAGTAAAATGCATATATAAAAAATGAAACTGTGA
+CCGATTTTAAGGACAGTATTGGCAAATATTTCTGTGCTCTTGGAGGAGAAGACCCTTATT
+GGCATGACATGTCAGAGACCACAATGAAAGAATTATTTTAACTTGCATTCATAAAAATTA
+AAATTATTCATTAAAAACATCGTGAATGAAATTAAAAGTCAAAATGTAAGCCAGAAAATT
+ATTTACAACATATGTGTCAGGAAAAGACAATACACTTCAGACTTTGAGAGTTTACATCAG
+AAAGAAAATAGCAAATGACATGATCCAAACTTGATAAAGGACATGAAAAAGAGCCAGCAC
+TTAGTATGTTTTCTGAATGAATAAGTAGCCAACAGCACACGAAAATGTGTGTAATCCACT
+TGTAAGCAGAGAAATGCAAATTAAAACAGTAAAGTGTCATTTTCACTTCCTGGATTGGCA
+AAGGGTTTTATGTATTTTACTGACAGTGCTCAACATTAGCAGTAAACAACAAATGGTGAG
+TAAATATGAGCTTCGGAACCTCAGGGAAATGATCTCCTTATTTCAACCTGCAGATTCCTT
+CCTACAACCAGTGTAGAGCAGAGTACCAGGACGGGCCATTGAGCACCCTGGTGTTGAGAT
+CAAGTGGCCTCTAGTCAGAGTTGGGTCAGGGCCACTGTGAGTGGGCTGCCCCCAACATGA
+GTCAGCTGTCTAGGACTAGTTTATCTCTGCTTCTCACTTTACTGGTATTATGGGGCAGCT
+CCTGCTGTCTTCCAATTTGGTGTCTTCCAAATCGGCACCGTCTTTTAAAGTTGAGTTTCT
+TGTTATTCTCACCTGATATACCTTATTTATCCCACACCCACCCCAATAACATATCGTGCT
+CAGTGTTATCTTTGAGACAACACTTGAATTTTACTCAGCCTGGAGCGCTCTTCACATGTC
+TTGTCCAGATCCAGTTCGGACTCATTCTTCAGCCGTGCATCAGTAAATGGGGGCTAGGTT
+AAACTGTGGTGACAAACAACCTCCAAATTTCAGTGGCTCAAAAATCTTCTTCCTCATTTA
+TTTACATTTCATCATGGGTCAGGTGAGAGGTAGCTCTGTGCTGTGTCATCCTAACACAGG
+AATCCAGACGGAAGGAGGGACAATCAATAAGATCCCCATTGCTATAGAAAAGAGAAAAAA
+GTATGCGGAATAGCACTCTGTTTCTTGGAGATTTCTCCTGAAAAAGTCACATGTTATTTC
+TTCTCACCTCCATTGGCAAAAAAAAAGTCATGTGGCCATGTGAAAATGTAAGTAGGCGGG
+ATGGAACAGTCAGAATGCATTCATAAAATATGAACTGAAAATATCTGGAGAACAGCACCT
+ATGACTACCACGAATGCCAACATGCATCCCTAACAACCCAGTGCTGTCACCCTCCAAACT
+TTTTATGTCTTGCAAAGTATTAGAACTTCTTATCTGAAGCCATACCACTCAGAGGGAATG
+CAAAATACATATTGACATCTCCTTTAGGATGTCCTTAGAGAATTCAAGGAAAAGAAGTTA
+AATAATTTTAAAGTGCTTTTGGGTACAGCTATTTAGCACTAGAGGGTAAGATTAGACATA
+GATTGTAAAGATAATAATAGGGTTAGGGATAGGATTAGGATCTGGGTCAGAGTCAGGGCC
+AGAAGTATGGTTAGAGGTGGGGTCATGGTCAGGGTCGAGATCAAAGTCAGGGTCAAAGTA
+AGGGTCAGAATTAGGGACCAGGATAGGGATCAGGATTTAGGTTCAGTGTCAAAGTCTTGG
+GACAAGGTTAGGGTTAGAATTAGAACCAGAGCTTTGTTCTCCTCAGGACCCACCCGAGGG
+TGGGTCACCATGGCTTTGGAGCGCCTGGTAGTGTGGTGTGTCCACAGTGAAGACCAGAGT
+TTCATTGTCCTTAAGACTGACCTGGGGAGATGTGGCTGTAGGCCATTGAGGAAGGTGAGG
+CAACAGCTTCCTGTCTGCTCCCCGTGTGCTGAGGAGGGAGTTCTGCCATGGGCTTTACTT
+TCACATGTTATATTCCACAAGTCTTGTTTTACAAAAGCATCCCTTCCTTGAGGCTTCGGC
+TGCTCATCGCTGCTCATCATCATAGCGTGCCATAACATATAGTAAGATTTGGGTTTGTTT
+CTGGGGAGATATCTTGGTATAGAGAAAGGAGAAATGCTTAGAGCCACCATCAGGACAGTT
+GGGATGAAAGTTGGGTATAGGCAGAGGCTGGAGGAAACATGTGCATCCCCTGTAAACACT
+TTTATTCATGTTTTAATTACTCATTTTTCTTACAGTGTTAAATTAGTAAAGATAGTATTG
+AAAAATTGAAAAGTAGGCATATTAAAACTTGCAACACTATTTAAGCCTAGATATATTATT
+TGTACCTCATCAACATTTTTTATTGTGTTGAGAAAGTTTAAGGTTAATTGACAGCATATT
+TCTAATAGTAGATAGAATAACATCCCTTTTATAAACATTGACATCCTACATTACATGTGT
+GAACCCTGAAAATCTGAGACAGCTCTCAGATTTTTTAGAAAGTTTATTTTGCCAATCTTG
+AGGATGTGCGCCTGTGATGCCTCCTCAGGAGATCCTGACAACATGGGCCCAAGGTGGTCG
+GGGCACAGCTTGGTTTTATACACTTTAGGGAGACACGAGAGATCAATCAATACGTGTAAG
+ATGTACATTGGTTCAGTCCAGAAAGGTGAGAAGGCCAGACAGGGGGCTTCCAGGTCACAG
+GTAGGTAAGAGACAAATGGTTTCATTCTTTTGCATTGCTGATTACCCTCTCCATGTGAGG
+CAATCAGGTATGCATTTATCTAGGTGATCAGACGGGTGTTTTGGATAGAATGGGAGGCGG
+GTTTGCCCTAAGCAGTTCCCAGCTTGACTTTTCCCTTTAGCTTAGTGATTTTGAGTCCCC
+AAGATTTATTTTCCCTTCGTAAGTGTTCCTATGAGTATTAATTATTCATTGTGTCTTTTA
+TTACACAAATAAGGCACAGATTTTTAAGAAATCATCAACTTCATGGCTACCTATATAGAC
+ATAATTACACAGAAGCTCAACTAAATTTGCAAACATTCCAGAGTTTGGGTTTCCAATAAT
+TCTTTGTGATTCTTTAAAAGGTAAAGTATTTTTTCCCATAAAACATAGCAACATTTAAAA
+TCACCCGTAGAATGTCCCGCCATTTTTGTTTTTCTAGTTTCCTCATTTTCTGCAAATCCT
+CGCTGAGGAAATTGACTTTGAATATCCTTTTAGACTCTTTTGTTTTAGAAAGCATTGTGG
+TAAAACATTGAATCATCATGGTCATAAGTTCTGTTCACATTCTTTCTTTCTTTGAATATT
+TTTTCCCAGTGGCCAATATTTGATTCTGTTGTATTATGGCTAAAAGGTAGGCATGGGAAC
+AAAATAAAGACAAGAAGTCTTTGGAATAATTGATCCCATCACAATGAATCAATTTGCCAT
+TGGAACATGTTTTTACAAAGTCACTCTTTTGAAAATATTCAGCTATGACTTGAAACAGAG
+TCTGTATGGTTAATATTTTTCCT
+>ENST00000458203.2|ENSG00000236679.2|OTTHUMG00000002854.4|OTTHUMT00000346877.2|RPL23AP24-201|RPL23AP24|385|processed_pseudogene|
+AGGCCAAGAAGGCAGTGTTGAAAGGTGTCCGCAGCCACACGCAAAAAAGAAGATCCGCAT
+GTCACCCACCTTCAGGCGGCCCAAGACACTGCGACTCCGGAGGCAGCCCAGATATCCTCG
+GAAGAGCACCCCCAGGAGAAACAAGCTTGGCCACTATGCTATCATCAAGTTTCCGCTGAC
+CACTGAGTCGGCCGGAAGAAGATAGAAGAAAACAACACGCTTGTGTTCACTGTGGATGTT
+AAAGCCAACAAGCACCAGATCAGACAGGCTGTGAAGAAGCTCTATGACAGTGATGTGGCC
+AAGGTCACCACCCTGATTTGTCCTGATAAAGAGAACAAGGCATATGTTCGACTTGCTCCT
+GATTATGATGCTTTCGATGTTGTAA
+>ENST00000450983.1|ENSG00000236601.2|OTTHUMG00000002855.3|OTTHUMT00000007988.2|AL732372.1-201|AL732372.1|607|lincRNA|
+TACGGCAGCTTTAGGGAGGTGCTCTGAGACCCGAAACTAGACTCGACTTTAACAGACACA
+GACGACCCTGAAGATGGAAACGTTTTCTTCCAAATTGTGCTGCACGTTTTTGGCGAGAGC
+ATGGGGCTGTGCGGCGTCCCCTCCCTGGCGCCCACCTGTGCCCTGCACACTGGCCTGCAC
+TGTGGTGATCTCGCTTGGCCCCCACCTGATTCCCGACATACAGCAGAGGAACCTTAGGCT
+CAGGTGGAACAGCCTCAACTGATTCTGTCCCTGAACTTCCGTACACAGCCCTGGAGTCGT
+CTTAGAGCCATGATTTATTTAACTGTTCTTTCATTTTACAGAACATAAAATGTATTGTTT
+CCAACTTTTTTCCTATGGTAAATAATACTAAAGTAAATATCTCTGTGCATGAATCTTTTT
+GTATATGTTGGAATATCCTTAAGATAAGGCCCCAGAACTAAAAGTACCCTGTCAAAAGGT
+GAGCATTTCCGGTTCCCCTGCTGTGCTTTGCTGCGTTGTTCTCTCCTGCTGCAACGTTCT
+CACTCCACAATCCTGGGGCAGGGAGGGGAGGCCCAGCTGAGTTTGGATCATAATCCTGAA
+AGACACA
+>ENST00000412666.1|ENSG00000236601.2|OTTHUMG00000002855.3|OTTHUMT00000007987.2|AL732372.1-202|AL732372.1|426|lincRNA|
+GAGGTGCTCTGAGACCCGAAACTAGACTCGACTTTAACAGACACAGACGACCCTGAAGGC
+GAGACTGTCTGCTGGTGGGATGCTGGATGGAAACGTTTTCTTCCAAATTGTGCTGCACGT
+TTTTGGCGAGAGCATGGGGCTGTGCGGCGTCCCCTCCCTGGCGCCCACCTGTGCCCTGCA
+CACTGGCCTGCACTGTGGTGATCTCGCTTGGCCCCCACCTGATTCCCGACATACAGCAGA
+GGAACCTTAGGCTCAGGTGGAACAGCCTCAACTGATTCTGTCCCTGAACTTCCGTACACA
+GCCCTGGAGTCGTCTTAGAGCCATGATTTATTTAACTGTTCTTTCATTTTACAGAACATA
+AAATGTATTGTTTCCAACTTTTTTCCTATGGTAAATAATACTAAAGTAAATATCTCTGTG
+CATGAA
+>ENST00000635159.1|ENSG00000236601.2|OTTHUMG00000002855.3|OTTHUMT00000488661.1|AL732372.1-203|AL732372.1|994|lincRNA|
+CACACACAGATACGGATTCAAAGAGACATGCACACTCTGAGTTTCTGAGAGTAAGCCACT
+GTCAGTTCCTGGGGTGAGCCACCAGCCACATGGACACAATTTCCTCTTTTTGATGGAAAC
+GTTTTCTTCCAAATTGTGCTGCACGTTTTTGGCGAGAGCATGGGGCTGTGCGGCGTCCCC
+TCCCTGGCGCCCACCTGTGCCCTGCACACTGGCCTGCACTGTGGTGATCTCGCTTGGCCC
+CCACCTGATTCCCGACATACAGCAGAGGAACCTTAGGCTCAGGTGGAACAGCCTCAACTG
+ATTCTGTCCCTGAACTTCCGTACACAGCCCTGGAGTCGTCTTAGAGCCATGATTTATTTA
+ACTGTTCTTTCATTTTACAGAACATAAAATGTATTGTTTCCAACTTTTTTCCTATGGTAA
+ATAATACTAAAGTAAATATCTCTGTGCATGAATCTTTTTGTATATGTTGGAATATCCTTA
+AGATAAGGCCCCAGAACTAAAAGTACCCTGTCAAAAGGTGAGCATTTCCGGTTCCCCTGC
+TGTGCTTTGCTGCGTTGTTCTCTCCTGCTGCAACGTTCTCACTCCACAATCCTGGGGCAG
+GGAGGGGAGGCCCAGCTGAGTTTGGATCATAATCCTGAAAGACACAATCCCAAGCACCAT
+AATGTGGAATGTTGAAATCCCTAAAGATCAAAATCCCTCAAGTCTAAAATCCCTGATATT
+TCAGATGACCACAGCTACAGGGCTAGGTGCACACAATTAGTAACCGTAGCGATATACGTG
+TACACGTTTCTCTTTTGACTTATTTCTTTATGGTCTGTCTTCTTATAACTGCTACACCCA
+TGCCGCCGTCGTTAGTTACCTCAGTGTTTATGCAAAAATACCTGTTATCATTGCCTATTT
+TATTGTGTAAAGTGGCCTATGAAATGTTCTGTTGTGTTTTTATGTTTCTCAAATACATAC
+CTTTTAAAAATGTAAATAAATAACATCGACATTA
+>ENST00000431321.2|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000007989.2|AL732372.2-201|AL732372.2|437|processed_transcript|
+CGGCACAGGAGCCAGTCATCATCCCCAAAGACACAGCTCCGAATACCTCATCCTGAAATC
+CCAAAGATCAAAATCCCAAAAGTATAAATCTGGAAAAAATAATGTCGATGTTATTTATTT
+ACATTTTTAAAAGGATTATGATCCAAACTCAGCTGGGCCTCCCCTCCCTGCCCCAGGATT
+GTGGAGTGAGAACGTTGCAGCAGGAGAGAACAACGCAGCAAAGCACAGCAGGGGAACCGG
+AAATGCTCACCTTTTGACAGGGTACTTTTAGTTCTGGGGCCTTATCTTAAGGATATTCCA
+ACATATACAAAAAGATTCATGCACAGAGATATTTACTTTAGTATTATTTACCATAGGAAA
+AAAGTTGGAAACAATACATTTTATGTTCTGTAAAATGAAAGAACAGTTAAATAAATCATG
+GCTCTAAGACGACTCCA
+>ENST00000453935.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000007990.1|AL732372.2-202|AL732372.2|498|processed_transcript|
+ATCCCAGCTACTCGGGAGGCTGAGGCAGGAGAATCACTTGAACCCGGGAGGCAGAGGTTG
+CAGTGAGCCGAGATCGCGCCCCTGCACTCCAGCCTGGGTGACAGAGCAAGACTCCATCTC
+AAAAAAAATAAAGGAAATATGCGTCGTTGGATGCTGTATGACAATCAAGCTACTTATAAC
+AAACAAAATTGAGAATGAAGGATTATGATCCAAACTCAGCTGGGCCTCCCCTCCCTGCCC
+CAGGATTGTGGAGTGAGAACGTTGCAGCAGGAGAGAACAACGCAGCAAAGCACAGCAGGG
+GAACCGGAAATGCTCACCTTTTGACAGGGTACTTTTAGTTCTGGGGCCTTATCTTAAGGA
+TATTCCAACATATACAAAAAGATTCATGCACAGAGATATTTACTTTAGTATTATTTACCA
+TAGGAAAAAAGTTGGAAACAATACATTTTATGTTCTGTAAAATGAAAGAACAGTTAAATA
+AATCATGGCTCTAAGACG
+>ENST00000440163.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346889.1|AL732372.2-203|AL732372.2|462|processed_transcript|
+TGGTGCTCTACAAGAAAAATCTGCTTTATAGATGAGGAAAGACCCTTGGGGCAGACAAGA
+CAGTCCCTGTTTGACATAATTCCTTTATCTCTTCTCCCCCAGCTCTGCTGCCCCCTGCCC
+CATACACGTGATGGAGCAGAAAACGTGCTGTGTGAACCTGTGACTTCAGGGCCTGTTGAC
+GTGGTCGTGCTTGCATACTCTCTGGACTGGACCTCACTGTGGGAACAACAAGATCAACAA
+GAGGAGCAAGAACAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGGTACAGGACGGGT
+ACAGACCCACACAGGAATCCCAGAGTGTGTTCCACAGCAGGACACGCCTGCGCTGAAAGA
+GTGGGCAGAAAGGAGCTGACCTGGGATTATGATCCAAACTCAGCTGGGCCTCCCCTCCCT
+GCCCCAGGATTGTGGAGTGAGAACGTTGCAGCAGGAGAGAAC
+>ENST00000455207.5|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000007991.1|AL732372.2-204|AL732372.2|413|processed_transcript|
+CTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAGCTCGAG
+GAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCTGCCTCT
+GAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCCTCTGCTGCCC
+CCTGCCCCATACACGTGATGGAGCAGAAAACGTGCTGTGTGAACCTGTGACTTCAGGGCC
+TGTTGACGTGGTCGTGCTTGCATACTCTCTGGACTGGACCTCACTGTGGGAACAACAAGA
+TCAACAAGAGGAGCAAGAACAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGGTACAG
+GACGGGTACAGACCCACACAGGAATCCCAGAGTGTGTTCCACAGCAGGACACG
+>ENST00000455464.7|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346907.3|AL732372.2-205|AL732372.2|902|processed_transcript|
+ATCGCAGCTGACTGCAGCCTCAACCTTCCAGGCTGAAGCGATCCTCCCACCTCAACCTCC
+CACGTGGCTGAGACTACAGGTGCTTGCCACTATGCCCAACTAACATTTGGAATTTTCGTA
+TACGTGGATTCCAGAGGGGTGACAGCGAAACCTGCAGGACAAGTTCGAGCATCTTAAAAT
+GATTCAACAGGAGGAGATAAGGAAGCTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAAT
+CATAGATTTTTATAAAATGAAAGCTGCCTCTGAAGCACTGCAGACTCAGCTGAGCACCGA
+TACAAAGAAAGACAAACATCCTGATCCATATGAATTCCTCTTATTAAGAAAAATAAAGCA
+TCCAGGATTCAATGAAGAACTGACTATCACCTTGTTAATCATTCAGAAACATGTTGCAGG
+CTTAAGCCATTTTTGATATAGATACTGAAACAATTACTTGCTAAGAGCAAACTTGAAGGT
+ATGGATAAGGCCCTGAGTCATCTTCCTGAGCTGAATGATAGTTAAGCTGAATGTACGTAT
+AAAATATGATTTTCTAACCACTTGCTCGCCAACAAGGAAAACTTTTAAGTAGAGCAGAAC
+CTGAATAGACAAGACATTTCTTTCTTTTGGTAGAAAATGATTTACCATCACTGTGTAGTT
+AATTGTAGACTAGGTAATTTTAACTTTGTGATTTATTGCCGGAGACATTTTCTTCTGTAC
+TGTAAAGTGTGTGTCAAAAAAAAAAAATAGCGATTTTGGAGGATTAGGGGACTTTGATAA
+ATTGCCTGCAATTCTGGCAGTATGAACTGCATATTAATTTCTCTCTTTCAAGAACATTTT
+TATTTATTAATTCCTTACAAAAACTCCCTAAACTTTGGAACAGCTCTCAATTGCCTGTAT
+TC
+>ENST00000601814.5|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000462548.1|AL732372.2-206|AL732372.2|635|processed_transcript|
+TAGGTGACCTCACAGTGACTCAAGCTACCACTTACTGTTGATTGTGACGAAATGCCAGCT
+GAGGCACATGCCTTGGGAGCTAAGTGGTTGCTGCCCTTGACCACTGTGAAGACTGGTGTG
+GGAAGGGTCGCTTTGGATGCACTTGAGCAGGGGTCCCCAACCCCTGAGCCATGGAGCCGC
+AAGGAGCCACACAGCAGGAGGTGGGACCATCCAGTTGCAGGAAAACAAGCTTAACACGCC
+CACTAATTCTACATTATGCTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAG
+GAGATAAGGAAGCTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTAT
+AAAATGAAAGCTGCCTCTGAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGAC
+AAACATCGTAAGAAGCAATAGTTTCTCTTACTATTCTGAGAGCCTTATCATTCTACATCC
+CATCTTCCTGTGAGTTTGTCTTTGTAGCATTTAACTCTAATTGCAGTTCTCATTTTAAAA
+ACTGGCTTGCTTATTGTATATTTTCCCCAACTAAAGCGTGAACTCCTAGCAGGGCGTGGT
+GGCTCATGCCTGTAATCTCAGCACTGTGGGAGGCC
+>ENST00000445840.2|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346882.2|AL732372.2-207|AL732372.2|183|transcribed_unprocessed_pseudogene|
+CTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAGCTCGAG
+GAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCTGCCTCT
+GAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCGTAAGAAGCAA
+TAG
+>ENST00000431812.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000007996.2|AL732372.2-208|AL732372.2|336|processed_transcript|
+GAAGATCCGTGAGGTGCCCAGAAGATCATGCAGTCATCAGTCCCACGGAGCAGCCTGCGA
+GGCTGAGGCTCCTCCCACTGGACCGCCCCCCAACTGGCACCACTGCTGCCCCTGCCCCTA
+CTCTCAGCCTCACGTGACTCTCGGGCAGAAGCAGTGGTGGGGCAGCCAGGGCAGCGTCAA
+GAGTCTGAGCCAGCTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGAT
+AAGGAAGCTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAAT
+GAAAGCTGCCTCTGAAGCACTGCAGACTCAGCTGAG
+>ENST00000419160.4|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346881.4|AL732372.2-209|AL732372.2|547|processed_transcript|
+TTTTACCAGGTGCCTATTGATACCATAGTTTAATTTCTTATAACTGTTTCTTATTTCACT
+TACCAACTCTGTCTTCAGTTACTCCCAGATTTTTACTGTGTGTGTACAGATGACCTTTTG
+TTTAGATTGAATTGTCTCCCCAGAAGTAAGATTACTGTGAGTCATGGTGAATGGACATTC
+TCCTTACCCTTGATGTAAATTGACAGGGTTTTGGGTGCCTCCCAGCTATAATCTTAGCAC
+TTTGGGAGGCTAAGAGAGGAGGATTGCTTGAGGCCAAGAGTTGGAGGAGGCAGTATGGCA
+GTATGGTGAGACCCTGTCTCCATTATTTTAAAAAATTGACAGGCCCAGCCTCTGCCTCCC
+GTCGGCCTCTGCAGTCCCAACGTCTGCCTCACAGCAGATTCTTCACGCCCAGCATCTACC
+TCACTGTGGACCCCCCAAGCCAAGCTCCCAACCTTTCAGCAGCTTCTACACACCCAGCTC
+CTGCCACCCAGTGGCCTCTTTAGGCCAAGCTCATGCTTCACAAGGGCCTTTCCAGGCCCA
+ACTTTTG
+>ENST00000440038.7|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346880.3|AL732372.2-210|AL732372.2|793|processed_transcript|
+GCACTTGAGCAGCGGTCTCCAACCACAGGGCCACAGAGCTGGAGCTGGATCTACCATGAA
+AGACTTGTGAATCCAGGAAGAGAGACTGACTGGGCAACATGTTATTCAGGGTCTCCCTCT
+GTTGTCCAAGGCTGGAGTGTAGTAGTGCTATCGCAGCTGACTGCAGCCTCAACCTTCCAG
+GCTGAAGCGATCCTCCCACCTCAACCTCCCACGTGGCTGAGACTACAGGTGCTTGCCACT
+ATGCCCAACTAACATTTGGAATTTTCGTATACGTGGATTCCAGAGGGGTGACAGCGAAAC
+GTGGGACCATCCAGTTGCAGGAAAACAAGCTTAACACGCCCACTAATTCTACATTATGCT
+CCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCAGTCAGCCTCTACAGACCAA
+GCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACGTCACGGCAGCCTCCGCAGA
+TGAGGCTACTGCCTCACAACAGCCTCCACAGGCACAGCTCCATCGTTACAATGGCCTCTT
+TAGACCCAGCTCCTGCCTCCCAGCCTTCTCTCCAGGCCCTGAACTTTCTCAAGTCGACCT
+CACCAGGCCCAGCTCATGCTTCTTTGCAGCCTCTCCAGGCCCAGCTCCTGCATCTTGGTG
+GCCCCTCCAGGCCCAGCCTCTGCCTCCCGTCGGCCTCTGCAGTCCCAACGTCTGCCTCAC
+AGCAGATTCTTCACGCCCAGCATCTACCTCACTGTGGACCCCCCAAGCCAAGCTCCCAAC
+CTTTCAGCAGCTT
+>ENST00000642074.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493597.1|AL732372.2-211|AL732372.2|574|processed_transcript|
+AAGACTGGTGTGGGAAGGGTCGCTTTGGATGCACTTGAGCAGGGGTCCCCAACCCCTGAG
+CCATGGAGCCGCAAGGAGCCACACAGCAGGAGGTGGGACCATCCAGTTGCAGGAAAACAA
+GCTTAACACGCCCACTAATTCTACATTATGCTCCTACCTCCCGGCAGCCTCTCCAGGCCC
+AGAACTTTCTCCAGTCAGCCTCTACAGACCAAGCTCATGACTCACAATGGCCTATTTAGG
+CCCATACCCTACGTCACGGCAGCCTCCGCAGATGAGGCTACTGCCTCACAACAGCCTCCA
+CAGGCACAGCTCCATCGTTACAATGGCCTCTTTAGACCCAGCTCCTGCCTCCCAGCCTTC
+TCTCCAGGCCCTGAACTTTCTCAAGTCGACCTCACCAGGCCCAGCTCATGCTTCTTTGCA
+GCCTCTCCAGGCCCAGCTCCTGCATCTTGGTGGCCCCTCCAGGCCCAGCCTCTGCCTCCC
+GTCGGCCTCTGCAGTCCCAACGTCTGCCTCACAGCAGATTCTTCACGCCCAGCATCTACC
+TCACTGTGGACCCCCCAAGCCAAGCTCCCAACCT
+>ENST00000423728.6|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346879.2|AL732372.2-212|AL732372.2|838|processed_transcript|
+AGATGGGGTCTTCTTTTGTTGCCCAGGCTGGCCACAAATTCCTGGGCTCAAGTGATCCTC
+CCACCTCGTCCTTGTAGAGATGAGATTTAGTTACGTCGTCCAGGCTGATCTCAAACTCCT
+GGGCTAAATCGATTGTCTCACCTCAGCCTCTCAAGTATGTTATGAAGGTTATATGTTAGG
+AAGGGTCCCAGGAGGTAGACCCACACAGATGGGATTTGGGCATAGGTTTGGTTTCCCAGG
+GGGCAGTGCTGAGCTCTTTGCCAGTGGGAAATGGGATGCTGGTGATTTCCAGTAGGTGAC
+CTCACAGTGACTCAAGCTACCACTTACTGTTGATTGTGACGAAATGCCAGCTGAGGCACA
+TGCCTTGGGAGCTAAGTGGTTGCTGCCCTTGACCACTGTGAAGACTGGTGTGGGAAGGGT
+CGTTTTGGATGCACTTGAGCAGGGGTCCCCAACCCCTGAGCCATGGAGCCGCAAGGAGCC
+ACACAGCAGGAGGTGGGACCATCCAGTTGCAGGAAAACAAGCTTAACACGCCCACTAATT
+CTACATTATGCTCCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCAGTCAGCC
+TCTACAGACCAAGCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACGTCACGGC
+AGCCTCCGCAGATGAGGCTACTGCCTCACAACAGCCTCCACAGGCACAGCTCCATCGTTA
+CAATGGCCTCTTTAGACCCAGCTCCTGCCTCCCAGCCTTCTCTCCAGGCCCTGAACTTTC
+TCAAGTCGACCTCACCAGGCCCAGCTCATGCTTCTTTGCAGCCTCTCCAGGCCCAGCT
+>ENST00000616311.5|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000480470.2|AL732372.2-213|AL732372.2|728|processed_transcript|
+CCCACACAGATGGGATTTGGGCATAGGTTTGGTTTCCCAGGGGGCAGTGCTGAGCTCTTT
+GCCAGTGGGAAATGGGATGCTGGTGATTTCCAGTAGGTGACCTCACAGTGACTCAAGCTA
+CCACTTACTGTTGATTGTGACGAAATGCCAGCTGAGGCACATGCCTTGGGAGCTAAGTGG
+TTGCTGCCCTTGACCACTGTGAAGACTGGTGTGGGAAGGGTCGTTTTGGATGCACTTGAG
+CAGGGGTCCCCAACCCCTGAGCCATGGAGCCGCAAGGAGCCACACAGCAGGAGGTGGGAA
+CATCCAGTTGCGGGAAAACAAGCTTAACACGCCCACTGATTCTACATTATGGGTCTCCCT
+CTGTTGTCCAAGGCTGGAGTGTAGTAGTGCTATCGCAGCTGACTGCAGCCTCAACCTTCC
+AGGCTGAAGCGATCCTCCCACCTCAACCTCCCACGTGGCTGAGACTACAGGTGCTTGCCA
+CTATGCCCAACTAACATTTGGAATTTTCGTATACGTGGATTCCAGAGGGGTGACAGCGAA
+ACGTGGGACCATCCAGTTGCAGGAAAACAAGCTTAACACGCCCACTAATTCTACATTATG
+CTCCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCAGTCAGCCTCTACAGACC
+AAGCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACGTCACGGCAGCCTCCGCA
+GATGAGGC
+>ENST00000599771.6|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000461272.1|AL732372.2-214|AL732372.2|457|processed_transcript|
+GTGGGAACATCCAGTTGCGGGAAAACAAGCTTAACACGCCCACTGATTCTACATTATGCT
+CCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCAGTCAGCCTCTACAGACCAA
+GCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACGTCACGGCAGCCTCCGCAGA
+TGAGCCTACTGCCTCACAACAGCCTCCACAGGCACAGCTCCATCGTTACAATGGCCTCTT
+TAGACCCAGCTCCTGCCTCCCAGCCTTCTCTCCAGGCTCTGAACTTTCTCAGGTCTCCCT
+CTGTTGTCCAAGGCTGGAGTGTAGTAGTGCTATCGCAGCTGACTGCAGCCTCAACCTTCC
+AGGCTGAAGCGATCCTCCCACCTCAACCTCCCACGTGGCTGAGACTACAGGTGCTTGCCA
+CTATGCCCAACTAACATTTGGAATTTTCGTATACGTG
+>ENST00000641845.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493598.1|AL732372.2-215|AL732372.2|571|processed_transcript|
+TATGTCCTGCAAGCTTAGGGGTGCTACAAGTTGACCACTGCAGCAGTAAAGATGACTCTG
+AAGAATGGCGTGGGATGGTTCCTTTCAAATGCACTTGAGCAGCGGTCTCCAACCACAGGG
+CCACAGAGCTGGAGGTGGACAGTCTAGTTGCAGGAAAACAAGCTCAGAGATCCCACTGAG
+TCTACGTTATACTGGATCTACCATGAAAGACTTGTGAATCCAGGAAGAGAGACTGACTGG
+GCAACATGTTATTCAGGTGGGAACATCCAGTTGCGGGAAAACAAGCTTAACACGCCCACT
+GATTCTACATTATGCTCCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCAGTC
+AGCCTCTACAGACCAAGCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACGTCA
+CGGCAGCCTCCGCAGATGAGCCTACTGCCTCACAACAGCCTCCACAGGCACAGCTCCATC
+GTTACAATGGCCTCTTTAGACCCAGCTCCTGCCTCCCAGCCTTCTCTCCAGGCTCTGAAC
+TTTCTCAGCTGAAGCGATCCTCCCACCTCAA
+>ENST00000641916.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493599.1|AL732372.2-216|AL732372.2|622|processed_transcript|
+CTGGGATTACAGGTGTGAGCCATCTTGCTCATTCTAGTTTAAACTTTTGAGTGGTTTGTG
+TCTCCTGATTGGACTCCTACAAATACAGAATTGATGCTAGGAAGGGTACCAGGAGATAGA
+CGCACACAGATGGGATTTGGGAATAGGTTTGGTTATCCAAGGAGCAGTGCTGAGCTCCTT
+GCAATGGGATATGGGATGCTGGTGATTTCTAGGAAGTGAGCTCACAATGACTCAAGCTGC
+CACATACTGTTGATTGTGAAATGCCAGTTGAAGCATATGTCCTGCAAGCTTAGGGGTGCT
+ACAAGTTGACCACTGCAGCAGTAAAGATGACTCTGAAGAATGGCGTGGGATGGTTCCTTT
+CAAATGCACTTGAGCAGCGGTCTCCAACCACAGGGCCACAGAGCTGGAGCTGGATCTACC
+ATGAAAGACTTGTGAATCCAGGAAGAGAGACTGACTGGGCAACATGTTATTCAGGTGGGA
+ACATCCAGTTGCGGGAAAACAAGCTTAACACGCCCACTGATTCTACATTATGGGTCTCCC
+TCTGTTGTCCAAGGCTGGAGTGTAGTAGTGCTATCGCAGCTGACTGCAGCCTCAACCTTC
+CAGGCTGAAGCGATCCTCCCAC
+>ENST00000601486.5|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000461271.1|AL732372.2-217|AL732372.2|696|processed_transcript|
+TGTTAGGAAGGGTCCCAGGAGGTAGACCCACACAGATGGGATTTGGGCATAGGTTTGGTT
+TCCCAGGGGGCAGTGCTGAGCTCTTTGCCAGTGGGAAATGGGATGCTGGTGATTTCCAGT
+AGGTGACCTCACAGTGACTCAAGCTACCACTTACTGTTGATTGTGACGAAATGCCAGCTG
+AGGCACATGCCTTGGGAGCTAAGTGGTTGCTGCCCTTGACCACTGTGAAGACTGGTGTGG
+GAAGGGTCGTTTTGGATGCACTTGAGCAGGGGTCCCCAACCCCTGAGCCATGGAGCCGCA
+AGGAGCCACACAGCAGGAGGTGGGAACATCCAGTTGCGGGAAAACAAGCTTAACACGCCC
+ACTGATTCTACATTATGCTCCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCA
+GTCAGCCTCTACAGACCAAGCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACG
+TCACGGCAGCCTCCGCAGATGAGCCTACTGCCTCACAACAGCCTCCACAGGCACAGCTCC
+ATCGTTACAATGGCCTCTTTAGACCCAGCTCCTGCCTCCCAGCCTTCTCTCCAGGCTCTG
+AACTTTCTCAGTAAGTTCAGGTAGCTGGGACTGTAGGGTCTCCCTCTGTTGTCCAAGGCT
+GGAGTGTAGTAGTGCTATCGCAGCTGACTGCAGCCT
+>ENST00000641579.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493600.1|AL732372.2-218|AL732372.2|545|processed_transcript|
+TATGTCCTGCAAGCTTAGGGGTGCTACAAGTTGACCACTGCAGCAGTAAAGATGACTCTG
+AAGAATGGCGTGGGATGGTTCCTTTCAAATGCACTTGAGCAGCGGTCTCCAACCACAGGG
+CCACAGAGCTGGAGCTGGATCTACCATGAAAGACTTGTGAATCCAGGAAGAGAGACTGAC
+TGGGCAACATGTTATTCAGGTGGGAACATCCAGTTGCGGGAAAACAAGCTTAACACGCCC
+ACTGATTCTACATTATGCTCCTACCTCCCGGCAGCCTCTCCAGGCCCAGAACTTTCTCCA
+GTCAGCCTCTACAGACCAAGCTCATGACTCACAATGGCCTATTTAGGCCCATACCCTACG
+TCACGGCAGCCTCCGCAGATGAGCCTACTGCCTCACAACAGCCTCCACAGGCACAGCTCC
+ATCGTTACAATGGCCTCTTTAGACCCAGCTCCTGCCTCCCAGCCTTCTCTCCAGGCTCTG
+AACTTTCTCAGGTCTCCCTCTGTTGTCCAAGGCTGGAGTGTAGTAGTGCTATCGCAGCTG
+ACTGC
+>ENST00000616947.2|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000480469.1|AL732372.2-219|AL732372.2|603|processed_transcript|
+CCCACACAGATGGGATTTGGGCATAGGTTTGGTTTCCCAGGGGGCAGTGCTGAGCTCTTT
+GCCAGTGGGAAATGGGATGCTGGTGATTTCCAGTAGGTGACCTCACAGTGACTCAAGCTA
+CCACTTACTGTTGATTGTGACGAAATGCCAGCTGAGGCACATGCCTTGGGAGCTAAGTGG
+TTGCTGCCCTTGACCACTGTGAAGACTGGTGTGGGAAGGGTCGTTTTGGATGCACTTGAG
+CAGGGGTCCCCAACCCCTGAGCCATGGAGCCGCAAGGAGCCACACAGCAGGAGGTGAGCG
+GTGTCGAGTGAGGGAGTGAGGGAAGCTTCGTCTGTATTTACAGCCACTCCCCTTTGCTCA
+CATTCCCACCTGAGCTCCACCTTCTCAGATGAGCAGCAGCGTTAGATTCTCATAGGAGAA
+CGCACCCTGTTGTGAACCGTGCATGTGAGGGATCTAGGTTGCGCTGTCCTTATGAGAGTC
+TAATACCTATTGATCTGTCACTTTCTCCCATCACGCTCAGGTGGGAACATCCAGTTGCGG
+GAAAACAAGCTTAACACGCCCACTGATTCTACATTATGGGTCTCCCTCTGTTGTCCAAGG
+CTG
+>ENST00000432964.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000346878.1|AL732372.2-220|AL732372.2|575|processed_transcript|
+AGATGGGGTCTTCTTTTGTTGCCCAGGCTGGCCACAAATTCCTGGGCTCAAGTGATCCTC
+CCACCTCGTCCTTGTAGAGATGAGATTTAGTTACGTCGTCCAGGCTGATCTCAAACTCCT
+GGGCTAAATCGATTGTCTCACCTCAGCCTCTCAAGTATGTTATGAAGGTTATATGTTAGG
+AAGGGTCCCAGGAGGTAGACCCACACAGATGGGATTTGGGCATAGGTTTGGTTTCCCAGG
+GGGCAGTGCTGAGCTCTTTGCCAGTGGGAAATGGGATGCTGGTGATTTCCAGTAGGTGAC
+CTCACAGTGACTCAAGCTACCACTTACTGTTGATTGTGACGAAATGCCAGCTGAGGCACA
+TGCCTTGGGAGCTAAGTGGTTGCTGCCCTTGACCACTGTGAAGACTGGTGTGGGAAGGGT
+CGTTTTGGATGCACTTGAGCAGGGGTCCCCAACCCCTGAGCCATGGAGCCGCAAGGAGCC
+ACACAGCAGGAGGTGGGAACATCCAGTTGCGGGAAAACAAGCTTAACACGCCCACTGATT
+CTACATTATGCTCCTACCTCCCGGCAGCCTCTCCA
+>ENST00000608420.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000472556.1|AL732372.2-221|AL732372.2|438|processed_transcript|
+GAAAGACTTGTGAATCCAGGAAGAGAGACTGACTGGGCAACATGTTATTCAGAATCTCCC
+TGTGCCATCCAGGCTGGAGTGCAGTGATGTGATCATAGCTCACTATAGCTTTGGCCTTCT
+GAGATCAAGCAATCCTCCCATCTCAACCTCCCAAGTAGCTAGGACTACACATGCATGTCA
+CCCATGCCCAGATCATTTTTGTAGAGTCAGAGTTTCACCGTGGTGGCCAGGTTGGCCATG
+TTGGCCAGATGGGGTCTTCTTTTGTTGCCCAGGCTGGCCACAAATTCCTGGGCTCAAGTG
+ATCCTCCCACCTCGTCCTTGTAGAGATGAGATTTAGTTACGTCGTCCAGGCTGATCTCAA
+ACTCCTGGGCTAAATCGATTGTCTCACCTCAGCCTCTCAAGTATGTTATGAAGGTTATAT
+GTTAGGAAGGGTCCCAGG
+>ENST00000641303.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493601.1|AL732372.2-222|AL732372.2|384|processed_transcript|
+AAGATTCCCTTGAGAACAAGTACTGTCCCTAGTTTCCCAGTGCTGGAATATAGAAAATGG
+ATGGACAACTGGACCTACCATGAAAGACTTCTGAATCCAAGAAGAGAAACTGACTGGGCA
+ACATGTTATTCAGAAACAGGACCTTGCCCTGTCACTCAGGATGGAGTTCAGTGGTCCTAT
+CATGGCTCATTATAGCCTCAAACTCCCAGGCTCAAGCAATCCTACCATGTCAGCCTTCCC
+AGTAGCTGGGACTACAGAGACGAGGTTTCGCCATGTTTCCCAGACTGTTCTCAAACTCCT
+GAGCTCAAAGCAGTCCACCCACCTTGGCCTCCCAGAGTTCTGGGATTACAGCTGGATCTA
+CCATGAAAGACTTGTGAATCCAGG
+>ENST00000641063.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493602.1|AL732372.2-223|AL732372.2|473|processed_transcript|
+CCTAGTTTCCCAGTGCTGGAATATAGAAAATGGATGGACAAGTAAATCCCACTCAGCACC
+CATAGTCCAGCTGGACCTACCATGAAAGACTTCTGAATCCAAGAAGAGAAACTGACTGGG
+CAACATGTTATTCAGAAACAGGACCTTGCCCTGTCACTCAGGATGGAGTTCAGTGGTCCT
+ATCATGGCTCATTATAGCCTCAAACTCCCAGGCTCAAGCAATCCTACCATGTCAGCCTTC
+CCAGTAGCTGGGACTACAGGAAGTGAGCTCACAATGACTCAAGCTGCCACATACTGTTGA
+TTGTGAAATGCCAGTTGAAGCATATGTCCTGCAAGCTTAGGGGTGCTACAAGTTGACCAC
+TGCAGCAGTAAAGATGACTCTGAAGAATGGCGTGGGATGGTTCCTTTCAAATGCACTTGA
+GCAGCGGTCTCCAACCACAGGGCCACAGAGCTGGAGCTGGATCTACCATGAAA
+>ENST00000641049.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493603.1|AL732372.2-224|AL732372.2|519|processed_transcript|
+CATGAAAGACTTCTGAATCCAAGAAGAGAAACTGACTGGGCAACATGTTATTCAGAGATG
+GGACCTCAGTATGTTGCCATGGCTGACCTTGAACTCCTGCACTCAAGGGATTTTCCTACC
+CTGGCCTCCCAAAGTATTGGTATTACAGGCATGAGCCATTGTGCCCACCGTCTCTGGTTC
+TTAACCTTCTGCCTCCCTCTTCCAGTTTTAAAGAATGCTTGTAATTACATGGGCTCTCCT
+AGATACTCCAGGATAATCTTGTTTTAAGGTCAGCTGATGAGCAACATTAATTTTATCTGC
+ACTCTTAATTCCCCCTTCCTATGTAATTGTGCTGTGTAACATAGGACATGAGCAATTGGT
+GGCGGTGGGGGTTATTACTTTGGCCACCACAGTAACTATTTTATGCCAGGTACTCAGCTA
+AGCACTGGTGAATTAAGCATGAATAACACACACTCCTTAATCTCCATCCATTCATGGGAG
+GAGCACTTCACCTGCCATGCTCCTGAGAATCTCGGGAGT
+>ENST00000642124.1|ENSG00000237094.12|OTTHUMG00000002857.7|OTTHUMT00000493604.1|AL732372.2-225|AL732372.2|456|processed_transcript|
+TCTACTAATGGAATTCCTGGCCTTGAGAGGATGTTACTTTAGAAGGAAAGGATTTTTTTG
+TTATTAAAAGAGCCACCTAAGCTGAAGATTCCCTTGAGAACAAGTACTGTCCCTAGTTTC
+CCAGTGCTGGAATATAGAAAATGGATGGACAACTGGACCTACCATGAAAGACTTCTGAAT
+CCAAGAAGAGAAACTGACTGGGCAACATGTTATTCAGAAACAGGACCTTGCCCTGTCACT
+CAGGATGGAGTTCAGTGGTCCTATCATGGCTCATTATAGCCTCAAACTCCCAGGCTCAAG
+CAATCCTACCATGTCAGCCTTCCCAGTAGCTGGGACTACAGGTAAGCATCGTGACACTCA
+GTGAATTTTGTTTTTATTTTGTTGTAGAGATGGGACCTCAGTATGTTGCCATGGCTGACC
+TTGAACTCCTGCACTCAAGGGATTTTCCTACCCTGG
+>ENST00000437905.2|ENSG00000269732.1|OTTHUMG00000002859.2|OTTHUMT00000007998.2|WBP1LP7-201|WBP1LP7|363|processed_pseudogene|
+GACTCCTGGGTGGCATGGAGCTCTTGCACCTCTAGGCACTGCCCAGCCCTGTGTCAGCCA
+GGGCTGAACCCCCACAGGATAAGGAAGCCTGTGTGTGTACCAACAATCAAAGCTACATCT
+GTGACACAACAGGACACTGCTATGGGCAGTCTCAGTGTTGTAACTACTACTATGAACATT
+GGTGGTTCTGGCTCGCGTGGACCATCACCATCATCCTGAGCTGCTGCTGTGTCTGCCACC
+ACAGCCAAGCCAGCCCTCAAGTCCAGCAGTAGCAACATGAAATCAACCTGCCTGCCTATC
+CAGAAGCCCGCAATTACTCAGTGCTACCATTTTATTTCACCAAACTATTTATTACCTTCT
+TAT
+>ENST00000426406.3|ENSG00000284733.1|OTTHUMG00000002860.3|OTTHUMT00000007999.3|OR4F29-201|OR4F29|995|protein_coding|
+AGCCCAGTTGGCTGGACCAATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTT
+TCTGGGACTCACTCATTCATGGGAGATCCAGCTCCTCCTCCTAGTGTTTTCCTCTGTGCT
+CTATGTGGCAAGCATTACTGGAAACATCCTCATTGTGTTTTCTGTGACCACTGACCCTCA
+CTTACACTCCCCCATGTACTTTCTACTGGCCAGTCTCTCCTTCATTGACTTAGGAGCCTG
+CTCTGTCACTTCTCCCAAGATGATTTATGACCTGTTCAGAAAGCGCAAAGTCATCTCCTT
+TGGAGGCTGCATCGCTCAAATCTTCTTCATCCACGTCGTTGGTGGTGTGGAGATGGTGCT
+GCTCATAGCCATGGCCTTTGACAGATATGTGGCCCTATGTAAGCCCCTCCACTATCTGAC
+CATTATGAGCCCAAGAATGTGCCTTTCATTTCTGGCTGTTGCCTGGACCCTTGGTGTCAG
+TCACTCCCTGTTCCAACTGGCATTTCTTGTTAATTTAGCCTTCTGTGGCCCTAATGTGTT
+GGACAGCTTCTACTGTGACCTTCCTCGGCTTCTCAGACTAGCCTGTACCGACACCTACAG
+ATTGCAGTTCATGGTCACTGTTAACAGTGGGTTTATCTGTGTGGGTACTTTCTTCATACT
+TCTAATCTCCTACGTCTTCATCCTGTTTACTGTTTGGAAACATTCCTCAGGTGGTTCATC
+CAAGGCCCTTTCCACTCTTTCAGCTCACAGCACAGTGGTCCTTTTGTTCTTTGGTCCACC
+CATGTTTGTGTATACACGGCCACACCCTAATTCACAGATGGACAAGTTTCTGGCTATTTT
+TGATGCAGTTCTCACTCCTTTTCTGAATCCAGTTGTCTATACATTCAGGAATAAGGAGAT
+GAAGGCAGCAATAAAGAGAGTATGCAAACAGCTAGTGATTTACAAGAGGATCTCATAAAT
+GATATAATAAGCCCTTCTCATTAAACATGATATGG
+>ENST00000432723.3|ENSG00000233653.3|OTTHUMG00000057429.3|OTTHUMT00000127609.3|CICP7-201|CICP7|2477|processed_pseudogene|
+CGGCCCCCAGGCCTGCGTTCAGTGAGGCCTCCCGTGGCGTCAGCATGTTCGTGTGGAGGA
+ATGTGGAAGGTCACTCTGCGGCCGTGTTCTCCTGGTACTCCATCCCCTTCCTGACCCCTC
+CCTGCAGCCACACGAGGCCCAGCAACCTGCCAGTCACTCAGTGGCCTCCAACCAGAGAAA
+ACAACCTGCCAAGTTGGCAGCCGTTGCTCATGAGCGTCCACCAGGTGGGACAGGGAGTGT
+TGACCCTGGGCGGCCCCCTGGAGCCACCTGCCCTGAAAGCCCAGGGCCCGCAACCCCACA
+CACTTTGGGGGTGGTGGAACCTGGTAAAAGCTCACCTCCCACCATGGAGGAGGAGCCCTG
+GGCCCCTCAGGGGAGTCCCTGCTGGACAGTGAGACAGAGAATGACCATGATGATGCTTTC
+CTCTCCATCATGTCTCCTGACACCCAGTTGCCTCTACCACTCAGATGATGTCAGGCCCAG
+TCCCTCAGTGCCCTGCGCAAGGAACAGGACTCATCTTCTGAGAAGGATGGACGCAGCCCC
+AACAAATCAGACAAGGACCACATCCGGTGGCCCATGAGTGGCGCTCATGATCTTCAGCAG
+GCGGCACCAGGCCCTGGCGGGGCGCACCAGGGTCACCCCAACCAGGATAACCGGACCGTC
+AGCCAGATGCTGAGCGAGCGGTGGTACACCCTGGGGCCCAATGAGATGCAGAAATACAAC
+CTGGCCTTCCAGGTGAAGGTGGCCCACTTGCAACAAGGACCGAAAGAAGTCCAGCTCAGA
+GGCCAAGCCCACAAGCCAGGGGCTAGCAGGAGTGTAACAAGGGCTCGTGGGAGCGGAGCA
+TATCAGAGACGGGCACGGCCACTGCCCCTGGGGTGTCCTCTGAACTCCTGTCAGTTGCAG
+CCCAAACACTCCAGAGCTCGGATACCAAGGAGCAGCTTCTGTGGGGCAGAACGGCTGCAC
+ACAGTCAGGGAACCTGGCTCAGCCTGGCCCAAGCCTTCTCCCACAGCGGGGTACACAGCC
+TGGACGGCAGGGAAATAGACCGTCAGGCACTACGGGAACTGACACAGGTGGTGTCTGGCA
+CTGCATCATACTCTGGCCCAAAGCCTTCTACTCAGCATGGAGCTCCAGGCCACTTTGCAG
+CCCCTGGTGAGGGAGGTGACCCGTGGGCAGCCCTGCTGCCGCCCACGTGAGCTGCTCATT
+CCCAGCACATGGCCAGCGAGGTCATAGCGAGTGACGAAGAGCACACGGTCATCCATGAGG
+AGGAGGGGGTGATGATGTCATTGCTGATGATGGCTTTAGCACCACCGACACCGATCTCAA
+GTTCAAGGAGTGGGTGACCGACTGAGAGTGGGGACAACTCTGGGGAGGAGCCAGAGGGCA
+ACAAGGGCTTTGGTGGGAAGGTATTTGCACCTGTCATTCCTTCCTCCTTTACTCCTGCCG
+CCCCTTGCTGGATCCTGAGCCCCCAGGGTCCCCCGATCCACCTGCAGCTTTTGGCAGTCT
+ATGGTCACACCCTGTCCTCCTCCTACACGTACTCGGATGCTTCCTCCTCAACCTTGGCAC
+CCACCTCCTTCTTACTGGGCCCAGGAGCCTTCAAAGCCCAGGAGTCTGGTCAACGCAGCA
+GAGCGGGCCCCCTACGGCCCCAACCCCTGGGGATGGGGGCCCAGGGACGCCTTCCAAGGT
+GGCCTGTTTCCTCCCAATGGATCCTGCCACCTTCTGGTGCAAGAGACCTGAAAGTGTGGG
+CGACCTGGAGCTACCAGGCTCCTCAGTCATCAGGGTCCCTCCCAACACTAAGGCTTTCCT
+AGGCAGGAGCTGGGCTGAGCCACCCGGGGGGCAGAGCCTGAAGAGAAACTGACTGGGCTT
+TCGGGGTCGGGGCAGAGGGAACCCCACGGACATGGATCCCACACTGGAGGACCCCACCGC
+GCCCAAATGCAAGACGAGAAGATGCTCCAGCTGCAGTCCAAAGCCCAACACCCCCAAGTG
+TGCCATGTGTGATGGGGACAGCTTCCCCTTTGCCTGTACAGGTGGAGAAGCCGAGGACAG
+GCTCAGGGAACCGGAGACCGAGAAGGCGCTGTCCTCTTCACTGCACGTACCCTGGACCAG
+TGCCGGCCCTGATCATGCAGCTCTTCCAGGCCCACTGCTTCTTCCTGTCCACTAGGCCAC
+AGCCGCCCTCCAGGCCCACTATGCACACATCTTCCCCTCCAAGGTTTGTTCTGCCCCTGC
+CCTGACTCCCAGCCCTGTGGGGGTCCTGACCGCACCTCACCTGGCTCAGACTCTTGACGC
+TGCCCTGGTCCACTGCTGCTGCCCCTGCCCTGACTCCCAGCCCTGCCTGACCCCACCTCA
+ACCTGCTCAGGCTCTGGCACAACCCTGGCTGCCCTGCCACTGCCTCTGCCCCAGAGTTGG
+GGCCTTGACAGCCTGGTTGGAAGGGGACACCCCAGCCCTGCCTCAACACCTGGGGGTCTC
+CATAACTACCACAGGCA
+>ENST00000514436.1|ENSG00000250575.1|OTTHUMG00000002861.2|OTTHUMT00000008000.2|AL732372.3-201|AL732372.3|1239|unprocessed_pseudogene|
+ATGGGGCTCATTCCTGACAACGGCCTTTCCAGGCCCAGTTTTTCCCTTCCGGCGGCCTCT
+CCGGGCCCAGAACCTCCTCAAGTCGGCCTCTCCAGACCCACTTGCACCCTCCGGGCGTTC
+TCTCCGGGCCCAGCTCTTCTTCCTGGTTGGGTCTCCAGGCCCGATTCCTGCCTCTCAACA
+ACCTCTTTGGACTCAGTGCCTACCCATCTCCTGGCGGCCTTGGTCGGCCCACAGCTTCCT
+CAAGCCAAGCTCCCCAGGCCCAGGTCAGGCCTCACGGTGGCCTCTCCAGGATGAGCTCCT
+GCCCTCCGATGGCATCTCCAGGCCCCAAATGGTCTCCGGTCGGTGGGCTCCTCCACGCCA
+AGGTTGGGCCTCCCGGCGACCGCCGCAGGCCCAAGTTGTCCTGAAGTCGGGCTCTCCCGG
+CCCTGCCTCCCAGCAAGTAAGCAAGCTCTTTTGGCTCAACTCCTGCCCAGCTCCTGAAGA
+GCTTGGTTGCAGAAACTTTGGGGTCTACAAACGCAGGCGGGAGCTGAGCCAAAAGAGCTT
+GTTTGCTGGGAGGTGGGAGATGCAGCCAGGAGGAACAGCTGGGCAATGCGGGAGGCAGAG
+GCCAGGCCTCCTTAAGTTGGCCTCTCAGACCCACTTGCAGCCTCCCGGCGCCCCCTCCGG
+GCCCAGCTCTTCCTCCCGGCTGCATCTCCAGGCCGGACTCTGGCCCGACTCCAGGTCCCA
+ACAACGTCTTTGGACTCAGCTCCTGCCCAGCTCCCAGCGGCCCTGGTAGGCCCACAACTT
+CCCTAAGCCAAGCTCCCCAGGCCCAGCTCAGGCCTCGCGGTGGCCTCTCCAGGCTCAGCT
+CCTGGCCCTCCGATGACATCTGCAGGCCCCAAATGGCCTCCGGTCGGTGGGCTCCTCTAG
+GCCCAGCTTGGGCCTCCCGGCGGCCTCCGCAGGCCCAAATCGTCCCGAAGTCAGTCTCTC
+CAGGCTTAGCTCCAGCCTCCCGGCGGCCTCTGCAGGCCCAAGTCGTCCTCAAGTCGGCCT
+GGAAGTGGGCCTGGAAGAGCAGCAAGTCGGCCTCCCTGGGCCCAGCTCCGTCCTCTCGAC
+GGCCTCTCCAGGTGCAAAACTTCCTCGAGTCAGCCTCTCCAGGCCCAGCTCCTCCTGCCT
+CCCAGTGGCCTCTTTCGGCCCAGCCCAGCTCATGGCTCTCGGCGGCCTTCCCAGGCCCCG
+CTTTTGACTTTTGGCAGCCTCTTCAGGCGCAGAACTTGA
+>ENST00000614007.1|ENSG00000278757.1|-|-|U6.90-201|U6|104|snRNA|
+ATGCTTGCCTCAGTAGCACACATACTTAAGTTGGAACAATAGAGAGATTGGCACGGCCTC
+TGTGAAAGAATGACATGCAAATTTGTGAAGCATTCCATATTTTT
+>ENST00000634833.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000488646.2|AL669831.3-201|AL669831.3|906|processed_transcript|
+ACTCACTATAACCTCAAACTCCTGGGCTCAAGCAATCCTCCCACCTCAGCCTCCGGAGTA
+GCTGGGACTACAGCTCTGCTGCCCCCTGCCCCATACACGTGATGGAGCAGAAAACGTGCT
+GTGTGAACCTGTGACTTCAGGGCCTGTTGACGTGGTCGTGCTTGCATACTCTCTGGACTG
+GACCTCACTGTGGGAACAACAAGATCAACAAGAGGAGCAAGAACAACATCAAGAGTCAGG
+GCCCGGGGGTCCTGACGGGTACAGGATGGGTACAGACCCACACAGGAATCCCAGAGTGTG
+TTCCACAGCAGGACACGCCTGCGCTGAAAGAGTGGGCAGAAAGGAGCTGACCTGGGATTA
+TGATCCAAACTCAGCTGGGCCTCCCCTACCTGCCCCAGGATTGTGGAGTGAGAACGTTGC
+AGCAGGGGAGAACAACGCAGCAAAGCACAGCAGGGGAACCGGAAATGCTCACCCTTTGAC
+AGGACCAAACCAATGCACAACTCCTACGTACTGATGGTGGTCTTACGTTTCCCTAAGTTT
+CTGCCGACTAAACTGTGCACACGTTCTCAGGACCTCCTGAAGCTGCGTCACAGGCGCTGA
+TCAAAGAACACAACCAAGAGTTTGGCCTTTTCTTCAGCACTGGGAATTGTGATCCAAAGC
+TTTTCCTGATGAGGCACAAAGTTGGAGAAACAAAACGCAAACTAAGCAACAATGAAACAG
+AACAGAGTGAATCTGCTGTAGCTCAAGAGAGGACGTAGCTGCCCCCACCCCGCATCCCCG
+GGCTCGGGTTTGCCTTGCTGACCTCTGCTGCCACCTGGTGCCGCACAGAGAAACTGAGGA
+GAAACCACATCAGTCTCCTTCAGCCTCAGCTTCACATCTGTGGGTCAAGCAACCCTTTCA
+GAAGCT
+>ENST00000417636.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000006453.2|AL669831.3-202|AL669831.3|553|processed_transcript|
+AATATCTCGTCATGGACTGTGCCCCGCTCGAGCCTCTCCACAGGCAGCCGGAAGGAAAGT
+GGAGGGAGCTGCTCCTTTCCGTAGCCGGGGTGCCCACCCCAACCAGGCTGCCTCTGCCAC
+CCAAGACAGAGGTTCTCTGATAATAATTTGTGGGGCTTGTTTCCAGAGACCACACCTGAA
+GCTGCCAACTCCCCGGAGGGAAGGTCCTGATTAATGGCCGATGAATTTCTCCTTAAGGCC
+CTGAAACTGCCTACTCAGAACCAAGCCAGTTTTTCCTGCCTGTCCTGTTTGGGCAGGCAG
+AGGAGGCAGCTAGAAACCCATTATGCAGGGGATGGGGACCAAACCAATGCACAACTCCTA
+CGTACTGATGGTGGTCTTACGTTTCCCTAAGTTTCTGCCGACTAAACTGTGCACACGTTC
+TCAGGACCTCCTGAAGCTGCGTCACAGGCGCTGATCAAAGAACACAACCAAGAGTTTGGC
+CTTTTCTTCAGCACTGGGAATTGTGATCCAAAGCTTTTCCTGATGAGGCACAAAGTTGGA
+GAAACAAAACGCA
+>ENST00000419394.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000008017.2|AL669831.3-203|AL669831.3|491|processed_transcript|
+GACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAGCTCGAGGAAGAG
+AAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCTGCCTCTGAAGCA
+CTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCCTGATCCATATGAATTC
+CTCTTATTAAGAAAAATAAAGCATCCAGGATTCAATGAAGAACTGACTATCACCTTGTTA
+ATCATTCAGAAACATGTTGCAGGCTTAAGCCATTTTTGATATAGATACTGAAACAATTAC
+TTGCTAAGAGCAAACTTGAAGGTATGGATAAGGCCCTGAGTCATCTTCCTGAGCTGAATG
+ATAGTTAAGCTGAATTAACAATTTGGACAAGACAGCAAATGCTATTGTCCAAGTTTTCTA
+AAGAAGAATCTGAAGTGAAATGACATCAAGAGACCTATCAAGACCTGTATCCAGGAAAAG
+ACCAAACCAAT
+>ENST00000440196.3|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000493605.1|AL669831.3-204|AL669831.3|1022|processed_transcript|
+GGGGAAGTATGTAGGAGTTGAAGATTAGTCCGCCGTAGTCGGTGTATTCGTAGGTTCAGT
+ACCATTGATGGCCAATTGATTTGATGACCTTAGTTTAGGTATTGGGGCCAAAGGATGGAT
+GACCATTTCAAACGATCCAGGCTAAGCCAGGAGGAGAGCTCAAAGTCTGATCTGCTCTGC
+TGCCCCCTGCCCCATACACGTGATGGAGCAGAAAACGTGCTGTGTGAACCTGTGACTTCA
+GGGCCTGTTGACGTGGTCGTGCTTGCATACTCTCTGGACTGGACCTCACTGTGGGAACAA
+CAAGATCAACAAGAGGAGCAAGAACAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGG
+TACAGGATGGGTACAGACCCACACAGGAATCCCAGAGTGTGTTCCACAGCAGGACACGCC
+TGCGCTGAAAGAGTGGGCAGAAAGGAGCTGACCTGGGATTATGATCCAAACTCAGCTGGG
+CCTCCCCTACCTGCCCCAGGATTGTGGAGTGAGAACGTTGCAGCAGGGGAGAACAACGCA
+GCAAAGCACAGCAGGGGAACCGGAAATGCTCACCCTTTGACAGGGTACTTTTAGTTCTGG
+GGCCTTATCTTAAGGATATTCCAACATATACAAAAAGATTCATGCACAGAGATATTTACT
+TTAGTATTATTTACCATAGGAAAAAAGTTGGAAACAATACATTTTATGTTCTGTAAAATG
+AAAGAACAGTTAAATAAATCATGGCTCTAAGACGACTCCAGGGCTGTGTACGGAAGTTCA
+GGGACTGAATCAGTTGAGGCTGTTCCACCTGAGCCTAAGCTTCCTCTGCTGTATGTCAGG
+AATCAGGTGGGGGCCAAGCGAGATCACCACAGTGCAGGCCAGTGTGCAGGGCACAGGTGG
+GCGCCAGGGAGGGGACGCCGCACAGCCCCATGCTCTCGCCAAAAACGTGCAGCACAATTT
+GGAAGAAAACATTTCCATCTGTTAATAAAGAGCAACGGCCTCTGGTCATAAGTGACACAT
+GA
+>ENST00000641296.1|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000493606.1|AL669831.3-205|AL669831.3|1127|processed_transcript|
+GGCTGGCCCAGTTCGGCTCGAATAAGGAGGCTTAGAGCTGTGCCTAGGACTCCAGCTCAT
+GCGCCGAATAATAGACCTTAGTTTAGGTATTGGGGCCAAAGGATGGATGACCATTTCAAA
+CGATCCAGGCTAAGCCAGGAGGAGAGCTCAAAGTCTGATCTGGGCTGGACTCTTGGTCTG
+TCGTCCAGGATAGAGGGCAGGGATGCCATCACTACTCACTATAACCTCAAACTCCTGGGC
+TCAAGCAATCCTCCCACCTCAGCCTCCGGAGTAGCTGGGACTACAGCTCTGCTGCCCCCT
+GCCCCATACACGTGATGGAGCAGAAAACGTGCTGTGTGAACCTGTGACTTCAGGGCCTGT
+TGACGTGGTCGTGCTTGCATACTCTCTGGACTGGACCTCACTGTGGGAACAACAAGATCA
+ACAAGAGGAGCAAGAACAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGGTACAGGAT
+GGGTACAGACCCACACAGGAATCCCAGAGTGTGTTCCACAGCAGGACACGCCTGCGCTGA
+AAGAGTGGGCAGAAAGGAGCTGACCTGGGATTATGATCCAAACTCAGCTGGGCCTCCCCT
+ACCTGCCCCAGGATTGTGGAGTGAGAACGTTGCAGCAGGGGAGAACAACGCAGCAAAGCA
+CAGCAGGGGAACCGGAAATGCTCACCCTTTGACAGGGTACTTTTAGTTCTGGGGCCTTAT
+CTTAAGGATATTCCAACATATACAAAAAGATTCATGCACAGAGATATTTACTTTAGTATT
+ATTTACCATAGGAAAAAAGTTGGAAACAATACATTTTATGTTCTGTAAAATGAAAGAACA
+GTTAAATAAATCATGGCTCTAAGACGACTCCAGGGCTGTGTACGGAAGTTCAGGGACTGA
+ATCAGTTGAGGCTGTTCCACCTGAGCCTAAGCTTCCTCTGCTGTATGTCAGGAATCAGGT
+GGGGGCCAAGCGAGATCACCACAGTGCAGGCCAGTGTGCAGGGCACAGGTGGGCGCCAGG
+GAGGGGACGCCGCACAGCCCCATGCTCTCGCCAAAAACGTGCAGCACAATTTGGAAGAAA
+ACATTTCCATCTGTTAATAAAGAGCAACGGCCTCTGGTCATAAGTGA
+>ENST00000357876.6|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000006709.3|AL669831.3-206|AL669831.3|1702|processed_transcript|
+CACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCT
+GCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGAGACGGCAC
+CCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTC
+GCAGTTTCCACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCACAC
+CGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGA
+GACGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGAGACGGCACCCGCG
+TGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGT
+TTCCACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGA
+GCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGAGACGG
+CACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGT
+GTCGCAGTTTCCACACCGTGAGCTGCTGAGACGGCACCCGCGTGAGTGTCGCAGTTTCCA
+CACCGTGAGCTGCTGAGATGGCACCCGCGTGAGTGTCGCAGTTTCCACACCGTGAGCTGC
+TGAGATGGCACCCGTGTGAGTGTCGCAGTTTCTACACGTGCCTCATTGCGTGTAAGATGC
+TCAAGTGAGAGGAAGCTGGTGAACGGGTCTGTGGGAAGTTGCAGTACTGTCTTTGCAACT
+CTTCTGGACATCTTTTTTTTTTTTTTAAATAAAACATTTTTAACGTGAAAATATGCAGAG
+CACGGTGGCTCGCACCTGTAATCCCAGCACTTTGGGAGGCCGAGGCAGGTGGATCATGAG
+GTCAGGAGTTCAAGACCAGCCTAGCCAACATGGTGAAACCCCATCTCTACTAAGAATACA
+AAAATTAGCTGGGCGTGGTGATGGGCATCTGTAATCCCAGCTACTCGGGAGGCTGAGGCA
+GGAGAATCACTTGAACCCGGGAGGCAGAGGTTGCAGTGAGCCGAGATCGCGCCCCTGCAC
+TCCAGCCTGGGTGACAGAGCAAGACTCCATCTCAAAAAAAATAAAGGAAATATGCGTCGT
+TGGATGCTGTATGACAATCAAGCTACTTATAACAAACAAAATTGAGAATGAAGGATTATG
+ATCCAAACTCAGCTGGGCCTCCCCTACCTGCCCCAGGATTGTGGAGTGAGAACGTTGCAG
+CAGGGGAGAACAACGCAGCAAAGCACAGCAGGGGAACCGGAAATGCTCACCCTTTGACAG
+GGTACTTTTAGTTCTGGGGCCTTATCTTAAGGATATTCCAACATATACAAAAAGATTCAT
+GCACAGAGATATTTACTTTAGTATTATTTACCATAGGAAAAAAGTTGGAAACAATACATT
+TTATGTTCTGTAAAATGAAAGAACAGTTAAATAAATCATGGCTCTAAGACGACTCCAGGG
+CTGTGTACGGAAGTTCAGGGACTGAATCAGTTGAGGCTGTTCCACCTGAGCCTAAGCTTC
+CTCTGCTGTATGTCAGGAATCAGGTGGGGGCCAAGCGAGATCACCACAGTGCAGGCCAGT
+GTGCAGGGCACAGGTGGGCGCC
+>ENST00000635509.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000488653.2|AL669831.3-207|AL669831.3|941|processed_transcript|
+GGAAGTTGGGTGGAAGCAGCGCGGACCCACGGCGCACCGAACGCACTCCAACAGAACCCG
+ACGCAGACACGCGCTTTCAACCGGCGGAGACACTGGCAGGCTGATCCATATGAATTCCTC
+TTATTAAGAAAAATAAAGCATCCAGGATTCAATGAAGAACTGACTATCACCTTGTTAATC
+ATTCAGAAACATGTTGCAGGCTTAAGCCATTTTTGATATAGATACTGAAACAATTACTTG
+CTAAGAGCAAACTTGAAGGTATGGATAAGGCCCTGAGTCATCTTCCTGAGCTGAATGATA
+GTTAAGCTGAATGACTGGACCTCACTGTGGGAACAACAAGATCAACAAGAGGAGCAAGAA
+CAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGGTACAGGATGGGTACAGACCCACAC
+AGGAATCCCAGAGTGTGTTCCACAGCAGGACACGCCTGCGCTGAAAGAGTGGGCAGAAAG
+GAGCTGACCTGGGATTATGATCCAAACTCAGCTGGGCCTCCCCTACCTGCCCCAGGATTG
+TGGAGTGAGAACGTTGCAGCAGGGGAGAACAACGCAGCAAAGCACAGCAGGGGAACCGGA
+AATGCTCACCCTTTGACAGGGTACTTTTAGTTCTGGGGCCTTATCTTAAGGATATTCCAA
+CATATACAAAAAGATTCATGCACAGAGATATTTACTTTAGTATTATTTACCATAGGAAAA
+AAGTTGGAAACAATACATTTTATGTTCTGTAAAATGAAAGAACAGTTAAATAAATCATGG
+CTCTAAGACGACTCCAGGGCTGTGTACGGAAGTTCAGGGACTGAATCAGTTGAGGCTGTT
+CCACCTGAGCCTAAGCTTCCTCTGCTGTATGTCAGGAATCAGGTGGGGGCCAAGCGAGAT
+CACCACAGTGCAGGCCAGTGTGCAGGGCACAGGTGGGCGCC
+>ENST00000634337.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000488647.3|AL669831.3-208|AL669831.3|891|processed_transcript|
+GGAGCCTCACGCGCCTCTTACCTAACAGGAAGTTGGGTGGAAGCAGCGCGGACCCACGGC
+GCACCGAACGCACTCCAACAGAACCCGACGCAGACACGCGCTTTCAACCGGCGGAGACAC
+TGGCAGGGTTTATATGTGGAAGAGACTTGCCCTGTCTCAGCTCTGCTGCCCCCTGCCCCA
+TACACGTGATGGAGCAGAAAACGTGCTGTGTGAACCTGTGACTTCAGGGCCTGTTGACGT
+GGTCGTGCTTGCATACTCTCTGGACTGGACCTCACTGTGGGAACAACAAGATCAACAAGA
+GGAGCAAGAACAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGGTACAGGATGGGTAC
+AGACCCACACAGGAATCCCAGAGTGTGTTCCACAGCAGGACACGCCTGCGCTGAAAGAGT
+GGGCAGAAAGGAGCTGACCTGGGATTATGATCCAAACTCAGCTGGGCCTCCCCTACCTGC
+CCCAGGATTGTGGAGTGAGAACGTTGCAGCAGGGGAGAACAACGCAGCAAAGCACAGCAG
+GGGAACCGGAAATGCTCACCCTTTGACAGGGTACTTTTAGTTCTGGGGCCTTATCTTAAG
+GATATTCCAACATATACAAAAAGATTCATGCACAGAGATATTTACTTTAGTATTATTTAC
+CATAGGAAAAAAGTTGGAAACAATACATTTTATGTTCTGTAAAATGAAAGAACAGTTAAA
+TAAATCATGGCTCTAAGACGACTCCAGGGCTGTGTACGGAAGTTCAGGGACTGAATCAGT
+TGAGGCTGTTCCACCTGAGCCTAAGCTTCCTCTGCTGTATGTCAGGAATCAGGTGGGGGC
+CAAGCGAGATCACCACAGTGCAGGCCAGTGTGCAGGGCACAGGTGGGCGCC
+>ENST00000440200.5|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000006710.2|AL669831.3-209|AL669831.3|413|processed_transcript|
+CTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAGCTCGAG
+GAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCTGCCTCT
+GAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCCTCTGCTGCCC
+CCTGCCCCATACACGTGATGGAGCAGAAAACGTGCTGTGTGAACCTGTGACTTCAGGGCC
+TGTTGACGTGGTCGTGCTTGCATACTCTCTGGACTGGACCTCACTGTGGGAACAACAAGA
+TCAACAAGAGGAGCAAGAACAACATCAAGAGTCAGGGCCCGGGGGTCCTGACGGGTACAG
+GATGGGTACAGACCCACACAGGAATCCCAGAGTGTGTTCCACAGCAGGACACG
+>ENST00000452176.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000006714.2|AL669831.3-210|AL669831.3|818|processed_transcript|
+GCTCATGCGCCGAATAATAGACCTTAGTTTAGGTATTGGGGCCAAAGGATGGATGACCAT
+TTCAAACGATCCAGGCTAAGCCAGGAGGAGAGCTCAAAGTCTGATCTGGTACGTTGCAAG
+GATCGAGGGACAGAGCGTGCAGCAAGTGGCCAATGAATAGAAGTCTGGTTTTCTGAGCAT
+CCTTGCAGCTGCAGGCTTCAGTCTACCAGAGAATGTGAGGTGTTATTCTTCTAGGGCAGT
+GGTTAGAAAAGAAAATGAAAGTAGCAGTACTCTTTTCCTAATGCAACCATAGATGATCAG
+AATTTGTAATCCATAAGGTAGAAGCTGCTGTGCCTGAAGAAATAGAAAGTGGGCAGAGGT
+GGAGGGGCAAGAGCAGGAGGTGACCAATCTTGGAAATAAGGAAGGGAGAGAGGCAGCCAA
+GCCAGCAGCTCCTAGGATTAGTCACTGCCTGGAGCCAGCTCTTGGAAGTTCCCCAGGAGC
+TGTCCAGTCTTATGTCATGTCTAGTCAGCAGAGTCCCAAAGAAGCTTGTCATTCTCTAGG
+CATTTGTGCTTACATTCTGATGGGCCTAATAGCAGGGAGATGACATGGAGCCCAGGCAGA
+ACTGCTGAGATTTCTACTGGTCATGACCTCCATCTTCTCCTTCACACCTTTCCTACCTTT
+CTTTTTTCATGCATTCAACAGACATTTATTACCCAATAAGTGCCAGGTAGTAAGCGAGGA
+CCTGGGGAGAGCAGATGAGTAAGACACCGTCTCTGTCTCTCAGGAGCTCTCAGATTCTTA
+GGGACACATGTACATCCTAATAAACACAGTGCATCTCA
+>ENST00000441245.5|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000006711.1|AL669831.3-211|AL669831.3|629|processed_transcript|
+GAAGCTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAA
+AGCTGCCTCTGAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCT
+AACAATTTGGACAAGACAGCAAATGCTATTGTCCAAGTTTTCTAAAGAAGAATCTGAAGT
+GAAATGACATCAAGAGACCTATCAAGACCTGTATCCAGGAAAAGAGTCTTGCTCTTGTTG
+CCCAGGCTGGAGTGCAATGGCGTGATTTTGGCTCACTGTAAACTCCACCTCCTGGGTTCA
+AGCGATTCTCCTGCCTCAGCCTCCCTAGTAGCTGGTATTACAGGTGCCTGCCACCACACC
+CAGCTAATTTTTGTATTTTTAGTAGAGATGGGGGTTTCACCATGTTGGCCAGCCTGGTCC
+CGAACTCCTGACCTTAGGTGATCCACCAGCATCGGCCTCCCAAAGTGCTGGGATTACAGG
+TGTGAGCCACTGCGTCCAGCCAGTGGTGGGTCTCATATCTCAATGTGGACTTTTACTAAC
+TCCCGATGCCTCATTTTCCTCATCAGTTGAAAGGAATGAATGAAAGATTTGTGTTTTTCA
+TATTACCAGGTAGATGATAAGGAGATTTT
+>ENST00000414688.6|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000493607.1|AL669831.3-212|AL669831.3|421|processed_transcript|
+GACAGGGTCTCCCTCTGTTGTCCAAGGCTGGAGTGTAGTAGTGCTATCGCAGCTGACTGC
+AGCCTCAACCTTCCAGGCTGAAGCGATCCTCCCACCTCAACCTCCCACGTGGCTGAGACT
+ACAGGTGCTTGCCACTATGCCCAACTAACATTTGGAATTTTCGTATACGTGGATTCTAGA
+GGGGTGACAGCGAAACCTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGA
+GATAAGGAAGCTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAA
+AATGAAAGCTGCCTCTGAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAA
+ACATCCTGATCCATATGAATTCCTCTTATTAAGAAAAATAAAGCATCCAGGATTCAATGA
+A
+>ENST00000636676.1|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000489043.1|AL669831.3-213|AL669831.3|183|transcribed_processed_pseudogene|
+TCACAGCTGCAGGACAAGTTCGAGCATCTTAAAATGATTCAACAGGAGGAGATAAGGAAG
+CTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAATCATAGATTTTTATAAAATGAAAGCT
+GCCTCTGAAGCACTGCAGACTCAGCTGAGCACCGATACAAAGAAAGACAAACATCGTAAG
+AAG
+>ENST00000447954.2|ENSG00000230021.9|OTTHUMG00000191652.2|OTTHUMT00000006878.3|AL669831.3-214|AL669831.3|355|processed_transcript|
+TTTCACCTGCAGTTGAAGATCCGTGAGGTGCCCAGAAGATCATGCAGTCATCAGTCCCAC
+GGAGCAGCCTGCGAGGCTGAGGCTCCTCCCACTGGACCGCCCCCCAACTGGCACCACTGC
+TGCCCCTGCCCCTACTCTCAGCCTCACGTGACTCTCGGGCAGAAGCAGTGGTGGGGCAGC
+CAGGGCAGCGTCAAGAGTCTGAGCCAGCTGCAGGACAAGTTCGAGCATCTTAAAATGATT
+CAACAGGAGGAGATAAGGAAGCTCGAGGAAGAGAAAAAACAACTGGAAGGAGAAATCATA
+GATTTTTATAAAATGAAAGCTGCCTCTGAAGCACTGCAGACTCAGCTGAGCACCG
+>ENST00000423796.1|ENSG00000235146.2|OTTHUMG00000002329.1|OTTHUMT00000006707.1|AC114498.1-201|AC114498.1|607|lincRNA|
+TACGGAAGCTTTAGGGAGGTGCTCTGAGACCCGAAACTAGACTCGACTTTAACAGACACA
+GACGACCCTGAAGATGGAAATGTTTTCTTCCAAATTGTGCTGCACGTTTTTGGCGAGAGC
+ATGGGGCTGTGCGGCGTCCCCTCCCTGGCGCCCACCTGTGCCCTGCACACTGGCCTGCAC
+TGTGGTGATCTCGCTTGGCCCCCACCTGATTCCTGACATACAGCAGAGGAAGCTTAGGCT
+CAGGTGGAACAGCCTCAACTGATTCAGTCCCTGAACTTCCGTACACAGCCCTGGAGTCGT
+CTTAGAGCCATGATTTATTTAACTGTTCTTTCATTTTACAGAACATAAAATGTATTGTTT
+CCAACTTTTTTCCTATGGTAAATAATACTAAAGTAAATATCTCTGTGCATGAATCTTTTT
+GTATATGTTGGAATATCCTTAAGATAAGGCCCCAGAACTAAAAGTACCCTGTCAAAGGGT
+GAGCATTTCCGGTTCCCCTGCTGTGCTTTGCTGCGTTGTTCTCCCCTGCTGCAACGTTCT
+CACTCCACAATCCTGGGGCAGGTAGGGGAGGCCCAGCTGAGTTTGGATCATAATCCTGAA
+AGACACA
+>ENST00000450696.1|ENSG00000235146.2|OTTHUMG00000002329.1|OTTHUMT00000006706.1|AC114498.1-202|AC114498.1|402|lincRNA|
+GACTCGACTTTAACAGACACAGACGACCCTGAAGGTGAGACTGTCTGCTGGTGGGATGCT
+GGATGGAAATGTTTTCTTCCAAATTGTGCTGCACGTTTTTGGCGAGAGCATGGGGCTGTG
+CGGCGTCCCCTCCCTGGCGCCCACCTGTGCCCTGCACACTGGCCTGCACTGTGGTGATCT
+CGCTTGGCCCCCACCTGATTCCTGACATACAGCAGAGGAAGCTTAGGCTCAGGTGGAACA
+GCCTCAACTGATTCAGTCCCTGAACTTCCGTACACAGCCCTGGAGTCGTCTTAGAGCCAT
+GATTTATTTAACTGTTCTTTCATTTTACAGAACATAAAATGTATTGTTTCCAACTTTTTT
+CCTATGGTAAATAATACTAAAGTAAATATCTCTGTGCATGAA
+>ENST00000416931.1|ENSG00000225972.1|OTTHUMG00000002338.1|OTTHUMT00000006720.1|MTND1P23-201|MTND1P23|372|unprocessed_pseudogene|
+TTTGACCTTCAGCAAGGTCAAAGGGAGTCCGAACTAGTCTCAGGCTTCAACATCGAATAC
+GCCGCAGGCCCCTTCGCCCTATTCTTCATAGCCGAATACACAAACATTATTATAATAAAC
+ACCCTCACCACTACAATCTTCCTAGGAACAACATATAACGCACTCTCCCCTGAACTCTAC
+ACAACATATTTTGTCACCAAGACCCTACTTCTGACCTCCCTGTTCTTATGAATTCGAACA
+GCATACCCCCGATTCCGCTACGACCAACTCATACACCTCCTATGAAAAAACTTCCTACCA
+CTCACCCTAGCATTACTTATATGATATGTCTCCATACCCATTACAATCTCCAGCATTCCC
+CCTCAAACCTAA
+>ENST00000457540.1|ENSG00000225630.1|OTTHUMG00000002336.1|OTTHUMT00000006718.1|MTND2P28-201|MTND2P28|1044|unprocessed_pseudogene|
+ATTAATCCCCTGGCCCAACCCGTCATCTACTCTACCATCTTTGCAGGCACACTCATCACA
+GCGCTAAGCTCGCACTGATTTTTTACCTGAGTAGGCCTAGAAATAAACATGCTAGCTTTT
+ATTCCAGTTCTAACCAAAAAAATAAACCCTCGTTCCACAGAAGCTGCCATCAAGTATTTC
+CTCACGCAAGCAACCGCATCCATAATCCTTCTAATAGCTATCCTCTTCAACAATATACTC
+TCCGGACAATGAACCATAACCAATACCACCAATCAATACTCATCATTAATAATCATAATG
+GCTATAGCAATAAAACTAGGAATAGCCCCCTTTCACTTCTGAGTCCCAGAGGTTACCCAA
+GGCACCCCTCTGACATCCGGCCTGCTCCTTCTCACATGACAAAAACTAGCCCCCATCTCA
+ATCATATACCAAATTTCTCCCTCATTAAACGTAAGCCTTCTCCTCACTCTTTCAATCTTA
+TCCATCATGGCAGGCAGTTGAGGTGGATTAAACCAAACCCAACTACGCAAAATCTTAGCA
+TACTCCTCAATTACCCACATAGGATGAATAACAGCAGTTCTACCGTACAACCCTAACATA
+ACCATTCTTAATTTAACTATTTATATTATCCTAACTACTACCGCATTCCTACTACTCAAC
+TTAAACTCCAGCACCACAACCCTACTACTATCTCGCACCTGAAACAAGCTAACATGACTA
+ACACCCTTAATTCCATCCACCCTCCTCTCCCTAGGAGGCCTGCCCCCGCTAACCGGCTTT
+TTGCCCAAATGGGCCATTATCGAAGAATTCACAAAAAACAATAGCCTCATCATCCCCACC
+ATCATAGCCATCATCACCCTCCTTAACCTCTACTTCTACCTGCGCCTAATCTACTCCACC
+TCAATCACACTACTCCCTATATCTAACAACGTAAAAATAAAATGACAGTTTGAACACACA
+AAACCCACCCCATTCCTCCCCACACTCATCGCCCTTACCACACTGCTCCTACCTATCTCC
+CCTTTTATGCTAATAATCTTATAG
+>ENST00000414273.1|ENSG00000237973.1|OTTHUMG00000002333.2|OTTHUMT00000006715.2|MTCO1P12-201|MTCO1P12|1543|unprocessed_pseudogene|
+ATGTTCGCCGACCGTTGACTATTCTCTACAAACCACAAAGACATTGGAACACTATACCTA
+TTATTCGGCGCATGAGCTGGAGTCCTAGGCACAGCTCTAAGCCTCCTTATTCGAGCCGAA
+CTGGGCCAGCCAGGCAACCTTCTAGGTAACGACCACATCTACAACGTTATCGTCACAGCC
+CATGCATTTGTAATAATCTTCTTCATAGTAATACCCATCATAATCGGAGGCTTTGGCAAC
+TGACTAGTTCCCCTAATAATCGGTGCCCCCGATATGGCGTTTCCCCGCATAAACAACATA
+AGCTTCTGACTCTTACCCCCCTCTCTCCTACTCCTGCTTGCATCTGCTATAGTGGAGGCC
+GGCGCAGGAACAGGTTGAACAGTCTACCCTCCCTTGGCAGGGAACTACTCCCACCCTGGA
+GCCTCCGTAGACCTAACCATCTTCTCCTTACACCTAGCAGGTATCTCCTCTATCTTAGGA
+GCCATCAATTTCATCACAACAATTATTAATATAAAACCCCCTGCCATAACCCAATACCAA
+ACGCCCCTTTTCGTCTGATCCGTCCTAATCACAGCAGTCTTACTTCTCCTATCTCTCCCA
+GTCCTAGCCGCTGGCATCACTATACTACTAACAGACCGTAACCTCAACACCACCTTCTTC
+GACCCAGCCGGAGGAGGAGACCCCATTCTATACCAACACCTATTCTGATTTTTCGGTCAC
+CCTGAAGTTTATATTCTCATCCTACCAGGCTTCGGAATAATCTCCCATATTGTAACTTAC
+TACTCCGGGAAAAAAAGAACCATTTGGATACATAGGTATGGTCTGAGCTATGATATCAAT
+TGGCTTCCTAGGGTTTATCGTGTGAGCACACCATATATTTACAGTAGGAATAGACGTAGA
+CACACGAGCATATTTCACCTCCGCTACCATAATCATCGCTATCCCCACCGGCGTCAAAGT
+ATTTAGCTGACTCGCCACACTCCACGGAAGCAATATGAAATGATCTGCTGCAGTGCTCTG
+AGCCCTAGGATTTATTTTTCTTTTCACCGTAGGTGGCCTGACTGGCATTGTATTAGCAAA
+CTCATCACTAGACATCGTACTACACGACACGTACTACGTTGTAGCCCACTTCCACTATGT
+CCTATCAATAGGAGCTGTATTTGCCATCATAGGAGGCTTCATTCACTGATTTCCCCTATT
+CTCAGGCTACACCCTAGACCAAACCTACGCCAAAATCCATTTCGCTATCATATTCATCGG
+CGTAAATCTAACTTTCTTCCCACAACACTTTCTCGGCCTATCCGGAATGCCCCGACGTTA
+CTCGGACTATCCCGATGCATACACCACATGAAATATCCTATCATCTGTAGGCTCATTCAT
+TTCTCTAACAGCAGTAATATTAATAATTTTCATAATTTGAGAAGCCTTCGCTTCGAAGCG
+AAAAGTCCTAATAGTAGAAGAACCCTCCATAAACCTGGAGTGACTATATGGATGCCCCCC
+ACCCTACCACACATTCGAAGAACCCGTATACATAAAATCTAGA
+>ENST00000621981.1|ENSG00000278791.1|-|-|MIR6723-201|MIR6723|89|miRNA|
+ATGCATCGGGATAGTCCGAGTAACGTCGGGGCATTCCGGATAGGCCGAGAAAGTGTTGTG
+GGAAGAAAGTTAGATTTACGCCGATGAAT
+>ENST00000427426.1|ENSG00000229344.1|OTTHUMG00000002334.1|OTTHUMT00000006716.1|MTCO2P12-201|MTCO2P12|682|unprocessed_pseudogene|
+ATGGCACATGCAGCGCAAGTAGGTCTACAAGACGCTACTTCCCCTATCATAGAAGAGCTT
+ATCATCTTTCATGATCACGCCCTCATAATCATTTTCCTTATCTGCTTCCTAGTCCTGTAC
+GCCCTTTTCCTAACACTCACAACAAAACTAACTAATACTAACATCTCAGACGCTCAGGAA
+ATAGAAACCGTCTGAACTATCCTGCCCGCCATCATCCTAGTCCTTATCGCCCTCCCATCC
+CTACGCATCCTTTACATAACAGACGAGGTCAACGATCCCTCCTTTACCATCAAATCAATT
+GGCCATCAATGGTACTGAACCTACGAATACACCGACTACGGCGGACTAATCTTCAACTCC
+TACATACTTCCCCCATTATTCCTAGAACCAGGCGACCTGCGACTCCTTGACGTTGACAAT
+CGAGTAGTACTCCCGGTTGAAGCCCCCATTCGTATAATAATTACATCACAAGACGTCTTA
+CACTCATGAGCTGTCCCCACATTAGGCTTAAAAACAGATGCAATTCCCGGACGTCTAAAC
+CAAACCACTTTCACTGCTACACGACCAGGGGTATACTACGGCCAATGCTCTGAAATCTGT
+GGAGCAAACCAGTTTTATGCCCATCGTCCTAGAATTAATTCCCCTAAAAATCTTTGAAAT
+AGGGCCCGTATTTACCCTATAG
+>ENST00000467115.1|ENSG00000240409.1|OTTHUMG00000002473.1|OTTHUMT00000007027.1|MTATP8P1-201|MTATP8P1|207|unprocessed_pseudogene|
+ATGCCCCAACTAAATACTACCGTATGACCCACCATAATTACCCCCATACTCCTTACACTA
+TTCCTCATCACCCAACTAAAAATATTAAATACAAATTACCACCTACCTCCCTCACCAAAG
+CCCATAAAAATAAAAAACTATAACAAACCCTGAGAACCAAAATGAACGAAAATCTGTTCA
+CTTCATTCATTGCCCCCACAATCCTAG
+>ENST00000514057.1|ENSG00000248527.1|OTTHUMG00000002335.2|OTTHUMT00000006717.2|MTATP6P1-201|MTATP6P1|681|unprocessed_pseudogene|
+ATGAACGAAAATCTGTTCACTTCATTCATTGCCCCCACAATCCTAGGCCTACCCGCCGCA
+GTACTGATCATTCTATTTCCCCCTCTATTGATCCCCACCTCCAAATATCTCATCAACAAC
+CGACTAATTACCACCCAACAATGACTAATCCAACTAACCTCAAAACAAATGATAGCCATA
+CACAACACTAAGGGACGAACCTGATCTCTTATACTAGTATCCTTAATCATTTTTATTGCC
+ACAACTAACCTCCTCGGACTCCTGCCTCACTCATTTACACCAACCACCCAACTATCTATA
+AACCTAGCCATGGCCATCCCCTTATGAGCGGGCGCAGTGATTATAGGCTTTCGCTCTAAG
+ATTAAAAATGCCCTAGCCCACTTCTTACCACAAGGCACACCTACACCCCTTATCCCTATA
+CTAGTTATTATCGAAACCATCAGCCTACTCATTCAACCAATAGCCCTGGCCGTACGCCTA
+ACCGCTAACATTACTGCAGGCCACCTACTCATGCACCTAATTGGAAGCGCCACACTAGCA
+ATATCAACTATTAACCTTCCCTCTACACTTATCATCTTCACAATTCTAATTCTACTGACT
+ATCCTAGAAATCGCTGTCGCCTTAATCCAAGCCTACGTTTTTACACTTCTAGTAAGCCTC
+TACCTGCACGACAACACATAA
+>ENST00000416718.2|ENSG00000198744.5|OTTHUMG00000002337.2|OTTHUMT00000006719.2|MTCO3P12-201|MTCO3P12|547|unprocessed_pseudogene|
+ATGACCCACCAATCACATGCCTATCATATAGTAAAACCCAGCCCATGGCCCCTAACAGGG
+GCCCTCTCAGCCCTCCTAATGACCTCCGGCCTAGCCATGTGATTTCACTTCCACTCCACA
+ACCCTCCTCATACTAGGCCTACTAACCAACACACTAACCATATACCAATGATGGCGCGAT
+GTAACACGAGAAAGCACATACCAAGGCCACCACACACCACCTGTCCAGAAAGGCCTTCGA
+TACGGGATAATCCTATTTATTACCTCAGAAGTTTTTTTCTTCGCAGGATTTTTCTGAGCC
+TTTTACCACTCCAGCCTAGCTCCCACCCCCCAACTAGGGGGACACTGGCCCCCAACAGGC
+ATCACCCCGCTAAATCCCCTAGAAGTCCCACTCCTAAACACATCCGTATTACTCGCATCA
+GGGGTATCAATCACCTGAGCTCACCATAGTCTAATAGAAAACAACCGAAACCAAATAATT
+CAAGCACTGCTTATTACAATTTTACTGGGTCTCTATTTTACCCTCCTACAAGCCTCAGAG
+TACTTCG
+>ENST00000438434.2|ENSG00000268663.1|OTTHUMG00000002340.3|OTTHUMT00000006722.3|WBP1LP6-201|WBP1LP6|424|processed_pseudogene|
+GGAAGACTCCTGGGTGGCATGGAGCTCTTGCACCTCTAGGCACTGCCCAGCCCTGTGTCA
+GCCAGGGCTGAACCCCCACAGGATAAGGAAGCCTGTGTGTGTACCAACAATCAAAGCTAC
+ATCTGTGACACAACAGGACACTGCTATGGGCAGTCTCAGTGTTGTAACTACTACTATGAA
+CATTGGTGGTTCTGGCTCGCGTGGACCATCACCATCATCCTGAGCTGCTGCTGTGTCTGC
+CACCACAGCCAAGCCAGCCCTCAAGTCCAGCAGTAGCAACATGAAATCAACCTGCCTGCC
+TATCCAGAAGCCCGCAATTACTCAGTGCTACCATTTTATTTCACCAAACTATTTATTACC
+TTCTTATGAGGAAGTGGTGAACTAACCTCCACCTGTTTCCCTCCCTGTCTGTCCATTGTG
+GATG
+>ENST00000332831.4|ENSG00000284662.1|OTTHUMG00000002581.3|OTTHUMT00000007334.3|OR4F16-201|OR4F16|995|protein_coding|
+AGCCCAGTTGGCTGGACCAATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTT
+TCTGGGACTCACTCATTCATGGGAGATCCAGCTCCTCCTCCTAGTGTTTTCCTCTGTGCT
+CTATGTGGCAAGCATTACTGGAAACATCCTCATTGTGTTTTCTGTGACCACTGACCCTCA
+CTTACACTCCCCCATGTACTTTCTACTGGCCAGTCTCTCCTTCATTGACTTAGGAGCCTG
+CTCTGTCACTTCTCCCAAGATGATTTATGACCTGTTCAGAAAGCGCAAAGTCATCTCCTT
+TGGAGGCTGCATCGCTCAAATCTTCTTCATCCACGTCGTTGGTGGTGTGGAGATGGTGCT
+GCTCATAGCCATGGCCTTTGACAGATATGTGGCCCTATGTAAGCCCCTCCACTATCTGAC
+CATTATGAGCCCAAGAATGTGCCTTTCATTTCTGGCTGTTGCCTGGACCCTTGGTGTCAG
+TCACTCCCTGTTCCAACTGGCATTTCTTGTTAATTTAGCCTTCTGTGGCCCTAATGTGTT
+GGACAGCTTCTACTGTGACCTTCCTCGGCTTCTCAGACTAGCCTGTACCGACACCTACAG
+ATTGCAGTTCATGGTCACTGTTAACAGTGGGTTTATCTGTGTGGGTACTTTCTTCATACT
+TCTAATCTCCTACGTCTTCATCCTGTTTACTGTTTGGAAACATTCCTCAGGTGGTTCATC
+CAAGGCCCTTTCCACTCTTTCAGCTCACAGCACAGTGGTCCTTTTGTTCTTTGGTCCACC
+CATGTTTGTGTATACACGGCCACACCCTAATTCACAGATGGACAAGTTTCTGGCTATTTT
+TGATGCAGTTCTCACTCCTTTTCTGAATCCAGTTGTCTATACATTCAGGAATAAGGAGAT
+GAAGGCAGCAATAAAGAGAGTATGCAAACAGCTAGTGATTTACAAGAGGATCTCATAAAT
+GATATAATAAGCCCTTCTCATTAAACATGATATGG
+>ENST00000440782.3|ENSG00000229376.3|OTTHUMG00000057431.3|OTTHUMT00000127611.3|CICP3-201|CICP3|2455|processed_pseudogene|
+CGGCCCCCAGGCCTGCGTTCAGTGAGGCCTCCCGTGGCGTCAGCATGTTCGTGTGGAGGA
+ATGTGGAAGGTCACTCTTCGGCCGTGTTCTCCTGGTACTCCATCCCCTTCCTGACCCCTC
+CCTGCAGCCACACGAGGCCCAGCAACCTGCCAGTCACTCAGAGTCTCTGGCCTCCAACCA
+GAGAAAACAACCTGCCAAGTTGGCAGCCGTTGCTCATGAGCGTCCACCAAGTGGGACAGG
+GAGTGTTGACCCTGGGCGGCCCCCTGGAGCCACCTGCCCTGAAAGCCCAGGGCCCGCAAC
+CCCACACACTTTGGGGGTGGTGGAACCTGGTAAAAGCTCACCTCCCACCATGGAGGAGGA
+GCCCTGGGCCCCTCAGGGGAGTCCCTGCTGGACAGTGAGACAGAGAATGACCATGATGAT
+GCTTTCCTCTCCATCATGTCTCCTGACACCCAGTTGCCTCTACCACTCAGATGATGTCAG
+GCCCAGTCCCTCAGTGCCCTGCGCAAGGAAAAGGACTCATCTTCTGAGAAGGATGGACGC
+AGCCCCAACAAATCAGACAAGGACCACATCCGGTGGCCCATGAGTGGCGCTCATGATCTT
+CAGCAGGCGGCACCAGGCCCTGGCGGGGCGCACCAGGGTCACCCCAACCAGGATAACCGG
+ACCGTCAGCCAGATGCTGAGCGAGCGGTGGTACACCCTGGGGCCCAATGAGATGCAGAAA
+TACAACCTGGCCTTCCAGGTGAAGGTGGCCCACTTGCAACAAGGACCGAAAGAAGTCCAG
+CTCAGAGGCCAAGCCCACAAGCCAGGGGCTAGCAGGAGTGTAACAAGGGCTCGTGGGAGC
+GGAGCATATCAGAGACGGGCACTGCCACTGCCCCTGGGGTGTCCTCTGAACTCCTGTCAG
+TTGCAGCCCAAACACTCCAGAGCTCGGATACCAAGGAGCAGCTTCTATGGGGCAGAACGG
+CTGCACACAGTCAGGGAACCTGGCTCAGCCTGGCCCAAGCCTTCTCCCACAGCGGGGTAC
+ACAGCCTGGACGGCAGGGAAATAGACCGTCAGGCACTACGGGAACTGACACAGGTGGTGT
+CTGGCACTGCATCATACTCTGGCCCAAAGCCTTCTACTCAGCATGGAGCTCCAGGCCACT
+TTGCAGCCCCTGGTGAGGGAGGTGACCCGTGGGCAGCCCTGCTGCCGCCCACGTGAGCTG
+CTCATTCCCAGCACATGGCCAGCGAGGTCATAGCGAGTGACGAGGAGCACACGGTCATCC
+ATGAGGAGGAGGGGGTGATGATGTCATTGCTGATGATGGCTTTAGCACCACCGACACCGA
+TCTCAAGTTCAAGGAGTGGGTGACCGACTGAGAGTGGGGACAACTCTGGGGAGGAGCCAG
+AGGGCAACAAGGGCTTTGGTGGGAAGGTATTTGCACCTGTCATTCCTTCCTCCTTTACTC
+CTGCCGCCCCTTGCTGGATCCTGAGCCCCCAGGGTCCCCCGATCCACCTGCAGCTTTTGG
+CAGTCTATGGTCACACCCTGTCCTCCTCCTACACATACTCGGATGCTTCCTCCTCAACCT
+TGGCACCCACCTCCTTCTTACTGGGCCCAGGAGCCTTCAAAGCCCAGGAGTCTGGTCAAC
+GCAGCAGAGCGGGCCCCCTACGGCCCCAACCCCTGGGGATGGGGGCCCAGGGACGCCTTC
+CAAGGTGGCCTGTTTCCTCCCAATGGATCCTGCCACCTTCTGGTGCAAGAGACCTGAAAG
+TGTGGGTGACCTGGAGCTACCAGGCTCCTCAGTCATCAGGGTCCCTCCCAACACTAAGGC
+TTTCCTAGGCAGGAGCTGGGCTGAGCCACCCGGGGGGCAGAGCCTGAAGAGAAACTGACT
+GGGCTTTCGGGGTCGGGGCAGAGGGAACCCCACGGACATGGATCCCACACTGGAGGACCC
+CACCGCGCCCAAATGCAAGATGAGAAGATGCTCCAGCTGCAGTCCAAAGCCCAACACCCC
+CAAGTGTGCCATGTGTGATGGGGACAGCTTCCCCTTTGCCTGTACAGGTGGAGAAGCCGA
+GGACAGGCTCAGGGAACCGGAGACCGAGAAGGCGCTGTCCTCTTCACTGCACGTACCCTG
+GACCAGTGCCGGCCCTGATCATGCAGCTCTTCCAGGCCCACTGCTTCTTCCTGTCCACTA
+GGCCACAGCCGCCCTCCAGGCCCACTATGCACACATCTTCCCCTCCAAGGTTTGTTCTGC
+CCCTGCCCTGACTCCCAGCCCTGTGGGGGTCCTGACCGCACCTCACCTGACTGCTGCTGC
+CCCTGCCCTGACTCCCAGCCCTGCCTGACCCCACCTCAACCTGCTCAGGCTCTGGCACAA
+CCCTGGCTGCCCTGCCACTGCCTCTGCCCCAGAGTTGGGGCCTTGACAGCCTGGTTGGAA
+GGGGACACCCCAGCCCTGCCTCAACACCTGGGGGTCTCCATAACTACCACAGGCA
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/dummy_staging_script.sh b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/dummy_staging_script.sh
new file mode 100644
index 0000000000..950ecd48c3
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/dummy_staging_script.sh
@@ -0,0 +1,8 @@
+#!/usr/bin/env bash
+
+SAMPLE_ID="$1"
+OUTPUT_FILE="$2"
+
+SCRIPT_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
+
+ln -s ${SCRIPT_DIR}/../test_data/${SAMPLE_ID}.fa ${OUTPUT_FILE}
\ No newline at end of file
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/sample_ids.txt b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/sample_ids.txt
new file mode 100644
index 0000000000..68b03f8c9b
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/sample_ids.txt
@@ -0,0 +1,2 @@
+metasub_fake_data
+transcripts_100
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/test.yml b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/test.yml
new file mode 100644
index 0000000000..ac27022e24
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/test.yml
@@ -0,0 +1,21 @@
+k: 10
+base_name: 'test_k10'
+build_primary_graph: True
+primarize_samples_separately: True
+
+output_directory: 'output_dir_test'
+seqs_file_list_path: '' # using dummy_staging_script.sh staging script, to "stage" data
+
+annotation_labels_source: 'sequence_file_names'
+
+sample_ids_path: 'test_workflow/sample_ids.txt'
+sample_staging_script_path: 'test_workflow/dummy_staging_script.sh'
+sample_staging_file_ending: '.fasta.gz'
+
+brwt_relax_arity: 4
+
+tmpdir: '/tmp'
+rules:
+  build:
+    mem_mb: 1234
+
diff --git a/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/transcript_paths.txt b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/transcript_paths.txt
new file mode 100644
index 0000000000..b3f46bdce0
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/snakemake/test_workflow/transcript_paths.txt
@@ -0,0 +1,2 @@
+test_data/metasub_fake_data.fa
+test_data/transcripts_100.fa
diff --git a/metagraph/workflows/metagraph_workflows/utils.py b/metagraph/workflows/metagraph_workflows/utils.py
new file mode 100644
index 0000000000..5680a38ab4
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/utils.py
@@ -0,0 +1,151 @@
+import itertools
+import logging
+import re
+import subprocess
+from pathlib import Path
+from typing import Union
+
+from metagraph_workflows import workflow_configs, utils
+from metagraph_workflows.workflow_configs import GNU_TIME_CMD, TMP_DIR, \
+    RULE_CONFIGS_KEY, SEQS_FILE_LIST_PATH, SEQS_DIR_PATH
+
+logger = logging.getLogger("metagraph_workflow")
+
+
+def get_seqs_file_list_path(wdir, config):
+    if SEQS_FILE_LIST_PATH in config:
+        return config[SEQS_FILE_LIST_PATH]
+
+    seqs_file_list_path = wdir/'sequence_file_list_path.txt'
+    seqs_dir_path = config.get(SEQS_DIR_PATH, None)
+
+    if not seqs_dir_path:
+        raise ValueError(f"Neither {SEQS_FILE_LIST_PATH} nor {SEQS_DIR_PATH} parameter are set. Need either to proceed")
+
+    utils.create_transcript_path_list(seqs_dir_path, seqs_file_list_path)
+    return seqs_file_list_path
+
+
+def take_value_or_default(key, default, config):
+    return config[key] if (key in config.keys() and config[key]) else default
+
+
+def create_transcript_path_list(path: Union[Path, str], transcript_path: Union[Path, str], suffix=''):
+    paths = [str(p.absolute()) for p in Path(path).glob(f'*{suffix}')]
+
+    with open(transcript_path, 'w') as f:
+        f.write('\n'.join(paths))
+
+
+def get_sample_name(l):
+    file_name = Path(l.strip()).name
+
+    m = re.compile(r'^([^.]*)\.(fasta|[a-zA-Z]{2,4})(\.gz)?$').match(file_name)
+    if m:
+        return m.groups()[0]
+
+    return file_name
+
+
+def derive_sample_dictionary(transcript_path_list_path: Union[Path, str]):
+    with open(transcript_path_list_path) as f:
+        ret = {get_sample_name(l): l.strip() for l in f}
+    return ret
+
+
+def get_build_single_sample_input(config, orig_samples_path, seq_ids_dict):
+    def _sample_input(wildcards):
+        sample_id = wildcards[0] # TODO:
+
+        if config[workflow_configs.SAMPLE_IDS_PATH]:
+            return orig_samples_path / f"{{sample_id}}{config[workflow_configs.SAMPLE_STAGING_FILE_ENDING]}"
+        else:
+            return seq_ids_dict[sample_id]
+
+    return _sample_input
+
+
+def get_build_joint_input(config, contigs_dir, seq_ids_dict, seqs_file_list_path):
+    sample_ids = set()
+    if workflow_configs.SAMPLE_IDS_PATH in config and config[workflow_configs.SAMPLE_IDS_PATH]:
+        with open(config[workflow_configs.SAMPLE_IDS_PATH]) as f:
+            sample_ids = {f"{l.strip()}" for l in f}
+
+    def _get_build_graph_input(wildcards):
+        if config[workflow_configs.PRIMARIZE_SAMPLES_SEPARATELY]:
+            all_samples = sample_ids if sample_ids else seq_ids_dict.keys()
+            return [contigs_dir/f"{sample_id}_primary.fasta.gz" for sample_id in all_samples]
+        else:
+            return seqs_file_list_path
+
+    return _get_build_graph_input
+
+
+def generate_col_paths(annotation_cols_path, seqs_file_list_path, config):
+    sample_names = set()
+
+    if workflow_configs.SAMPLE_IDS_PATH in config and config[workflow_configs.SAMPLE_IDS_PATH]:
+        with open(config[workflow_configs.SAMPLE_IDS_PATH]) as f:
+            sample_names = { f"{l.strip()}_primary.fasta.gz" for l in f}
+
+    else:
+        with open(seqs_file_list_path) as f:
+            column_names = [f"{f.strip().rstrip('/').split('/')[-1]}" for f in
+                            f.readlines()]
+
+            duplicate_col_names = [grp_key for (grp_key, names_lst) in
+                                   itertools.groupby(sorted(column_names)) if
+                                   len(list(names_lst)) > 1]
+
+            assert not duplicate_col_names, f"Found duplicate filenames: {', '.join(duplicate_col_names)}"
+
+            if config[workflow_configs.PRIMARIZE_SAMPLES_SEPARATELY]:
+                sample_names = {f"{get_sample_name(c)}_primary.fasta.gz" for c in column_names}
+            else:
+                sample_names = set(column_names)
+
+    return [annotation_cols_path / f"{c}.column.annodbg" for c in
+            sample_names]
+
+
+def get_wdir(config):
+    return Path(config['output_directory'])
+
+
+def get_gnu_time_command(config):
+    EMTPY_CMD = ''
+    cmd = config.get(GNU_TIME_CMD, EMTPY_CMD)
+
+    if cmd:
+        test_cmd=[cmd, '--version']
+        proc = subprocess.run(test_cmd, capture_output=True)
+        if proc.returncode == 0:
+            return f"{cmd} --verbose"
+        else:
+            logger.warning(f"Command {' '.join(test_cmd)} for GNU time could not be executed successfully: {proc.stderr}."
+                           f" No timing information collected")
+    else:
+        logger.warning("No GNU Time command provided.")
+
+    return EMTPY_CMD
+
+
+def get_log_path(rule_name, config, wildcards=None):
+    log_dir = get_wdir(config)/'logs'
+
+    if wildcards:
+        wildcard_str = '_'.join([f"{{{w}}}" for w in wildcards])
+        return f"{log_dir}/{rule_name}/{rule_name}_{wildcard_str}.log"
+    else:
+        return f"{log_dir}/{rule_name}.log"
+
+
+def temp_dir_config(config):
+    return f"--disk-swap {config[TMP_DIR]}" if TMP_DIR in config else '',
+
+
+def get_rule_specific_config(rule, key, config):
+    if RULE_CONFIGS_KEY in config and rule in config[
+        RULE_CONFIGS_KEY] and key in config[RULE_CONFIGS_KEY][rule]:
+        return config[RULE_CONFIGS_KEY][rule][key]
+    return None
\ No newline at end of file
diff --git a/metagraph/workflows/metagraph_workflows/workflow_configs.py b/metagraph/workflows/metagraph_workflows/workflow_configs.py
new file mode 100644
index 0000000000..e07aeb5ebd
--- /dev/null
+++ b/metagraph/workflows/metagraph_workflows/workflow_configs.py
@@ -0,0 +1,69 @@
+"""
+Config parameters used by the snakemake workflow.
+These can all appear in a workflow config/config files
+"""
+
+from enum import Enum
+
+SEQS_FILE_LIST_PATH = 'seqs_file_list_path'
+SEQS_DIR_PATH = "seqs_dir_path"
+
+TMP_DIR = 'tmpdir'
+
+PRIMARIZE_SAMPLES_SEPARATELY = 'primarize_samples_separately'
+
+KMC_MAX_BINS="kmc_max_bins"
+KMC_MEM_MB_PER_THREAD="kmc_mem_mb_per_thread"
+KMC_MEM_OVERHEAD_FACTOR= "kmc_mem_overhead_factor"
+
+SAMPLE_IDS_PATH="sample_ids_path"
+SAMPLE_STAGING_SCRIPT_PATH="sample_staging_script_path"
+SAMPLE_STAGING_SCRIPT_ADDITIONAL_OPTIONS="sample_staging_script_additional_options"
+SAMPLE_STAGING_FILE_ENDING='sample_staging_file_ending'
+
+BRWT_RELAX_ARITY="brwt_relax_arity"
+BRWT_PARALLEL_NODES="brwt_parallel_nodes"
+BRWT_LINKAGE_SUBSAMPLE="brwt_linkage_subsample"
+
+MAX_THREADS = 'max_threads'
+MAX_MEMORY_MB = 'max_memory_mb'
+MAX_DISK_MB = 'max_disk_mb'
+MAX_BUFFER_SIZE_MB = 'max_buffer_size_mb'
+
+RULE_CONFIGS_KEY = 'rules'
+THREADS_KEY = 'threads'
+MEM_MB_KEY = 'mem_mb'
+DISK_MB_KEY = 'disk_mb'
+
+MEM_BUFFER_MB_KEY = 'mem_buffer_mb'
+DISK_CAP_MB_KEY = 'disk_cap_mb'
+
+GNU_TIME_CMD = 'gnu_time_cmd'
+
+
+class AnnotationLabelsSource(Enum):
+    SEQUENCE_HEADERS = 'sequence_headers'
+    SEQUENCE_FILE_NAMES = 'sequence_file_names'
+
+    def to_annotation_cmd_option(self):
+        if self == self.SEQUENCE_FILE_NAMES:
+            return '--anno-filename'
+        elif self == self.SEQUENCE_HEADERS:
+            return '--anno-header'
+        else:
+            raise ValueError(f"Invalid value of AnnotationLabelsSource: got {self}")
+
+
+class AnnotationFormats(Enum):
+    # COLUMN = 'column' # TODO: need special case in the workflow
+    ROW = 'row'
+    BIN_REL_WT_SDSL = 'bin_rel_wt_sdsl'
+    BIN_REL_WT = 'bin_rel_wt'
+    FLAT = 'flat'
+    RBFISH = 'rbfish'
+    BRWT = 'brwt'
+    RELAXED_BRWT = 'relax.brwt'
+    RB_BRWT = 'rb_brwt'
+    #RELAXED_RB_BRWT = 'relax.rb_brwt' # not possible
+    ROW_DIFF_BRWT = 'row_diff_brwt'
+    RELAXED_ROW_DIFF_BRWT = 'relax.row_diff_brwt'
\ No newline at end of file
diff --git a/metagraph/workflows/notebooks/workflow_end_to_end_example.ipynb b/metagraph/workflows/notebooks/workflow_end_to_end_example.ipynb
new file mode 100644
index 0000000000..b2cdb09439
--- /dev/null
+++ b/metagraph/workflows/notebooks/workflow_end_to_end_example.ipynb
@@ -0,0 +1,920 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "proper-norway",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.053378Z",
+     "start_time": "2021-10-19T12:37:26.016001Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:44.254485Z",
+     "iopub.status.busy": "2021-03-31T07:55:44.253980Z",
+     "iopub.status.idle": "2021-03-31T07:55:44.393638Z",
+     "shell.execute_reply": "2021-03-31T07:55:44.392335Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:44.254352Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "%load_ext autoreload\n",
+    "%autoreload 2"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "verified-apache",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.082089Z",
+     "start_time": "2021-10-19T12:37:26.056666Z"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "# needed to call snakemake from jupyter notebook\n",
+    "import nest_asyncio\n",
+    "nest_asyncio.apply()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "hungarian-frequency",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.329909Z",
+     "start_time": "2021-10-19T12:37:26.086548Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:44.508512Z",
+     "iopub.status.busy": "2021-03-31T07:55:44.507820Z",
+     "iopub.status.idle": "2021-03-31T07:55:44.622865Z",
+     "shell.execute_reply": "2021-03-31T07:55:44.621694Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:44.508477Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "from metagraph_workflows import cli\n",
+    "from pathlib import Path\n",
+    "\n",
+    "from metagraph_workflows import workflow_configs\n",
+    "\n",
+    "import urllib"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "intended-oklahoma",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2021-03-26T08:52:06.016430Z",
+     "iopub.status.busy": "2021-03-26T08:52:06.015907Z",
+     "iopub.status.idle": "2021-03-26T08:52:06.056002Z",
+     "shell.execute_reply": "2021-03-26T08:52:06.053820Z",
+     "shell.execute_reply.started": "2021-03-26T08:52:06.016390Z"
+    },
+    "tags": []
+   },
+   "source": [
+    "## Building Index"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "printable-sight",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.355841Z",
+     "start_time": "2021-10-19T12:37:26.333200Z"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "temp_dir = Path('/tmp/metagraph_workflows')\n",
+    "temp_dir.mkdir(parents=True, exist_ok=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "young-syndication",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.385422Z",
+     "start_time": "2021-10-19T12:37:26.361187Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:46.048662Z",
+     "iopub.status.busy": "2021-03-31T07:55:46.047835Z",
+     "iopub.status.idle": "2021-03-31T07:55:46.118796Z",
+     "shell.execute_reply": "2021-03-31T07:55:46.117843Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:46.048574Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "sample_list_path = Path('/tmp/paths.txt')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "colored-intervention",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.413353Z",
+     "start_time": "2021-10-19T12:37:26.387666Z"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "# download can be unreliable at times. Try several times, possibly changing the protocol between http and ftp\n",
+    "\n",
+    "protocol = \"ftp\"\n",
+    "sample_download = [\n",
+    "    f\"{protocol}://ftp.sra.ebi.ac.uk/vol1/fastq/SRR512/000/SRR5122830/SRR5122830_subreads.fastq.gz\",\n",
+    "    f\"{protocol}://ftp.sra.ebi.ac.uk/vol1/fastq/SRR512/006/SRR5122826/SRR5122826_subreads.fastq.gz\"\n",
+    "]\n",
+    "\n",
+    "input_seqs = temp_dir/'input_seqs'\n",
+    "\n",
+    "input_seqs.mkdir(parents=True, exist_ok=True)\n",
+    "\n",
+    "for s in sample_download:\n",
+    "    file_name = Path(urllib.parse.urlparse(s).path).name\n",
+    "    sample_name = file_name.split('_')[0]\n",
+    "    \n",
+    "    if not (input_seqs/file_name).exists():\n",
+    "        urllib.request.urlretrieve(s, input_seqs/file_name)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "reflected-specification",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.444026Z",
+     "start_time": "2021-10-19T12:37:26.418382Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:46.122595Z",
+     "iopub.status.busy": "2021-03-31T07:55:46.121935Z",
+     "iopub.status.idle": "2021-03-31T07:55:46.191302Z",
+     "shell.execute_reply": "2021-03-31T07:55:46.190377Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:46.122439Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "def create_sample_list_path(path_list, out_path):\n",
+    "    with open(out_path, \"w\") as f:\n",
+    "        f.write('\\n'.join([str(p) for p in path_list]))\n",
+    "\n",
+    "create_sample_list_path(input_seqs.glob('*fastq*'), sample_list_path)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "healthy-hamilton",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.481634Z",
+     "start_time": "2021-10-19T12:37:26.447955Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:46.194052Z",
+     "iopub.status.busy": "2021-03-31T07:55:46.193386Z",
+     "iopub.status.idle": "2021-03-31T07:55:46.252664Z",
+     "shell.execute_reply": "2021-03-31T07:55:46.251673Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:46.194012Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "output_dir =  temp_dir /'output_dir'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "portuguese-employer",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:26.949507Z",
+     "start_time": "2021-10-19T12:37:26.484629Z"
+    }
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "#############################\r\n",
+      "### Welcome to MetaGraph! ###\r\n",
+      "#############################\r\n",
+      "\r\n",
+      "Metagraph: comprehensive metagenome graph representation -- Version 0.1\r\n",
+      "\r\n",
+      "Usage: metagraph <command> [command specific options]\r\n",
+      "\r\n",
+      "Available commands:\r\n",
+      "\tbuild\t\tconstruct a graph object from input sequence\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "# checking metagraph version\n",
+    "!metagraph --help 2>&1 | head"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "reported-march",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:57.440009Z",
+     "start_time": "2021-10-19T12:37:26.953032Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:46.465433Z",
+     "iopub.status.busy": "2021-03-31T07:55:46.465147Z",
+     "iopub.status.idle": "2021-03-31T07:55:50.278245Z",
+     "shell.execute_reply": "2021-03-31T07:55:50.277387Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:46.465399Z"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2021-10-19 14:37:27,393 - WARNING: Command /usr/bin/time --version for GNU time could not be executed successfully: b'/usr/bin/time: illegal option -- -\\nusage: time [-lp] <command>\\n'. No timing information collected\n",
+      "Building DAG of jobs...\n",
+      "2021-10-19 14:37:27,452 - WARNING: Building DAG of jobs...\n",
+      "Using shell: /usr/local/bin/bash\n",
+      "2021-10-19 14:37:27,481 - WARNING: Using shell: /usr/local/bin/bash\n",
+      "Provided cores: 1 (use --cores to define parallelism)\n",
+      "2021-10-19 14:37:27,482 - WARNING: Provided cores: 1 (use --cores to define parallelism)\n",
+      "Rules claiming more threads will be scaled down.\n",
+      "2021-10-19 14:37:27,484 - WARNING: Rules claiming more threads will be scaled down.\n",
+      "Job counts:\n",
+      "\tcount\tjobs\n",
+      "\t1\tall\n",
+      "\t1\tannotate\n",
+      "\t1\tannotate_row_diff_brwt\n",
+      "\t1\tbuild_joint_graph\n",
+      "\t1\tbuild_joint_primary\n",
+      "\t1\tgenerate_column_list\n",
+      "\t1\tprimarize_joint_graph\n",
+      "\t1\trelax_row_diff_brwt\n",
+      "\t1\ttransform_rd_stage0\n",
+      "\t1\ttransform_rd_stage1\n",
+      "\t1\ttransform_rd_stage2\n",
+      "\t11\n",
+      "2021-10-19 14:37:27,486 - WARNING: Job counts:\n",
+      "\tcount\tjobs\n",
+      "\t1\tall\n",
+      "\t1\tannotate\n",
+      "\t1\tannotate_row_diff_brwt\n",
+      "\t1\tbuild_joint_graph\n",
+      "\t1\tbuild_joint_primary\n",
+      "\t1\tgenerate_column_list\n",
+      "\t1\tprimarize_joint_graph\n",
+      "\t1\trelax_row_diff_brwt\n",
+      "\t1\ttransform_rd_stage0\n",
+      "\t1\ttransform_rd_stage1\n",
+      "\t1\ttransform_rd_stage2\n",
+      "\t11\n",
+      "\n",
+      "2021-10-19 14:37:27,489 - INFO: \n",
+      "[Tue Oct 19 14:37:27 2021]\n",
+      "2021-10-19 14:37:27,494 - INFO: [Tue Oct 19 14:37:27 2021]\n",
+      "rule build_joint_graph:\n",
+      "    input: /tmp/paths.txt\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph_canonical.dbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/build_joint_graph.log\n",
+      "    jobid: 3\n",
+      "    resources: mem_mb=4048, disk_mb=10240\n",
+      "2021-10-19 14:37:27,498 - INFO: rule build_joint_graph:\n",
+      "    input: /tmp/paths.txt\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph_canonical.dbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/build_joint_graph.log\n",
+      "    jobid: 3\n",
+      "    resources: mem_mb=4048, disk_mb=10240\n",
+      "\n",
+      "2021-10-19 14:37:27,501 - INFO: \n",
+      "[Tue Oct 19 14:37:27 2021]\n",
+      "2021-10-19 14:37:27,898 - INFO: [Tue Oct 19 14:37:27 2021]\n",
+      "Finished job 3.\n",
+      "2021-10-19 14:37:27,900 - INFO: Finished job 3.\n",
+      "1 of 11 steps (9%) done\n",
+      "2021-10-19 14:37:27,903 - INFO: 1 of 11 steps (9%) done\n",
+      "\n",
+      "2021-10-19 14:37:27,906 - INFO: \n",
+      "[Tue Oct 19 14:37:27 2021]\n",
+      "2021-10-19 14:37:27,908 - INFO: [Tue Oct 19 14:37:27 2021]\n",
+      "rule primarize_joint_graph:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph_canonical.dbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph_primary.fasta.gz\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/primarize_joint_graph.log\n",
+      "    jobid: 2\n",
+      "    resources: mem_mb=4048\n",
+      "2021-10-19 14:37:27,911 - INFO: rule primarize_joint_graph:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph_canonical.dbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph_primary.fasta.gz\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/primarize_joint_graph.log\n",
+      "    jobid: 2\n",
+      "    resources: mem_mb=4048\n",
+      "\n",
+      "2021-10-19 14:37:27,914 - INFO: \n",
+      "Removing temporary output file /tmp/metagraph_workflows/output_dir/graph_canonical.dbg.\n",
+      "2021-10-19 14:37:28,208 - WARNING: Removing temporary output file /tmp/metagraph_workflows/output_dir/graph_canonical.dbg.\n",
+      "[Tue Oct 19 14:37:28 2021]\n",
+      "2021-10-19 14:37:28,211 - INFO: [Tue Oct 19 14:37:28 2021]\n",
+      "Finished job 2.\n",
+      "2021-10-19 14:37:28,214 - INFO: Finished job 2.\n",
+      "2 of 11 steps (18%) done\n",
+      "2021-10-19 14:37:28,217 - INFO: 2 of 11 steps (18%) done\n",
+      "\n",
+      "2021-10-19 14:37:28,221 - INFO: \n",
+      "[Tue Oct 19 14:37:28 2021]\n",
+      "2021-10-19 14:37:28,227 - INFO: [Tue Oct 19 14:37:28 2021]\n",
+      "rule build_joint_primary:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph_primary.fasta.gz\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.dbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/build_joint_primary.log\n",
+      "    jobid: 1\n",
+      "    resources: mem_mb=4048, disk_mb=10240\n",
+      "2021-10-19 14:37:28,239 - INFO: rule build_joint_primary:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph_primary.fasta.gz\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.dbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/build_joint_primary.log\n",
+      "    jobid: 1\n",
+      "    resources: mem_mb=4048, disk_mb=10240\n",
+      "\n",
+      "2021-10-19 14:37:28,246 - INFO: \n",
+      "Removing temporary output file /tmp/metagraph_workflows/output_dir/graph_primary.fasta.gz.\n",
+      "2021-10-19 14:37:28,561 - WARNING: Removing temporary output file /tmp/metagraph_workflows/output_dir/graph_primary.fasta.gz.\n",
+      "[Tue Oct 19 14:37:28 2021]\n",
+      "2021-10-19 14:37:28,565 - INFO: [Tue Oct 19 14:37:28 2021]\n",
+      "Finished job 1.\n",
+      "2021-10-19 14:37:28,567 - INFO: Finished job 1.\n",
+      "3 of 11 steps (27%) done\n",
+      "2021-10-19 14:37:28,570 - INFO: 3 of 11 steps (27%) done\n",
+      "\n",
+      "2021-10-19 14:37:28,575 - INFO: \n",
+      "[Tue Oct 19 14:37:28 2021]\n",
+      "2021-10-19 14:37:28,578 - INFO: [Tue Oct 19 14:37:28 2021]\n",
+      "rule annotate:\n",
+      "    input: /tmp/paths.txt, /tmp/metagraph_workflows/output_dir/graph.dbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/columns/DONE, /tmp/metagraph_workflows/output_dir/columns/SRR5122826_subreads.fastq.gz.column.annodbg, /tmp/metagraph_workflows/output_dir/columns/SRR5122830_subreads.fastq.gz.column.annodbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/annotate.log\n",
+      "    jobid: 8\n",
+      "    resources: mem_mb=4048\n",
+      "2021-10-19 14:37:28,592 - INFO: rule annotate:\n",
+      "    input: /tmp/paths.txt, /tmp/metagraph_workflows/output_dir/graph.dbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/columns/DONE, /tmp/metagraph_workflows/output_dir/columns/SRR5122826_subreads.fastq.gz.column.annodbg, /tmp/metagraph_workflows/output_dir/columns/SRR5122830_subreads.fastq.gz.column.annodbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/annotate.log\n",
+      "    jobid: 8\n",
+      "    resources: mem_mb=4048\n",
+      "\n",
+      "2021-10-19 14:37:28,595 - INFO: \n",
+      "Touching output file /tmp/metagraph_workflows/output_dir/columns/DONE.\n",
+      "2021-10-19 14:37:29,548 - WARNING: Touching output file /tmp/metagraph_workflows/output_dir/columns/DONE.\n",
+      "[Tue Oct 19 14:37:29 2021]\n",
+      "2021-10-19 14:37:29,581 - INFO: [Tue Oct 19 14:37:29 2021]\n",
+      "Finished job 8.\n",
+      "2021-10-19 14:37:29,585 - INFO: Finished job 8.\n",
+      "4 of 11 steps (36%) done\n",
+      "2021-10-19 14:37:29,590 - INFO: 4 of 11 steps (36%) done\n",
+      "\n",
+      "2021-10-19 14:37:29,595 - INFO: \n",
+      "[Tue Oct 19 14:37:29 2021]\n",
+      "2021-10-19 14:37:29,599 - INFO: [Tue Oct 19 14:37:29 2021]\n",
+      "localrule generate_column_list:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/columns/SRR5122826_subreads.fastq.gz.column.annodbg, /tmp/metagraph_workflows/output_dir/columns/SRR5122830_subreads.fastq.gz.column.annodbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/columns.txt\n",
+      "    jobid: 7\n",
+      "2021-10-19 14:37:29,603 - INFO: localrule generate_column_list:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/columns/SRR5122826_subreads.fastq.gz.column.annodbg, /tmp/metagraph_workflows/output_dir/columns/SRR5122830_subreads.fastq.gz.column.annodbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/columns.txt\n",
+      "    jobid: 7\n",
+      "\n",
+      "2021-10-19 14:37:29,609 - INFO: \n",
+      "[Tue Oct 19 14:37:30 2021]\n",
+      "2021-10-19 14:37:30,408 - INFO: [Tue Oct 19 14:37:30 2021]\n",
+      "Finished job 7.\n",
+      "2021-10-19 14:37:30,411 - INFO: Finished job 7.\n",
+      "5 of 11 steps (45%) done\n",
+      "2021-10-19 14:37:30,415 - INFO: 5 of 11 steps (45%) done\n",
+      "\n",
+      "2021-10-19 14:37:30,442 - INFO: \n",
+      "[Tue Oct 19 14:37:30 2021]\n",
+      "2021-10-19 14:37:30,445 - INFO: [Tue Oct 19 14:37:30 2021]\n",
+      "rule transform_rd_stage0:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/columns.txt\n",
+      "    output: /tmp/metagraph_workflows/output_dir/rd_cols/vector.row_count\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/transform_rd_stage0.log\n",
+      "    jobid: 10\n",
+      "    resources: mem_mb=2048\n",
+      "2021-10-19 14:37:30,450 - INFO: rule transform_rd_stage0:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/columns.txt\n",
+      "    output: /tmp/metagraph_workflows/output_dir/rd_cols/vector.row_count\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/transform_rd_stage0.log\n",
+      "    jobid: 10\n",
+      "    resources: mem_mb=2048\n",
+      "\n",
+      "2021-10-19 14:37:30,457 - INFO: \n",
+      "[Tue Oct 19 14:37:30 2021]\n",
+      "2021-10-19 14:37:30,752 - INFO: [Tue Oct 19 14:37:30 2021]\n",
+      "Finished job 10.\n",
+      "2021-10-19 14:37:30,754 - INFO: Finished job 10.\n",
+      "6 of 11 steps (55%) done\n",
+      "2021-10-19 14:37:30,756 - INFO: 6 of 11 steps (55%) done\n",
+      "\n",
+      "2021-10-19 14:37:30,762 - INFO: \n",
+      "[Tue Oct 19 14:37:30 2021]\n",
+      "2021-10-19 14:37:30,783 - INFO: [Tue Oct 19 14:37:30 2021]\n",
+      "rule transform_rd_stage1:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/columns.txt, /tmp/metagraph_workflows/output_dir/rd_cols/vector.row_count\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.dbg.pred, /tmp/metagraph_workflows/output_dir/graph.dbg.pred_boundary, /tmp/metagraph_workflows/output_dir/graph.dbg.rd_succ, /tmp/metagraph_workflows/output_dir/graph.dbg.succ, /tmp/metagraph_workflows/output_dir/graph.dbg.succ_boundary, /tmp/metagraph_workflows/output_dir/rd_cols/vectors.row_reduction\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/transform_rd_stage1.log\n",
+      "    jobid: 9\n",
+      "    resources: mem_mb=4048\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "2021-10-19 14:37:30,800 - INFO: rule transform_rd_stage1:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/columns.txt, /tmp/metagraph_workflows/output_dir/rd_cols/vector.row_count\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.dbg.pred, /tmp/metagraph_workflows/output_dir/graph.dbg.pred_boundary, /tmp/metagraph_workflows/output_dir/graph.dbg.rd_succ, /tmp/metagraph_workflows/output_dir/graph.dbg.succ, /tmp/metagraph_workflows/output_dir/graph.dbg.succ_boundary, /tmp/metagraph_workflows/output_dir/rd_cols/vectors.row_reduction\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/transform_rd_stage1.log\n",
+      "    jobid: 9\n",
+      "    resources: mem_mb=4048\n",
+      "\n",
+      "2021-10-19 14:37:30,809 - INFO: \n",
+      "[Tue Oct 19 14:37:38 2021]\n",
+      "2021-10-19 14:37:38,427 - INFO: [Tue Oct 19 14:37:38 2021]\n",
+      "Finished job 9.\n",
+      "2021-10-19 14:37:38,430 - INFO: Finished job 9.\n",
+      "7 of 11 steps (64%) done\n",
+      "2021-10-19 14:37:38,431 - INFO: 7 of 11 steps (64%) done\n",
+      "\n",
+      "2021-10-19 14:37:38,435 - INFO: \n",
+      "[Tue Oct 19 14:37:38 2021]\n",
+      "2021-10-19 14:37:38,441 - INFO: [Tue Oct 19 14:37:38 2021]\n",
+      "rule transform_rd_stage2:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/columns.txt, /tmp/metagraph_workflows/output_dir/rd_cols/vectors.row_reduction\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.dbg.anchors, /tmp/metagraph_workflows/output_dir/rd_cols/DONE\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/transform_rd_stage2.log\n",
+      "    jobid: 6\n",
+      "    resources: mem_mb=4048\n",
+      "2021-10-19 14:37:38,453 - INFO: rule transform_rd_stage2:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/columns.txt, /tmp/metagraph_workflows/output_dir/rd_cols/vectors.row_reduction\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.dbg.anchors, /tmp/metagraph_workflows/output_dir/rd_cols/DONE\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/transform_rd_stage2.log\n",
+      "    jobid: 6\n",
+      "    resources: mem_mb=4048\n",
+      "\n",
+      "2021-10-19 14:37:38,465 - INFO: \n",
+      "Touching output file /tmp/metagraph_workflows/output_dir/rd_cols/DONE.\n",
+      "2021-10-19 14:37:50,273 - WARNING: Touching output file /tmp/metagraph_workflows/output_dir/rd_cols/DONE.\n",
+      "[Tue Oct 19 14:37:50 2021]\n",
+      "2021-10-19 14:37:50,294 - INFO: [Tue Oct 19 14:37:50 2021]\n",
+      "Finished job 6.\n",
+      "2021-10-19 14:37:50,296 - INFO: Finished job 6.\n",
+      "8 of 11 steps (73%) done\n",
+      "2021-10-19 14:37:50,300 - INFO: 8 of 11 steps (73%) done\n",
+      "\n",
+      "2021-10-19 14:37:50,327 - INFO: \n",
+      "[Tue Oct 19 14:37:50 2021]\n",
+      "2021-10-19 14:37:50,331 - INFO: [Tue Oct 19 14:37:50 2021]\n",
+      "rule annotate_row_diff_brwt:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg.anchors, /tmp/metagraph_workflows/output_dir/rd_cols/DONE, /tmp/metagraph_workflows/output_dir/graph.dbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.row_diff_brwt.annodbg, /tmp/metagraph_workflows/output_dir/graph.row_diff_brwt.annodbg.linkage\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/annotate_row_diff_brwt.log\n",
+      "    jobid: 5\n",
+      "    resources: mem_mb=4048\n",
+      "2021-10-19 14:37:50,334 - INFO: rule annotate_row_diff_brwt:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg.anchors, /tmp/metagraph_workflows/output_dir/rd_cols/DONE, /tmp/metagraph_workflows/output_dir/graph.dbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.row_diff_brwt.annodbg, /tmp/metagraph_workflows/output_dir/graph.row_diff_brwt.annodbg.linkage\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/annotate_row_diff_brwt.log\n",
+      "    jobid: 5\n",
+      "    resources: mem_mb=4048\n",
+      "\n",
+      "2021-10-19 14:37:50,345 - INFO: \n",
+      "[Tue Oct 19 14:37:57 2021]\n",
+      "2021-10-19 14:37:57,042 - INFO: [Tue Oct 19 14:37:57 2021]\n",
+      "Finished job 5.\n",
+      "2021-10-19 14:37:57,045 - INFO: Finished job 5.\n",
+      "9 of 11 steps (82%) done\n",
+      "2021-10-19 14:37:57,047 - INFO: 9 of 11 steps (82%) done\n",
+      "\n",
+      "2021-10-19 14:37:57,049 - INFO: \n",
+      "[Tue Oct 19 14:37:57 2021]\n",
+      "2021-10-19 14:37:57,052 - INFO: [Tue Oct 19 14:37:57 2021]\n",
+      "rule relax_row_diff_brwt:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.row_diff_brwt.annodbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.relax.row_diff_brwt.annodbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/relax_row_diff_brwt.log\n",
+      "    jobid: 4\n",
+      "    resources: mem_mb=4048\n",
+      "2021-10-19 14:37:57,063 - INFO: rule relax_row_diff_brwt:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.row_diff_brwt.annodbg\n",
+      "    output: /tmp/metagraph_workflows/output_dir/graph.relax.row_diff_brwt.annodbg\n",
+      "    log: /tmp/metagraph_workflows/output_dir/logs/relax_row_diff_brwt.log\n",
+      "    jobid: 4\n",
+      "    resources: mem_mb=4048\n",
+      "\n",
+      "2021-10-19 14:37:57,067 - INFO: \n",
+      "[Tue Oct 19 14:37:57 2021]\n",
+      "2021-10-19 14:37:57,377 - INFO: [Tue Oct 19 14:37:57 2021]\n",
+      "Finished job 4.\n",
+      "2021-10-19 14:37:57,379 - INFO: Finished job 4.\n",
+      "10 of 11 steps (91%) done\n",
+      "2021-10-19 14:37:57,380 - INFO: 10 of 11 steps (91%) done\n",
+      "\n",
+      "2021-10-19 14:37:57,383 - INFO: \n",
+      "[Tue Oct 19 14:37:57 2021]\n",
+      "2021-10-19 14:37:57,385 - INFO: [Tue Oct 19 14:37:57 2021]\n",
+      "localrule all:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/graph.relax.row_diff_brwt.annodbg\n",
+      "    jobid: 0\n",
+      "2021-10-19 14:37:57,390 - INFO: localrule all:\n",
+      "    input: /tmp/metagraph_workflows/output_dir/graph.dbg, /tmp/metagraph_workflows/output_dir/graph.relax.row_diff_brwt.annodbg\n",
+      "    jobid: 0\n",
+      "\n",
+      "2021-10-19 14:37:57,395 - INFO: \n",
+      "[Tue Oct 19 14:37:57 2021]\n",
+      "2021-10-19 14:37:57,398 - INFO: [Tue Oct 19 14:37:57 2021]\n",
+      "Finished job 0.\n",
+      "2021-10-19 14:37:57,403 - INFO: Finished job 0.\n",
+      "11 of 11 steps (100%) done\n",
+      "2021-10-19 14:37:57,408 - INFO: 11 of 11 steps (100%) done\n",
+      "Complete log: /Users/marc/git/projects2014-metagenome/metagraph/workflows/notebooks/.snakemake/log/2021-10-19T143727.055182.snakemake.log\n",
+      "2021-10-19 14:37:57,415 - WARNING: Complete log: /Users/marc/git/projects2014-metagenome/metagraph/workflows/notebooks/.snakemake/log/2021-10-19T143727.055182.snakemake.log\n"
+     ]
+    }
+   ],
+   "source": [
+    "cli.run_build_workflow(output_dir, sample_list_path, build_primary_graph=True, \n",
+    "                       force=True, k=5, verbose=False, threads=2,\n",
+    "                       annotation_labels_source=workflow_configs.AnnotationLabelsSource.SEQUENCE_HEADERS);"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "prostate-plaza",
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2021-03-26T08:53:52.948433Z",
+     "iopub.status.busy": "2021-03-26T08:53:52.947770Z",
+     "iopub.status.idle": "2021-03-26T08:53:52.995178Z",
+     "shell.execute_reply": "2021-03-26T08:53:52.993944Z",
+     "shell.execute_reply.started": "2021-03-26T08:53:52.948384Z"
+    },
+    "tags": []
+   },
+   "source": [
+    "## Querying Index"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "photographic-incentive",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:57.643953Z",
+     "start_time": "2021-10-19T12:37:57.448265Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:53.024150Z",
+     "iopub.status.busy": "2021-03-31T07:55:53.023769Z",
+     "iopub.status.idle": "2021-03-31T07:55:53.213976Z",
+     "shell.execute_reply": "2021-03-31T07:55:53.212880Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:53.024121Z"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\u001b[34mcolumns\u001b[m\u001b[m                             graph.dbg.succ\r\n",
+      "columns.txt                         graph.dbg.succ_boundary\r\n",
+      "graph.dbg                           graph.relax.row_diff_brwt.annodbg\r\n",
+      "graph.dbg.anchors                   graph.row_diff_brwt.annodbg\r\n",
+      "graph.dbg.pred                      graph.row_diff_brwt.annodbg.linkage\r\n",
+      "graph.dbg.pred_boundary             \u001b[34mlogs\u001b[m\u001b[m\r\n",
+      "graph.dbg.rd_succ                   \u001b[34mrd_cols\u001b[m\u001b[m\r\n"
+     ]
+    }
+   ],
+   "source": [
+    "!ls {output_dir}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "neither-balance",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:57.678758Z",
+     "start_time": "2021-10-19T12:37:57.646744Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:53.216106Z",
+     "iopub.status.busy": "2021-03-31T07:55:53.215739Z",
+     "iopub.status.idle": "2021-03-31T07:55:53.268315Z",
+     "shell.execute_reply": "2021-03-31T07:55:53.267389Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:53.216043Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "graph_path = output_dir / 'graph.dbg'\n",
+    "annotations = output_dir / 'graph.relax.row_diff_brwt.annodbg'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "herbal-portugal",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:57.735200Z",
+     "start_time": "2021-10-19T12:37:57.681257Z"
+    }
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "<function __main__.kill_server()>"
+      ]
+     },
+     "execution_count": 13,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# some \"magic\" to start a metagraph server on the commandline\n",
+    "import asyncio\n",
+    "import atexit\n",
+    "\n",
+    "s = asyncio.create_subprocess_shell(f\"metagraph server_query -i {graph_path} -a {annotations}\")\n",
+    "process = asyncio.run(s)\n",
+    "\n",
+    "def kill_server():\n",
+    "    process.kill()\n",
+    "\n",
+    "atexit.register(kill_server) # shutting down server, when jupyter kernel exits"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "heated-edmonton",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:58.754758Z",
+     "start_time": "2021-10-19T12:37:57.739594Z"
+    },
+    "execution": {
+     "iopub.execute_input": "2021-03-31T07:55:53.331447Z",
+     "iopub.status.busy": "2021-03-31T07:55:53.331031Z",
+     "iopub.status.idle": "2021-03-31T07:55:53.576023Z",
+     "shell.execute_reply": "2021-03-31T07:55:53.572471Z",
+     "shell.execute_reply.started": "2021-03-31T07:55:53.331400Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "# https://metagraph.ethz.ch/static/docs/api.html#install-api\n",
+    "from metagraph import client\n",
+    "cl = client.GraphClient('localhost', '5555')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "sunset-tours",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:58.792925Z",
+     "start_time": "2021-10-19T12:37:58.757139Z"
+    },
+    "execution": {
+     "iopub.status.busy": "2021-03-31T07:55:53.581790Z",
+     "iopub.status.idle": "2021-03-31T07:55:53.582293Z",
+     "shell.execute_reply": "2021-03-31T07:55:53.582052Z"
+    },
+    "tags": []
+   },
+   "outputs": [],
+   "source": [
+    "example_seq = 'ACCACCCAAGACTGTAATTGTTCCATCTACACAGGACATATCACAGGACACAGAATGGCTTGGGACATGATGATGAATTGGAGCCCCACCGCGACGCTGGTCCTCGCCCAACT'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "entitled-watershed",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2021-10-19T12:37:58.895090Z",
+     "start_time": "2021-10-19T12:37:58.795984Z"
+    },
+    "execution": {
+     "iopub.status.busy": "2021-03-31T07:55:53.586151Z",
+     "iopub.status.idle": "2021-03-31T07:55:53.587415Z",
+     "shell.execute_reply": "2021-03-31T07:55:53.586566Z"
+    },
+    "tags": []
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>kmer_count</th>\n",
+       "      <th>sample</th>\n",
+       "      <th>seq_description</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.1</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.2</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.3</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.4</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.5</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>95</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.108</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>96</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.109</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>97</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.111</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>98</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.112</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>99</th>\n",
+       "      <td>109</td>\n",
+       "      <td>SRR5122826.113</td>\n",
+       "      <td>0</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>100 rows × 3 columns</p>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "    kmer_count          sample seq_description\n",
+       "0          109    SRR5122826.1               0\n",
+       "1          109    SRR5122826.2               0\n",
+       "2          109    SRR5122826.3               0\n",
+       "3          109    SRR5122826.4               0\n",
+       "4          109    SRR5122826.5               0\n",
+       "..         ...             ...             ...\n",
+       "95         109  SRR5122826.108               0\n",
+       "96         109  SRR5122826.109               0\n",
+       "97         109  SRR5122826.111               0\n",
+       "98         109  SRR5122826.112               0\n",
+       "99         109  SRR5122826.113               0\n",
+       "\n",
+       "[100 rows x 3 columns]"
+      ]
+     },
+     "execution_count": 16,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# we should find the sequence back!\n",
+    "cl.search([example_seq])"
+   ]
+  }
+ ],
+ "metadata": {
+  "hide_input": false,
+  "kernelspec": {
+   "display_name": "Python (metagraph-workflows)",
+   "language": "python",
+   "name": "metagraph-workflows"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.8"
+  },
+  "toc": {
+   "base_numbering": 1,
+   "nav_menu": {},
+   "number_sections": true,
+   "sideBar": true,
+   "skip_h1_title": false,
+   "title_cell": "Table of Contents",
+   "title_sidebar": "Contents",
+   "toc_cell": false,
+   "toc_position": {},
+   "toc_section_display": true,
+   "toc_window_display": false
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/metagraph/workflows/requirements.txt b/metagraph/workflows/requirements.txt
new file mode 100644
index 0000000000..e451cad2a6
--- /dev/null
+++ b/metagraph/workflows/requirements.txt
@@ -0,0 +1 @@
+snakemake>=5
diff --git a/metagraph/workflows/setup.cfg b/metagraph/workflows/setup.cfg
new file mode 100644
index 0000000000..254a0ed4f6
--- /dev/null
+++ b/metagraph/workflows/setup.cfg
@@ -0,0 +1,27 @@
+[bumpversion]
+current_version = 0.1.0
+commit = True
+tag = True
+
+[bumpversion:file:setup.py]
+search = version='{current_version}'
+replace = version='{new_version}'
+
+[bumpversion:file:metagraph_workflows/__init__.py]
+search = __version__ = '{current_version}'
+replace = __version__ = '{new_version}'
+
+[bdist_wheel]
+universal = 1
+
+[flake8]
+exclude = docs
+
+[aliases]
+# Define setup.py command aliases here
+test = pytest
+
+[tool:pytest]
+collect_ignore = ['setup.py']
+
+
diff --git a/metagraph/workflows/setup.py b/metagraph/workflows/setup.py
new file mode 100644
index 0000000000..e3c4cc1c3f
--- /dev/null
+++ b/metagraph/workflows/setup.py
@@ -0,0 +1,52 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+"""The setup script."""
+
+from setuptools import setup, find_packages
+
+with open('README.rst') as readme_file:
+    readme = readme_file.read()
+
+setup_requirements = ['pytest-runner']
+
+with open('requirements.txt') as f:
+    requirements = list(f.readlines())
+
+test_requirements = ['pytest']
+
+setup(
+    author="Marc Zimmermann",
+    author_email='marc.zimmermann@inf.ethz.ch',
+    maintainer="Mikhail Karasikov",
+    maintainer_email='mikhaika@inf.ethz.ch',
+    classifiers=[
+        'Development Status :: 2 - Pre-Alpha',
+        'Intended Audience :: Developers',
+        'License :: OSI Approved :: MIT License',
+        'Natural Language :: English',
+        'Programming Language :: Python :: 3',
+        'Programming Language :: Python :: 3.6',
+        'Programming Language :: Python :: 3.7',
+        'Programming Language :: Python :: 3.8',
+    ],
+    description="Metagraph workflows",
+    entry_points={
+        'console_scripts': [
+            'metagraph-workflows=metagraph_workflows.cli:main'
+        ],
+    },
+    install_requires=requirements,
+    license="MIT license",
+    long_description=readme,
+    include_package_data=True,
+    keywords='metagraph_workflows',
+    name='metagraph_workflows',
+    packages=find_packages(include=['metagraph_workflows']),
+    setup_requires=setup_requirements,
+    test_suite='tests',
+    tests_require=test_requirements,
+    url='https://github.com/ratschlab/metagraph',
+    version='0.1.0',
+    zip_safe=False,
+)
diff --git a/metagraph/workflows/snakemake b/metagraph/workflows/snakemake
new file mode 120000
index 0000000000..d81d64da0c
--- /dev/null
+++ b/metagraph/workflows/snakemake
@@ -0,0 +1 @@
+metagraph_workflows/snakemake/
\ No newline at end of file
diff --git a/metagraph/workflows/tests/__init__.py b/metagraph/workflows/tests/__init__.py
new file mode 100644
index 0000000000..c52ff14f0e
--- /dev/null
+++ b/metagraph/workflows/tests/__init__.py
@@ -0,0 +1,3 @@
+# -*- coding: utf-8 -*-
+
+"""Test package for metagraph_workflows."""
diff --git a/metagraph/workflows/tests/test_build_cli.py b/metagraph/workflows/tests/test_build_cli.py
new file mode 100644
index 0000000000..affc89ef12
--- /dev/null
+++ b/metagraph/workflows/tests/test_build_cli.py
@@ -0,0 +1,76 @@
+import os
+import subprocess
+from itertools import product
+from pathlib import Path
+
+import pytest
+
+import metagraph_workflows
+from metagraph_workflows import cli, utils
+from metagraph_workflows.workflow_configs import AnnotationLabelsSource, \
+    AnnotationFormats
+
+WORKFLOW_ROOT = Path(metagraph_workflows.__file__).parent / 'snakemake'
+
+
+def run_wrapper(args_list):
+    code_base = Path(os.path.realpath(__file__)).parent.parent
+
+    process_args = ['python', '-m', 'metagraph_workflows.cli'] + args_list
+
+    proc = subprocess.run([str(a) for a in process_args],
+                          cwd=code_base, stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
+
+    return proc
+
+
+@pytest.fixture
+def output_dir(tmpdir):
+    return tmpdir / 'output'
+
+
+@pytest.fixture
+def sample_list_path(tmpdir):
+    list_path = tmpdir / 'transcript_paths.txt'
+    utils.create_transcript_path_list(WORKFLOW_ROOT / 'test_data', list_path)
+    return list_path
+
+
+@pytest.mark.parametrize('primary,annotation_format,annotation_label_src', list(product([False], [AnnotationFormats.ROW_DIFF_BRWT], [AnnotationLabelsSource.SEQUENCE_HEADERS])) +
+    list(product([False, True], AnnotationFormats, [AnnotationLabelsSource.SEQUENCE_FILE_NAMES])))
+def test_build_workflow(primary, annotation_format, annotation_label_src, sample_list_path, output_dir):
+
+    base_args = ['build',
+                 '--seqs-file-list-path', sample_list_path,
+                 '-k', 5,
+                 '--annotation-format', annotation_format.value,
+                 '--annotation-labels-source', annotation_label_src.value]
+
+    base_args += ['--build-primary-graph'] if primary else []
+
+    ret = run_wrapper(base_args + [output_dir])
+
+    if ret.returncode != 0:
+        print("Workflow test was not successful:")
+        print(ret.stdout.decode())
+
+    assert ret.returncode == 0, ret.stderr
+
+    assert len(output_dir.listdir()) > 1
+
+
+def test_workflow_invocation_via_python(sample_list_path, output_dir):
+    assert cli.run_build_workflow(output_dir, seqs_file_list_path=sample_list_path) is None
+
+
+def test_workflow_invocation_additional_args(sample_list_path, output_dir):
+    base_args = ['build',
+                 '--seqs-file-list-path', sample_list_path,
+                 '-k', 5,
+                 '--additional-snakemake-args="summary=True"']
+
+    proc = run_wrapper(base_args + [output_dir])
+
+    assert proc.returncode == 0
+    assert 'missing\tupdate' in proc.stdout.decode('UTF-8')
+    assert not output_dir.exists() # workflow should not run in snakemake 'summary' mode
diff --git a/metagraph/workflows/tests/test_resource_management.py b/metagraph/workflows/tests/test_resource_management.py
new file mode 100644
index 0000000000..b52192a84c
--- /dev/null
+++ b/metagraph/workflows/tests/test_resource_management.py
@@ -0,0 +1,36 @@
+import pytest
+import math
+
+from metagraph_workflows import resource_management as rm
+from metagraph_workflows import workflow_configs
+
+@pytest.fixture()
+def config():
+    return {
+        workflow_configs.MAX_MEMORY_MB: 16000,
+        workflow_configs.MAX_BUFFER_SIZE_MB: 50000
+    }
+
+
+def test_TransformRdStage1Resources(config):
+    rule_name = 'transform_rd_stage1'
+    inst = rm.TransformRdStage1Resources(config)
+
+    # by default get max available memory
+    assert inst.get_mem()(None, None, None) == 16000
+
+    base_mem = 1024
+
+    # now explicitly setting available memory for the rule
+    mem = 8000
+    config['rules'] = {rule_name: {'mem_mb': mem}}
+    assert inst.get_mem()(None, None, None) == mem
+
+    resources = {'mem_mb': mem}
+    assert inst.get_mem_buffer_gib()(None, None, None, resources) == int(math.ceil(0.8 * mem / 1024))
+
+    # now additionally setting mem cap explicitly
+    mem_buffer = 2048
+    config['rules'][rule_name]['mem_buffer_mb'] = mem_buffer
+    assert inst.get_mem()(None, None, None) == mem
+    assert inst.get_mem_buffer_gib()(None, None, None, resources) == int(math.ceil(mem_buffer / 1024))
diff --git a/metagraph/workflows/tests/test_utils.py b/metagraph/workflows/tests/test_utils.py
new file mode 100644
index 0000000000..782809ecfb
--- /dev/null
+++ b/metagraph/workflows/tests/test_utils.py
@@ -0,0 +1,15 @@
+import pytest
+
+import metagraph_workflows.utils
+
+@pytest.mark.parametrize("case, expected",
+    [
+        ('/my/path/sample.fasta', 'sample'),
+        ('/my/path/sample.fasta.gz', 'sample'),
+        ('/my/path/sample.txt', 'sample'),
+        ('/my/path/sample', 'sample'),
+        ('/my/path/sample/', 'sample'),
+    ]
+)
+def test_get_sample_name(case, expected):
+    assert metagraph_workflows.utils.get_sample_name(case) == expected
\ No newline at end of file
diff --git a/metagraph/workflows/tests/test_workflows.py b/metagraph/workflows/tests/test_workflows.py
new file mode 100644
index 0000000000..2357448ae4
--- /dev/null
+++ b/metagraph/workflows/tests/test_workflows.py
@@ -0,0 +1,12 @@
+
+from metagraph_workflows import cli
+
+
+def test_parse_additional_snakemake_args():
+    assert cli._parse_additional_snakemake_args('') == {}
+    assert cli._parse_additional_snakemake_args('dryrun=1') == {
+        'dryrun': True}
+
+    assert cli._parse_additional_snakemake_args(
+        'some_param="hello world" another=123') == {
+               'some_param': 'hello world', 'another': 123}