pydata · shoyer · Jun 1, 2018 · Oct 27, 2017 · Feb 12, 2018 · Feb 12, 2018
diff --git a/ci/requirements-py36.yml b/ci/requirements-py36.yml
@@ -25,3 +25,4 @@ dependencies:
     - pytest-cov
     - pydap
     - lxml
+    - PseudoNetCDF
diff --git a/doc/installing.rst b/doc/installing.rst
@@ -28,6 +28,9 @@ For netCDF and IO
 - `cftime <https://unidata.github.io/cftime>`__: recommended if you
   want to encode/decode datetimes for non-standard calendars or dates before
   year 1678 or after year 2262.
+- `PseudoNetCDF <http://github.com/barronh/pseudonetcdf/>`__: recommended
+  for accessing CAMx, GEOS-Chem (bpch), NOAA ARL files, ICARTT files
+  (ffi1001) and many other.
 
 For accelerating xarray
 ~~~~~~~~~~~~~~~~~~~~~~~
@@ -65,9 +68,9 @@ with its recommended dependencies using the conda command line tool::
 
 .. _conda: http://conda.io/
 
-We recommend using the community maintained `conda-forge <https://conda-forge.github.io/>`__ channel if you need difficult\-to\-build dependencies such as cartopy or pynio::
+We recommend using the community maintained `conda-forge <https://conda-forge.github.io/>`__ channel if you need difficult\-to\-build dependencies such as cartopy, pynio or PseudoNetCDF::
 
-    $ conda install -c conda-forge xarray cartopy pynio
+    $ conda install -c conda-forge xarray cartopy pynio pseudonetcdf
 
 New releases may also appear in conda-forge before being updated in the default
 channel.

diff --git a/doc/io.rst b/doc/io.rst
@@ -650,7 +650,26 @@ We recommend installing PyNIO via conda::
 
 .. _PyNIO: https://www.pyngl.ucar.edu/Nio.shtml
 
-.. _combining multiple files:
+.. _io.PseudoNetCDF:
+
+Formats supported by PseudoNetCDF
+---------------------------------
+
+xarray can also read CAMx, BPCH, ARL PACKED BIT, and many other file
+formats supported by PseudoNetCDF_, if PseudoNetCDF is installed. 
+PseudoNetCDF can also provide Climate Forecasting Conventions to
+CMAQ files. In addition, PseudoNetCDF can automatically register custom
+readers that subclass PseudoNetCDF.PseudoNetCDFFile. PseudoNetCDF can
+identify readers heuristically, or format can be specified via a key in
+`backend_kwargs`.
+
+To use PseudoNetCDF to read such files, supply
+``engine='pseudonetcdf'`` to :py:func:`~xarray.open_dataset`.
+
+Add ``backend_kwargs={'format': '<format name>'}`` where `<format name>`
+options are listed on the PseudoNetCDF page.
+
+.. _PseuodoNetCDF: http://github.com/barronh/PseudoNetCDF
 
 
 Formats supported by Pandas
@@ -662,6 +681,8 @@ exporting your objects to pandas and using its broad range of `IO tools`_.
 .. _IO tools: http://pandas.pydata.org/pandas-docs/stable/io.html
 
 
+.. _combining multiple files:
+
 
 Combining multiple files
 ------------------------

diff --git a/doc/whats-new.rst b/doc/whats-new.rst
@@ -31,9 +31,15 @@ What's New
 v0.10.4 (unreleased)
 --------------------
 
+Documentation
+~~~~~~~~~~~~~
+
 Enhancements
 ~~~~~~~~~~~~
 
+- added a PseudoNetCDF backend for many Atmospheric data formats including
+  GEOS-Chem, CAMx, NOAA arlpacked bit and many others.
+  By `Barron Henderson <https://github.com/barronh>`_.
 - Support writing lists of strings as netCDF attributes (:issue:`2044`).
   By `Dan Nowacki <https://github.com/dnowacki-usgs>`_.
 
@@ -45,10 +51,11 @@ Bug fixes
 
 .. _whats-new.0.10.3:
 
-v0.10.3 (April 13, 2018)
-------------------------
+v0.10.3 (unreleased)
+--------------------
 
-The minor release includes a number of bug-fixes and backwards compatible enhancements.
+Documentation
+~~~~~~~~~~~~~
 
 Enhancements
 ~~~~~~~~~~~~
@@ -75,21 +82,9 @@ Enhancements
 Bug fixes
 ~~~~~~~~~
 
-- Fixed ``decode_cf`` function to operate lazily on dask arrays
-  (:issue:`1372`). By `Ryan Abernathey <https://github.com/rabernat>`_.
 - Fixed labeled indexing with slice bounds given by xarray objects with
   datetime64 or timedelta64 dtypes (:issue:`1240`).
   By `Stephan Hoyer <https://github.com/shoyer>`_.
-- Attempting to convert an xarray.Dataset into a numpy array now raises an
-  informative error message.
-  By `Stephan Hoyer <https://github.com/shoyer>`_.
-- Fixed a bug in decode_cf_datetime where ``int32`` arrays weren't parsed
-  correctly (:issue:`2002`).
-  By `Fabien Maussion <https://github.com/fmaussion>`_.
-- When calling `xr.auto_combine()` or `xr.open_mfdataset()` with a `concat_dim`,
-  the resulting dataset will have that one-element dimension (it was
-  silently dropped, previously) (:issue:`1988`).
-  By `Ben Root <https://github.com/WeatherGod>`_.
 
 .. _whats-new.0.10.2:
 

diff --git a/xarray/backends/__init__.py b/xarray/backends/__init__.py
@@ -10,6 +10,7 @@
 from .pynio_ import NioDataStore
 from .scipy_ import ScipyDataStore
 from .h5netcdf_ import H5NetCDFStore
+from .pseudonetcdf_ import PseudoNetCDFDataStore
 from .zarr import ZarrStore
 
 __all__ = [
@@ -21,4 +22,5 @@
     'ScipyDataStore',
     'H5NetCDFStore',
     'ZarrStore',
+    'PseudoNetCDFDataStore',
 ]
diff --git a/xarray/backends/api.py b/xarray/backends/api.py
@@ -147,7 +147,8 @@ def _get_lock(engine, scheduler, format, path_or_file):
 def open_dataset(filename_or_obj, group=None, decode_cf=True,
                  mask_and_scale=True, decode_times=True, autoclose=False,
                  concat_characters=True, decode_coords=True, engine=None,
-                 chunks=None, lock=None, cache=None, drop_variables=None):
+                 chunks=None, lock=None, cache=None, drop_variables=None,
+                 backend_kwargs=None):
     """Load and decode a dataset from a file or file-like object.
 
     Parameters
@@ -187,7 +188,7 @@ def open_dataset(filename_or_obj, group=None, decode_cf=True,
     decode_coords : bool, optional
         If True, decode the 'coordinates' attribute to identify coordinates in
         the resulting dataset.
-    engine : {'netcdf4', 'scipy', 'pydap', 'h5netcdf', 'pynio'}, optional
+    engine : {'netcdf4', 'scipy', 'pydap', 'h5netcdf', 'pynio', 'pseudonetcdf'}, optional
         Engine to use when reading files. If not provided, the default engine
         is chosen based on available dependencies, with a preference for
         'netcdf4'.
@@ -212,6 +213,10 @@ def open_dataset(filename_or_obj, group=None, decode_cf=True,
         A variable or list of variables to exclude from being parsed from the
         dataset. This may be useful to drop variables with problems or
         inconsistent values.
+    backend_kwargs: dictionary, optional
+        A dictionary of keyword arguments to pass on to the backend. This
+        may be useful when backend options would improve performance or 
+        allow user control of dataset processing.
 
     Returns
     -------
@@ -231,6 +236,9 @@ def open_dataset(filename_or_obj, group=None, decode_cf=True,
     if cache is None:
         cache = chunks is None
 
+    if backend_kwargs is None:
+        backend_kwargs = {}
+
     def maybe_decode_store(store, lock=False):
         ds = conventions.decode_cf(
             store, mask_and_scale=mask_and_scale, decode_times=decode_times,
@@ -296,18 +304,26 @@ def maybe_decode_store(store, lock=False):
         if engine == 'netcdf4':
             store = backends.NetCDF4DataStore.open(filename_or_obj,
                                                    group=group,
-                                                   autoclose=autoclose)
+                                                   autoclose=autoclose,
+                                                   **backend_kwargs)
         elif engine == 'scipy':
             store = backends.ScipyDataStore(filename_or_obj,
-                                            autoclose=autoclose)
+                                            autoclose=autoclose,
+                                            **backend_kwargs)
         elif engine == 'pydap':
-            store = backends.PydapDataStore.open(filename_or_obj)
+            store = backends.PydapDataStore.open(filename_or_obj,
+                                                 **backend_kwargs)
         elif engine == 'h5netcdf':
             store = backends.H5NetCDFStore(filename_or_obj, group=group,
-                                           autoclose=autoclose)
+                                           autoclose=autoclose,
+                                           **backend_kwargs)
         elif engine == 'pynio':
             store = backends.NioDataStore(filename_or_obj,
-                                          autoclose=autoclose)
+                                          autoclose=autoclose,
+                                           **backend_kwargs)
+        elif engine == 'pseudonetcdf':
+            store = backends.PseudoNetCDFDataStore.open(
+                filename_or_obj, autoclose=autoclose, **backend_kwargs)
         else:
             raise ValueError('unrecognized engine for open_dataset: %r'
                              % engine)
@@ -329,7 +345,8 @@ def maybe_decode_store(store, lock=False):
 def open_dataarray(filename_or_obj, group=None, decode_cf=True,
                    mask_and_scale=True, decode_times=True, autoclose=False,
                    concat_characters=True, decode_coords=True, engine=None,
-                   chunks=None, lock=None, cache=None, drop_variables=None):
+                   chunks=None, lock=None, cache=None, drop_variables=None,
+                   backend_kwargs=None):
     """Open an DataArray from a netCDF file containing a single data variable.
 
     This is designed to read netCDF files with only one data variable. If
@@ -396,6 +413,10 @@ def open_dataarray(filename_or_obj, group=None, decode_cf=True,
         A variable or list of variables to exclude from being parsed from the
         dataset. This may be useful to drop variables with problems or
         inconsistent values.
+    backend_kwargs: dictionary, optional
+        A dictionary of keyword arguments to pass on to the backend. This
+        may be useful when backend options would improve performance or 
+        allow user control of dataset processing.
 
     Notes
     -----
@@ -410,13 +431,15 @@ def open_dataarray(filename_or_obj, group=None, decode_cf=True,
     --------
     open_dataset
     """
+
     dataset = open_dataset(filename_or_obj, group=group, decode_cf=decode_cf,
                            mask_and_scale=mask_and_scale,
                            decode_times=decode_times, autoclose=autoclose,
                            concat_characters=concat_characters,
                            decode_coords=decode_coords, engine=engine,
                            chunks=chunks, lock=lock, cache=cache,
-                           drop_variables=drop_variables)
+                           drop_variables=drop_variables,
+                           backend_kwargs=backend_kwargs)
 
     if len(dataset.data_vars) != 1:
         raise ValueError('Given file dataset contains more than one data '

diff --git a/xarray/backends/pseudonetcdf_.py b/xarray/backends/pseudonetcdf_.py
@@ -0,0 +1,120 @@
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+
+import functools
+
+import numpy as np
+
+from .. import Variable
+from ..core.pycompat import OrderedDict
+from ..core.utils import (FrozenOrderedDict, Frozen)
+from ..core import indexing
+
+from .common import AbstractDataStore, DataStorePickleMixin, BackendArray
+
+
+class PncArrayWrapper(BackendArray):
+
+    def __init__(self, variable_name, datastore):
+        self.datastore = datastore
+        self.variable_name = variable_name
+        array = self.get_array()
+        self.shape = array.shape
+        self.dtype = np.dtype(array.dtype)
+
+    def get_array(self):
+        self.datastore.assert_open()
+        return self.datastore.ds.variables[self.variable_name]
+
+    def __getitem__(self, key):
+        key, np_inds = indexing.decompose_indexer(
+            key, self.shape, indexing.IndexingSupport.OUTER_1VECTOR)
+
+        with self.datastore.ensure_open(autoclose=True):
+            array = self.get_array()[key.tuple]  # index backend array
+
+        if len(np_inds.tuple) > 0:
+            # index the loaded np.ndarray
+            array = indexing.NumpyIndexingAdapter(array)[np_inds]
+        return array
+
+
+_genericncf = ('Dataset', 'netcdf', 'ncf', 'nc')
+
+
+class _notnetcdf:
+    def __eq__(self, lhs):
+        return lhs not in _genericncf
+
+
+class PseudoNetCDFDataStore(AbstractDataStore, DataStorePickleMixin):
+    """Store for accessing datasets via PseudoNetCDF
+    """
+    @classmethod
+    def open(cls, filename, format=None, writer=None,
+             autoclose=False, **format_kwds):
+        from PseudoNetCDF._getreader import getreader, getreaderdict
+        readerdict = getreaderdict()
+        reader = getreader(filename, format=format, **format_kwds)
+        _genreaders = tuple([readerdict[rn] for rn in _genericncf])
+        if isinstance(reader, _genreaders):
+            raise ValueError(('In xarray, PseudoNetCDF should not be used ' +
+                              'to read netcdf files with unknown metadata. ' +
+                              'Instead, use netcdf4. If this is a known ' +
+                              'format, specify it using the format keyword ' +
+                              '(or backend_kwargs={\'format\': <name>} from ' +
+                              'open_dataset).'))
+
+        opener = functools.partial(reader, filename, **format_kwds)
+        ds = opener()
+        mode = format_kwds.get('mode', 'r')
+        return cls(ds, mode=mode, writer=writer, opener=opener,
+                   autoclose=autoclose)
+
+    def __init__(self, pnc_dataset, mode='r', writer=None, opener=None,
+                 autoclose=False):
+
+        if autoclose and opener is None:
+            raise ValueError('autoclose requires an opener')
+
+        self._ds = pnc_dataset
+        self._autoclose = autoclose
+        self._isopen = True
+        self._opener = opener
+        self._mode = mode
+        super(PseudoNetCDFDataStore, self).__init__()
+
+    def open_store_variable(self, name, var):
+        with self.ensure_open(autoclose=False):
+            data = indexing.LazilyOuterIndexedArray(
+                PncArrayWrapper(name, self)
+            )
+        attrs = OrderedDict((k, getattr(var, k)) for k in var.ncattrs())
+        return Variable(var.dimensions, data, attrs)
+
+    def get_variables(self):
+        with self.ensure_open(autoclose=False):
+            return FrozenOrderedDict((k, self.open_store_variable(k, v))
+                                     for k, v in self.ds.variables.items())
+
+    def get_attrs(self):
+        with self.ensure_open(autoclose=True):
+            return Frozen(dict([(k, getattr(self.ds, k))
+                                for k in self.ds.ncattrs()]))
+
+    def get_dimensions(self):
+        with self.ensure_open(autoclose=True):
+            return Frozen(self.ds.dimensions)
+
+    def get_encoding(self):
+        encoding = {}
+        encoding['unlimited_dims'] = set(
+            [k for k in self.ds.dimensions
+             if self.ds.dimensions[k].isunlimited()])
+        return encoding
+
+    def close(self):
+        if self._isopen:
+            self.ds.close()
+        self._isopen = False
diff --git a/xarray/tests/__init__.py b/xarray/tests/__init__.py
@@ -68,6 +68,7 @@ def _importorskip(modname, minversion=None):
 has_netCDF4, requires_netCDF4 = _importorskip('netCDF4')
 has_h5netcdf, requires_h5netcdf = _importorskip('h5netcdf')
 has_pynio, requires_pynio = _importorskip('Nio')
+has_pseudonetcdf, requires_pseudonetcdf = _importorskip('PseudoNetCDF')
 has_cftime, requires_cftime = _importorskip('cftime')
 has_dask, requires_dask = _importorskip('dask')
 has_bottleneck, requires_bottleneck = _importorskip('bottleneck')
-Original file line number
+Diff line change
@@ Expand Up / @@ -25,3 +25,4 @@ dependencies: @@
         - pytest-cov
         - pydap
         - lxml
+        - PseudoNetCDF